본문 바로가기
Data/Hadoop

[하둡 완벽 가이드] Chapter 1 하둡과의 만남

by 양진주 2024. 3. 17.

1.2 데이터 저장소와 분석 

하드 디스크 용량 증가 속도 >>> 데이터 읽는 속도 ➡️ 병렬 작업으로 시간 단축 

❓문제점1: 하드웨어 장애 
많은 하드웨어를 사용할수록 장애 발생 확률도 증가
➡️ 데이터를 여러곳에 복제(하둡: HDFS)

❓ 문제점2: 분석 작업에서 분할된 데이터 결합해야함 
정합성을 지키기 어려움
➡️ 맵리듀스: 키-값 의 계산으로 변환한 추상화된 프로그래밍 모델 제공 

 

1.3 전체 데이터에 질의하기 

맵리듀스: 일괄 질의 처리기

전체 데이터셋을 대상으로 비정형 쿼리 수행 ➡️ 합리적인 시간 내에 결과를 보여줌 

 

1.4 일괄 처리를 넘어서

맵리듀스: 일괄 질의 처리기 ➡️ 대화형 분석 ❌, 오프라인 용도 적합 

온라인 접근 지원 구성요소

- HBase: HDFS를 기본 저장소로 하는 키-값 저장소, 개별 행에 대한 온라인 읽기/쓰기&산적한 데이터를 읽고 쓰는 일괄 처리 둘 다 치원 
- YARN: 클러스터 자원 관리 시스템, 하둡 클러스터에 저장된 데이터 처리할 수 있게 해줌 

 

1.5 다른 시스템과의 비교

1.5.1 관계형 데이터베이스 관리 시스템

디스크 드라이브: 탐색 시간(디스크 조작) 발전 < 전송 속도(디스크 대역폭) 발전 

  전통적인 RDBMS
➡️ 지속적으로 변경되는 데이터셋
맵리듀스
➡️ 한 번 쓰고 여러 번 읽는 애플리케이션 
데이터 크기 기가바이트 페타바이트
접근 방식 대화형과 일괄 처리 방식 일괄 처리 방식 
변경 여러 번 읽고 쓰기 한 번 쓰고 여러 번 읽기
트랜잭션 ACID  없음
구조 쓰기 기준 스키마 읽기 기준 스키마
무결성 높음 낮음
확장성 비선형 선형 

 

 

1.5.2 그리드 컴퓨팅

고성능 컴퓨팅(HPC): 계산 노드들이 대용량 데이터에 접근해야할 때 병목현상 발생 
하둡: 계산 노드에 데이터 함께 배치 ➡️ 접근 빠름 (데이터 지역성) 

 

MPI(메시지 전달 인터페이스): 개발자에게 상당한 제어권 ➡️ 데이터 흐름의 메커니즘 명확하게 다룰 것 요구 
하둡: (맵리듀스: 비공유 아키텍처 ➡️) 데이터 처리 최상위 수준에서만 동작 ➡️ 데이터 모델의 관점에서만 생각

 

1.5.3 자발적 컴퓨팅

자발적 컴퓨팅 프로젝트: 청크(작업 단위(로 해결할 문제들 분리, 이를 분석하기 위해 전 세계의 컴퓨터로 보냄, CPU 중심적, 연결 속도 가변적, 데이터 지역성 없는 신뢰할 수 없는 머신에서 오랜 시간이 걸리는 계산 실행 

하둡: 맵리듀스 - 매우 높은 네트워크 대역폭을 가진 단일 데이터 센터에 있는 신뢰성 높은 전용 사드웨어에서 수 분 또는 수 시간 내에 잡을 실행할 수 있도록 설계 

 

1.7 이 책의 내용