1.2 데이터 저장소와 분석
하드 디스크 용량 증가 속도 >>> 데이터 읽는 속도 ➡️ 병렬 작업으로 시간 단축
❓문제점1: 하드웨어 장애
많은 하드웨어를 사용할수록 장애 발생 확률도 증가
➡️ 데이터를 여러곳에 복제(하둡: HDFS)
❓ 문제점2: 분석 작업에서 분할된 데이터 결합해야함
정합성을 지키기 어려움
➡️ 맵리듀스: 키-값 의 계산으로 변환한 추상화된 프로그래밍 모델 제공
1.3 전체 데이터에 질의하기
맵리듀스: 일괄 질의 처리기
전체 데이터셋을 대상으로 비정형 쿼리 수행 ➡️ 합리적인 시간 내에 결과를 보여줌
1.4 일괄 처리를 넘어서
맵리듀스: 일괄 질의 처리기 ➡️ 대화형 분석 ❌, 오프라인 용도 적합
온라인 접근 지원 구성요소
- HBase: HDFS를 기본 저장소로 하는 키-값 저장소, 개별 행에 대한 온라인 읽기/쓰기&산적한 데이터를 읽고 쓰는 일괄 처리 둘 다 치원
- YARN: 클러스터 자원 관리 시스템, 하둡 클러스터에 저장된 데이터 처리할 수 있게 해줌
1.5 다른 시스템과의 비교
1.5.1 관계형 데이터베이스 관리 시스템
디스크 드라이브: 탐색 시간(디스크 조작) 발전 < 전송 속도(디스크 대역폭) 발전
전통적인 RDBMS ➡️ 지속적으로 변경되는 데이터셋 |
맵리듀스 ➡️ 한 번 쓰고 여러 번 읽는 애플리케이션 |
|
데이터 크기 | 기가바이트 | 페타바이트 |
접근 방식 | 대화형과 일괄 처리 방식 | 일괄 처리 방식 |
변경 | 여러 번 읽고 쓰기 | 한 번 쓰고 여러 번 읽기 |
트랜잭션 | ACID | 없음 |
구조 | 쓰기 기준 스키마 | 읽기 기준 스키마 |
무결성 | 높음 | 낮음 |
확장성 | 비선형 | 선형 |
1.5.2 그리드 컴퓨팅
고성능 컴퓨팅(HPC): 계산 노드들이 대용량 데이터에 접근해야할 때 병목현상 발생
하둡: 계산 노드에 데이터 함께 배치 ➡️ 접근 빠름 (데이터 지역성)
MPI(메시지 전달 인터페이스): 개발자에게 상당한 제어권 ➡️ 데이터 흐름의 메커니즘 명확하게 다룰 것 요구
하둡: (맵리듀스: 비공유 아키텍처 ➡️) 데이터 처리 최상위 수준에서만 동작 ➡️ 데이터 모델의 관점에서만 생각
1.5.3 자발적 컴퓨팅
자발적 컴퓨팅 프로젝트: 청크(작업 단위(로 해결할 문제들 분리, 이를 분석하기 위해 전 세계의 컴퓨터로 보냄, CPU 중심적, 연결 속도 가변적, 데이터 지역성 없는 신뢰할 수 없는 머신에서 오랜 시간이 걸리는 계산 실행
하둡: 맵리듀스 - 매우 높은 네트워크 대역폭을 가진 단일 데이터 센터에 있는 신뢰성 높은 전용 사드웨어에서 수 분 또는 수 시간 내에 잡을 실행할 수 있도록 설계
1.7 이 책의 내용
'Data > Hadoop' 카테고리의 다른 글
[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 (0) | 2024.05.08 |
---|---|
[하둡 완벽 가이드] Chapter 4 하둡 I/O (0) | 2024.05.05 |
[하둡] 하둡 설치하기 (0) | 2024.04.07 |
[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 (0) | 2024.03.24 |
[하둡 완벽 가이드] Chapter 2 맵리듀스 (0) | 2024.03.17 |