[하둡 완벽 가이드] Chapter 1 하둡과의 만남

1.2 데이터 저장소와 분석

하드 디스크 용량 증가 속도 >>> 데이터 읽는 속도 ➡️ 병렬 작업으로 시간 단축

❓문제점1: 하드웨어 장애
많은 하드웨어를 사용할수록 장애 발생 확률도 증가
➡️ 데이터를 여러곳에 복제(하둡: HDFS)

❓ 문제점2: 분석 작업에서 분할된 데이터 결합해야함
정합성을 지키기 어려움
➡️ 맵리듀스: 키-값 의 계산으로 변환한 추상화된 프로그래밍 모델 제공

1.3 전체 데이터에 질의하기

맵리듀스: 일괄 질의 처리기

전체 데이터셋을 대상으로 비정형 쿼리 수행 ➡️ 합리적인 시간 내에 결과를 보여줌

1.4 일괄 처리를 넘어서

맵리듀스: 일괄 질의 처리기 ➡️ 대화형 분석 ❌, 오프라인 용도 적합

온라인 접근 지원 구성요소

- HBase: HDFS를 기본 저장소로 하는 키-값 저장소, 개별 행에 대한 온라인 읽기/쓰기&산적한 데이터를 읽고 쓰는 일괄 처리 둘 다 치원
- YARN: 클러스터 자원 관리 시스템, 하둡 클러스터에 저장된 데이터 처리할 수 있게 해줌

1.5 다른 시스템과의 비교

1.5.1 관계형 데이터베이스 관리 시스템

디스크 드라이브: 탐색 시간(디스크 조작) 발전 < 전송 속도(디스크 대역폭) 발전

	전통적인 RDBMS ➡️ 지속적으로 변경되는 데이터셋	맵리듀스 ➡️ 한 번 쓰고 여러 번 읽는 애플리케이션
데이터 크기	기가바이트	페타바이트
접근 방식	대화형과 일괄 처리 방식	일괄 처리 방식
변경	여러 번 읽고 쓰기	한 번 쓰고 여러 번 읽기
트랜잭션	ACID	없음
구조	쓰기 기준 스키마	읽기 기준 스키마
무결성	높음	낮음
확장성	비선형	선형

1.5.2 그리드 컴퓨팅

고성능 컴퓨팅(HPC): 계산 노드들이 대용량 데이터에 접근해야할 때 병목현상 발생
하둡: 계산 노드에 데이터 함께 배치 ➡️ 접근 빠름 (데이터 지역성)

MPI(메시지 전달 인터페이스): 개발자에게 상당한 제어권 ➡️ 데이터 흐름의 메커니즘 명확하게 다룰 것 요구
하둡: (맵리듀스: 비공유 아키텍처 ➡️) 데이터 처리 최상위 수준에서만 동작 ➡️ 데이터 모델의 관점에서만 생각

1.5.3 자발적 컴퓨팅

자발적 컴퓨팅 프로젝트: 청크(작업 단위(로 해결할 문제들 분리, 이를 분석하기 위해 전 세계의 컴퓨터로 보냄, CPU 중심적, 연결 속도 가변적, 데이터 지역성 없는 신뢰할 수 없는 머신에서 오랜 시간이 걸리는 계산 실행

하둡: 맵리듀스 - 매우 높은 네트워크 대역폭을 가진 단일 데이터 센터에 있는 신뢰성 높은 전용 사드웨어에서 수 분 또는 수 시간 내에 잡을 실행할 수 있도록 설계

1.7 이 책의 내용

'Data > Hadoop' 카테고리의 다른 글

[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 (0)	2024.05.08
[하둡 완벽 가이드] Chapter 4 하둡 I/O (0)	2024.05.05
[하둡] 하둡 설치하기 (0)	2024.04.07
[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 (0)	2024.03.24
[하둡 완벽 가이드] Chapter 2 맵리듀스 (0)	2024.03.17

PAXXWORD

[하둡 완벽 가이드] Chapter 1 하둡과의 만남

1.2 데이터 저장소와 분석

1.3 전체 데이터에 질의하기

1.4 일괄 처리를 넘어서

1.5 다른 시스템과의 비교

1.5.1 관계형 데이터베이스 관리 시스템

1.5.2 그리드 컴퓨팅

1.5.3 자발적 컴퓨팅

1.7 이 책의 내용

'Data > Hadoop' 카테고리의 다른 글

티스토리툴바

[하둡 완벽 가이드] Chapter 1 하둡과의 만남

1.2 데이터 저장소와 분석

1.3 전체 데이터에 질의하기

1.4 일괄 처리를 넘어서

1.5 다른 시스템과의 비교

1.5.1 관계형 데이터베이스 관리 시스템

1.5.2 그리드 컴퓨팅

1.5.3 자발적 컴퓨팅

1.7 이 책의 내용

'Data > Hadoop' 카테고리의 다른 글

관련글

티스토리툴바