[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.3 맵리듀스)

맵리듀스: 프로그래밍 모델(간단한 단위작업 반복 처리 시 사용)

= 맵 작업(간단한 단위작업 처리) + 리듀스 작업(맵 작업의 결과물 집계)

➡️ 병렬 처리 가능

<맵 작업>

맵의 입력: 스플릿 단위(128MB)로 분할

맵 작업 속도: HDFS에 입력 데이터가 있는 노드 > 랙의 노드 > 다른 랙의 노드

➡️ 맵의 작업 결과(= 리듀스 작업 입력): 로컬 디스크에 임시 저장

<리듀스 작업>

- 리듀서 한 개: 모든 데이터의 정렬작업이 같음, 시간 ⬆️

- 리듀서 여러 개: 리듀서의 수만큼 파일 생성

- 리듀서 X(Mapping Only): 원천 데이터를 읽어서 가공, 바로 사용

2.3.1 처리 단계

1. 입력

2. 맵

3. 컴바이너

4. 파티셔너

5. 셔플

6. 정렬

7. 리듀서

8. 출력

PAXXWORD