맵리듀스: 프로그래밍 모델(간단한 단위작업 반복 처리 시 사용)
= 맵 작업(간단한 단위작업 처리) + 리듀스 작업(맵 작업의 결과물 집계)
➡️ 병렬 처리 가능
<맵 작업>
맵의 입력: 스플릿 단위(128MB)로 분할
맵 작업 속도: HDFS에 입력 데이터가 있는 노드 > 랙의 노드 > 다른 랙의 노드
➡️ 맵의 작업 결과(= 리듀스 작업 입력): 로컬 디스크에 임시 저장
<리듀스 작업>
- 리듀서 한 개: 모든 데이터의 정렬작업이 같음, 시간 ⬆️
- 리듀서 여러 개: 리듀서의 수만큼 파일 생성
- 리듀서 X(Mapping Only): 원천 데이터를 읽어서 가공, 바로 사용
2.3.1 처리 단계
1. 입력
2. 맵
3. 컴바이너
4. 파티셔너
5. 셔플
6. 정렬
7. 리듀서
8. 출력
'Data > Hadoop' 카테고리의 다른 글
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.4 YARN) (0) | 2024.07.04 |
---|---|
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.2 HDFS) (0) | 2024.06.03 |
[하둡, 하이브로 시작하기] 1. 빅데이터 (0) | 2024.05.26 |
[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 (0) | 2024.05.08 |
[하둡 완벽 가이드] Chapter 4 하둡 I/O (0) | 2024.05.05 |