본문 바로가기

Data/Hadoop10

[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.4 YARN) 2.4 YARNYARN: 클러스터 리소스 관리 / 애플리케이션 라이프 사이클 관리 아키텍처 = 자원 관리(리소스 매니저  & 노드매니저) + 애플리케이션 라이프 사이클 관리 기능(애플리케이션 마스터 & 컨테이너) - 자원 관리    - 노드매니저: 클러스터의 각 노드마다 실행 ➡️ 현재 노드의 사원 상태 관리 ➡️ 리소스매니저에 보고    - 리소스 매니저: 노트매니저의 정보 ➡️ 클러스터 전체 자원 관리 (자원 사용 상태 모니터링, 애플리케이션 마스터 자원 요청 ➡️ 빈 자원 사용) - 라이프사이클 관리1. 클라이언트: 애플리케이션 ➡️ 리소스 매니저2. 리소스 매니저: 비어있는 노드에서 애플리케이션 마스터 실행3. 애플리케이션 마스터: 작업 실행 자원 요청 ➡️ 리소스 매니저4. 자원 할당5. 각 노.. 2024. 7. 4.
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.3 맵리듀스) 맵리듀스: 프로그래밍 모델(간단한 단위작업 반복 처리 시 사용)= 맵 작업(간단한 단위작업 처리) + 리듀스 작업(맵 작업의 결과물 집계)➡️ 병렬 처리 가능 맵의 입력: 스플릿 단위(128MB)로 분할 맵 작업 속도: HDFS에 입력 데이터가 있는 노드 > 랙의 노드 > 다른 랙의 노드  ➡️ 맵의 작업 결과(= 리듀스 작업 입력): 로컬 디스크에 임시 저장  - 리듀서 한 개: 모든 데이터의 정렬작업이 같음, 시간 ⬆️- 리듀서 여러 개: 리듀서의 수만큼 파일 생성- 리듀서 X(Mapping Only): 원천 데이터를 읽어서 가공, 바로 사용  2.3.1 처리 단계 1. 입력2. 맵3. 컴바이너4. 파티셔너5. 셔플6. 정렬7. 리듀서8. 출력 2024. 6. 30.
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.2 HDFS) 2.1 하둡이란?  하둡: 적당한 성능의 범용 컴퓨터 여러 대 클러스터화, 큰 크기의 데이터 클러스터에서 병렬로 동시에 처리 ➡️ 처리 속도 ⬆️  하둡의 구성 요소- Hadoop Common: 공통 컴포넌트 모듈(하둡의 다른 모듈 지원)- Hadoop HDFS: 분사너장 처리 모듈, 여러개의 서버 ➡️ 하나의 서버처럼 묶어서 데이터 저장- Hadoop YARN: 클러스터 자원관리 및 스케줄링- Hadoop Mapreduce: 분산 처리 모듈(분산 데이터 병렬처리)- Hadoop Ozone: 오브젝트 저장소 장점- 오픈소스 라이선스 ➡️ 비용 부담 ⬇️- 시스템 중단X 장비 추가 용이- 일부 장비 장애 발생해도 전체 시스템 사용성 영향 ⬇️- 비용대비 빠른 데이터 처리- 오프라인 배치 프로세싱 최적화 단.. 2024. 6. 3.
[하둡, 하이브로 시작하기] 1. 빅데이터 1. 빅데이터란? 빅데이터- 데이터 규모: 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터- 업무 수행 방식: 다양한 종류의 데규모 데이터로부터 가치 추출 ➡️ 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처 특징- Volume: 저장장치 가격 ⬇️ && 네트워크 속도 ⬆️ ➡️ (수 페타바이트의 데이터)/일 생성- Variety: 정형, 반정형, 비정형 형태- Velocity: 정보 유통 속도 ⬆️⬆️, 데이터 처리 속도 ⬆️+) Value: 유의미한 가치, 지표를 사용하는 사람의 의사 결정에 도움+) Veracity: 데이터의 신뢰성, 정확성 ⬆️ 1.1 데이터의 형태수집 형태- 정형: 칼럼 단위의 명확한 구분자, 형태 존재    e.g., 데이터베이스,.. 2024. 5. 26.
[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 6.1 환경 설정 APIConfiguration 클래스 인스턴스: 환경 설정 속성 & 값의 집합 color yellow Color size 10 Size weight heavy true Weight size-weight ${size},${weight} Size and weight  6.1.1 리소스 결합하기환경설정: 하나 이상의 리소스 파일(XML) 사용 가능- 기본 속성: core-default.xml 파일- 특정 속성: core-site.xml 파일  size 12 weight light  나중에 추가된 리소스에 정의된 속성: 이전에 정의된 속성 오버라이드 .. 2024. 5. 8.
[하둡 완벽 가이드] Chapter 4 하둡 I/O 5.1 데이터 무결성손상된 데이터를 검출하는 일반적인 방법: 처음 유입되었을 때 & 신뢰할 수 없는 통신 채널로 전송되었을 때 체크섬 계산 단점: 원상복구하는 방법 제공 ❌, 에러 검출만 수행 5.1.1 HDFS의 데이터 무결성  i) 읽기 과정에서 블록 검증    데이터노드: (클라이언트 or 다른 데이터노드로부터) 수신한 데이터 검증     클라이언트: 데이터노드에 저장된 체크섬 & 수신된 데이터로부터 계산된 체크섬 검증  ii) 저장된 모든 블록 주기적으로 검증DataBlockScanner: '비트 로트'에 의한 데이터 손실 피함  if 에러 검출)클라이언트: 훼손된 블록 & 데이터노드 정보 ➡️ 네임노드 보고, ChecksumException 발생 네임노드: 복제본 손상 표시, 해당 블록 복사 금.. 2024. 5. 5.