본문 바로가기

Archive12

하둡 7장 7.1 맵리듀스 잡 실행 상세분석Job 객체의 submit ( ) 메서드 호출로 맵리듀스 잡을 실행​클라이언트: 맵리듀스 잡을 제출YARN 리소스 매니저: 클러스터 상에 계산 리소스의 할당을 제어YARN 노드 매니저: 클러스터의 각 머신에서 계산 컨테이너를 시작하고 모니터링맵리듀스 애플리케이션 마스터: 맵리듀스 잡을 수행하는 각 태스크를 제어. 애플리케이션 마스터와 맵 리듀스 태스크는 컨테이너 내에서 실행되며, 리소스 매니저는 잡을 할당하고 노드 매니저는 태스크를 관리함분산 파일시스템: 다른 단계 간에 잡 리소스 파일들을 공유하는 데 사용(보통 HDFS를 사용)​7.1.1 잡 제출 Job의 submit ( ) 메서드: 내부의 OobSubmitter 인스턴스를 생성, submitJoblnternal () .. 2024. 5. 20.
[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 6.1 환경 설정 APIConfiguration 클래스 인스턴스: 환경 설정 속성 & 값의 집합 color yellow Color size 10 Size weight heavy true Weight size-weight ${size},${weight} Size and weight  6.1.1 리소스 결합하기환경설정: 하나 이상의 리소스 파일(XML) 사용 가능- 기본 속성: core-default.xml 파일- 특정 속성: core-site.xml 파일  size 12 weight light  나중에 추가된 리소스에 정의된 속성: 이전에 정의된 속성 오버라이드 .. 2024. 5. 8.
[하둡 완벽 가이드] Chapter 4 하둡 I/O 5.1 데이터 무결성손상된 데이터를 검출하는 일반적인 방법: 처음 유입되었을 때 & 신뢰할 수 없는 통신 채널로 전송되었을 때 체크섬 계산 단점: 원상복구하는 방법 제공 ❌, 에러 검출만 수행 5.1.1 HDFS의 데이터 무결성  i) 읽기 과정에서 블록 검증    데이터노드: (클라이언트 or 다른 데이터노드로부터) 수신한 데이터 검증     클라이언트: 데이터노드에 저장된 체크섬 & 수신된 데이터로부터 계산된 체크섬 검증  ii) 저장된 모든 블록 주기적으로 검증DataBlockScanner: '비트 로트'에 의한 데이터 손실 피함  if 에러 검출)클라이언트: 훼손된 블록 & 데이터노드 정보 ➡️ 네임노드 보고, ChecksumException 발생 네임노드: 복제본 손상 표시, 해당 블록 복사 금.. 2024. 5. 5.
[하둡] 하둡 설치하기 리눅스 기반으로 개발된 프로그램이기 때문에 우분투에 깔린 가상머신에서 설치를 진행했다 도움을 받은 글: https://velog.io/@dbswlfnvl/%EC%9A%B0%EB%B6%84%ED%88%AC-%ED%95%98%EB%91%A1%EC%84%A4%EC%B9%98 우분투 하둡설치 하둡이란 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 따라서 우분투에 하둡을 설치하기 전에 자바를 먼저 설치해줘야 됩니다. 자바설치 먼저 apt-get을 업데이 velog.io 다른 글들을 참고했을 땐 404 에러 메시지가 뜨며 제대로 작동이 안됐는데 두가지 이유 때문이었다 1. 방화벽 해제를 해야함 2. 예전 http주소가 아니라 최신 하둡 http 주소가 필요함 링크된 글에 쓰여진 대로 방.. 2024. 4. 7.
[하둡 완벽 가이드] Chapter 4 YARN 아파치 YARN: 하둡의 클러스터 자원 관리 시스템 (맵리듀스 + 분산 컴퓨팅 도구 지원) 4.1YARN 애플리케이션 수행 해부해보기 YARN: 리소스 매니저 + 노드 매니저 ➡️ 핵심 서비스 제공 - 리소스 매니저: 클러스터 유일, 클러스터 전체 자원 사용량 관리 - 노드 매니저: 모든 머신에서 실행, 컨테이너 구동 + 모니터링 클라이언트: 리소스 매니저 접속 ➡️ 애플리케이션 마스터 프로세스 구동 요청 ➡️ 리소스 매니저: 컨테이너에서 애플리케이션 마스터를 시작할 수 있는 노드 매니저 찾음 (➡️ 애플리케이션 마스터: 더 많은 컨테이너 요청 ➡️ 분산 처리 수행) YARN 자체: 애플리케이션(클라이언트, 마스터, 프로세스) 상호 통신 기능 제공 ❌ ➡️ 주요 YARN 애플리케이션: 원격 호출 방식 사.. 2024. 3. 28.
[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 분산 파일 시스템: 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템 (하둡 - HDFS) - 네트워크 기반 ➡️ 네트워크 프로그램의 복잡성 소유 3.1 HDFS HDFS의 설계 특성 매우 큰 파일: 수백 메가바이트 ~ 페타바이트 스트리밍 방식의 데이터 접근: 전체 데이터셋을 모두 읽을 떄 걸리는 시간 중시 범용 하드웨어: 장애가 발생하더라도 사용자가 모르게 작업 수행 HDFS와 잘 맞지 않는 응용 분야 빠른 데이터 응답 시간(↔️스트리밍 방식의 데이터 접근): 대안 - HBase 수많은 작은 파일(↔️매우 큰 파일): 많은 파일은 하드웨어 용량을 넘어섬 다중 라이터와 파일의 임의수정: 파일에서 임의 위치에 있는 내용을 수정하는 것은 허용하지 않음 3.2 HDFS 개념 3.2.1 블록 블록 .. 2024. 3. 24.