본문 바로가기

Archive26

[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.2 HDFS) 2.1 하둡이란?  하둡: 적당한 성능의 범용 컴퓨터 여러 대 클러스터화, 큰 크기의 데이터 클러스터에서 병렬로 동시에 처리 ➡️ 처리 속도 ⬆️  하둡의 구성 요소- Hadoop Common: 공통 컴포넌트 모듈(하둡의 다른 모듈 지원)- Hadoop HDFS: 분사너장 처리 모듈, 여러개의 서버 ➡️ 하나의 서버처럼 묶어서 데이터 저장- Hadoop YARN: 클러스터 자원관리 및 스케줄링- Hadoop Mapreduce: 분산 처리 모듈(분산 데이터 병렬처리)- Hadoop Ozone: 오브젝트 저장소 장점- 오픈소스 라이선스 ➡️ 비용 부담 ⬇️- 시스템 중단X 장비 추가 용이- 일부 장비 장애 발생해도 전체 시스템 사용성 영향 ⬇️- 비용대비 빠른 데이터 처리- 오프라인 배치 프로세싱 최적화 단.. 2024. 6. 3.
[하둡, 하이브로 시작하기] 1. 빅데이터 1. 빅데이터란? 빅데이터- 데이터 규모: 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터- 업무 수행 방식: 다양한 종류의 데규모 데이터로부터 가치 추출 ➡️ 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처 특징- Volume: 저장장치 가격 ⬇️ && 네트워크 속도 ⬆️ ➡️ (수 페타바이트의 데이터)/일 생성- Variety: 정형, 반정형, 비정형 형태- Velocity: 정보 유통 속도 ⬆️⬆️, 데이터 처리 속도 ⬆️+) Value: 유의미한 가치, 지표를 사용하는 사람의 의사 결정에 도움+) Veracity: 데이터의 신뢰성, 정확성 ⬆️ 1.1 데이터의 형태수집 형태- 정형: 칼럼 단위의 명확한 구분자, 형태 존재    e.g., 데이터베이스,.. 2024. 5. 26.
하둡 7장 7.1 맵리듀스 잡 실행 상세분석Job 객체의 submit ( ) 메서드 호출로 맵리듀스 잡을 실행​클라이언트: 맵리듀스 잡을 제출YARN 리소스 매니저: 클러스터 상에 계산 리소스의 할당을 제어YARN 노드 매니저: 클러스터의 각 머신에서 계산 컨테이너를 시작하고 모니터링맵리듀스 애플리케이션 마스터: 맵리듀스 잡을 수행하는 각 태스크를 제어. 애플리케이션 마스터와 맵 리듀스 태스크는 컨테이너 내에서 실행되며, 리소스 매니저는 잡을 할당하고 노드 매니저는 태스크를 관리함분산 파일시스템: 다른 단계 간에 잡 리소스 파일들을 공유하는 데 사용(보통 HDFS를 사용)​7.1.1 잡 제출 Job의 submit ( ) 메서드: 내부의 OobSubmitter 인스턴스를 생성, submitJoblnternal () .. 2024. 5. 20.
[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 6.1 환경 설정 APIConfiguration 클래스 인스턴스: 환경 설정 속성 & 값의 집합 color yellow Color size 10 Size weight heavy true Weight size-weight ${size},${weight} Size and weight  6.1.1 리소스 결합하기환경설정: 하나 이상의 리소스 파일(XML) 사용 가능- 기본 속성: core-default.xml 파일- 특정 속성: core-site.xml 파일  size 12 weight light  나중에 추가된 리소스에 정의된 속성: 이전에 정의된 속성 오버라이드 .. 2024. 5. 8.
[하둡 완벽 가이드] Chapter 4 하둡 I/O 5.1 데이터 무결성손상된 데이터를 검출하는 일반적인 방법: 처음 유입되었을 때 & 신뢰할 수 없는 통신 채널로 전송되었을 때 체크섬 계산 단점: 원상복구하는 방법 제공 ❌, 에러 검출만 수행 5.1.1 HDFS의 데이터 무결성  i) 읽기 과정에서 블록 검증    데이터노드: (클라이언트 or 다른 데이터노드로부터) 수신한 데이터 검증     클라이언트: 데이터노드에 저장된 체크섬 & 수신된 데이터로부터 계산된 체크섬 검증  ii) 저장된 모든 블록 주기적으로 검증DataBlockScanner: '비트 로트'에 의한 데이터 손실 피함  if 에러 검출)클라이언트: 훼손된 블록 & 데이터노드 정보 ➡️ 네임노드 보고, ChecksumException 발생 네임노드: 복제본 손상 표시, 해당 블록 복사 금.. 2024. 5. 5.
[하둡] 하둡 설치하기 리눅스 기반으로 개발된 프로그램이기 때문에 우분투에 깔린 가상머신에서 설치를 진행했다 도움을 받은 글: https://velog.io/@dbswlfnvl/%EC%9A%B0%EB%B6%84%ED%88%AC-%ED%95%98%EB%91%A1%EC%84%A4%EC%B9%98 우분투 하둡설치 하둡이란 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 따라서 우분투에 하둡을 설치하기 전에 자바를 먼저 설치해줘야 됩니다. 자바설치 먼저 apt-get을 업데이 velog.io 다른 글들을 참고했을 땐 404 에러 메시지가 뜨며 제대로 작동이 안됐는데 두가지 이유 때문이었다 1. 방화벽 해제를 해야함 2. 예전 http주소가 아니라 최신 하둡 http 주소가 필요함 링크된 글에 쓰여진 대로 방.. 2024. 4. 7.