본문 바로가기

Data/Hadoop6

[하둡 완벽 가이드] Chapter 6 맵리듀스 프로그래밍 6.1 환경 설정 APIConfiguration 클래스 인스턴스: 환경 설정 속성 & 값의 집합 color yellow Color size 10 Size weight heavy true Weight size-weight ${size},${weight} Size and weight  6.1.1 리소스 결합하기환경설정: 하나 이상의 리소스 파일(XML) 사용 가능- 기본 속성: core-default.xml 파일- 특정 속성: core-site.xml 파일  size 12 weight light  나중에 추가된 리소스에 정의된 속성: 이전에 정의된 속성 오버라이드 .. 2024. 5. 8.
[하둡 완벽 가이드] Chapter 4 하둡 I/O 5.1 데이터 무결성손상된 데이터를 검출하는 일반적인 방법: 처음 유입되었을 때 & 신뢰할 수 없는 통신 채널로 전송되었을 때 체크섬 계산 단점: 원상복구하는 방법 제공 ❌, 에러 검출만 수행 5.1.1 HDFS의 데이터 무결성  i) 읽기 과정에서 블록 검증    데이터노드: (클라이언트 or 다른 데이터노드로부터) 수신한 데이터 검증     클라이언트: 데이터노드에 저장된 체크섬 & 수신된 데이터로부터 계산된 체크섬 검증  ii) 저장된 모든 블록 주기적으로 검증DataBlockScanner: '비트 로트'에 의한 데이터 손실 피함  if 에러 검출)클라이언트: 훼손된 블록 & 데이터노드 정보 ➡️ 네임노드 보고, ChecksumException 발생 네임노드: 복제본 손상 표시, 해당 블록 복사 금.. 2024. 5. 5.
[하둡] 하둡 설치하기 리눅스 기반으로 개발된 프로그램이기 때문에 우분투에 깔린 가상머신에서 설치를 진행했다 도움을 받은 글: https://velog.io/@dbswlfnvl/%EC%9A%B0%EB%B6%84%ED%88%AC-%ED%95%98%EB%91%A1%EC%84%A4%EC%B9%98 우분투 하둡설치 하둡이란 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 따라서 우분투에 하둡을 설치하기 전에 자바를 먼저 설치해줘야 됩니다. 자바설치 먼저 apt-get을 업데이 velog.io 다른 글들을 참고했을 땐 404 에러 메시지가 뜨며 제대로 작동이 안됐는데 두가지 이유 때문이었다 1. 방화벽 해제를 해야함 2. 예전 http주소가 아니라 최신 하둡 http 주소가 필요함 링크된 글에 쓰여진 대로 방.. 2024. 4. 7.
[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 분산 파일 시스템: 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템 (하둡 - HDFS) - 네트워크 기반 ➡️ 네트워크 프로그램의 복잡성 소유 3.1 HDFS HDFS의 설계 특성 매우 큰 파일: 수백 메가바이트 ~ 페타바이트 스트리밍 방식의 데이터 접근: 전체 데이터셋을 모두 읽을 떄 걸리는 시간 중시 범용 하드웨어: 장애가 발생하더라도 사용자가 모르게 작업 수행 HDFS와 잘 맞지 않는 응용 분야 빠른 데이터 응답 시간(↔️스트리밍 방식의 데이터 접근): 대안 - HBase 수많은 작은 파일(↔️매우 큰 파일): 많은 파일은 하드웨어 용량을 넘어섬 다중 라이터와 파일의 임의수정: 파일에서 임의 위치에 있는 내용을 수정하는 것은 허용하지 않음 3.2 HDFS 개념 3.2.1 블록 블록 .. 2024. 3. 24.
[하둡 완벽 가이드] Chapter 2 맵리듀스 2.1 기상 데이터셋 2.1.1 데이터 포맷 행 단위 아스키 형식 1901~2001 연도별 디렉터리 존재 2.2 유닉스 도구로 데이터 분석하기 #!/usr/bin/env bash for year in all/*#압축된 연도별 파일 반복적으로 돎 do echo -ne 'basename $year .gz'"\t" gunzip -c $year | \#해당 연도 출력 awk '{ temp = substr($0, 88, 5) + 0; q = substr($0, 93, 1); if (temp != 9999 && q ~ /[01459]/ && temp > max) max = temp } END { print max }'#정수형 변환, 유효값 & 신뢰 여부 확인 -> 최고기온 변경 done 프로그램 각 부분 병렬 수행.. 2024. 3. 17.
[하둡 완벽 가이드] Chapter 1 하둡과의 만남 1.2 데이터 저장소와 분석 하드 디스크 용량 증가 속도 >>> 데이터 읽는 속도 ➡️ 병렬 작업으로 시간 단축 ❓문제점1: 하드웨어 장애 많은 하드웨어를 사용할수록 장애 발생 확률도 증가 ➡️ 데이터를 여러곳에 복제(하둡: HDFS) ❓ 문제점2: 분석 작업에서 분할된 데이터 결합해야함 정합성을 지키기 어려움 ➡️ 맵리듀스: 키-값 의 계산으로 변환한 추상화된 프로그래밍 모델 제공 1.3 전체 데이터에 질의하기 맵리듀스: 일괄 질의 처리기 전체 데이터셋을 대상으로 비정형 쿼리 수행 ➡️ 합리적인 시간 내에 결과를 보여줌 1.4 일괄 처리를 넘어서 맵리듀스: 일괄 질의 처리기 ➡️ 대화형 분석 ❌, 오프라인 용도 적합 온라인 접근 지원 구성요소 - HBase: HDFS를 기본 저장소로 하는 키-값 저장소.. 2024. 3. 17.