본문 바로가기

DACOS3

[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 분산 파일 시스템: 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템 (하둡 - HDFS) - 네트워크 기반 ➡️ 네트워크 프로그램의 복잡성 소유 3.1 HDFS HDFS의 설계 특성 매우 큰 파일: 수백 메가바이트 ~ 페타바이트 스트리밍 방식의 데이터 접근: 전체 데이터셋을 모두 읽을 떄 걸리는 시간 중시 범용 하드웨어: 장애가 발생하더라도 사용자가 모르게 작업 수행 HDFS와 잘 맞지 않는 응용 분야 빠른 데이터 응답 시간(↔️스트리밍 방식의 데이터 접근): 대안 - HBase 수많은 작은 파일(↔️매우 큰 파일): 많은 파일은 하드웨어 용량을 넘어섬 다중 라이터와 파일의 임의수정: 파일에서 임의 위치에 있는 내용을 수정하는 것은 허용하지 않음 3.2 HDFS 개념 3.2.1 블록 블록 .. 2024. 3. 24.
[하둡 완벽 가이드] Chapter 2 맵리듀스 2.1 기상 데이터셋 2.1.1 데이터 포맷 행 단위 아스키 형식 1901~2001 연도별 디렉터리 존재 2.2 유닉스 도구로 데이터 분석하기 #!/usr/bin/env bash for year in all/*#압축된 연도별 파일 반복적으로 돎 do echo -ne 'basename $year .gz'"\t" gunzip -c $year | \#해당 연도 출력 awk '{ temp = substr($0, 88, 5) + 0; q = substr($0, 93, 1); if (temp != 9999 && q ~ /[01459]/ && temp > max) max = temp } END { print max }'#정수형 변환, 유효값 & 신뢰 여부 확인 -> 최고기온 변경 done 프로그램 각 부분 병렬 수행.. 2024. 3. 17.
[하둡 완벽 가이드] Chapter 1 하둡과의 만남 1.2 데이터 저장소와 분석 하드 디스크 용량 증가 속도 >>> 데이터 읽는 속도 ➡️ 병렬 작업으로 시간 단축 ❓문제점1: 하드웨어 장애 많은 하드웨어를 사용할수록 장애 발생 확률도 증가 ➡️ 데이터를 여러곳에 복제(하둡: HDFS) ❓ 문제점2: 분석 작업에서 분할된 데이터 결합해야함 정합성을 지키기 어려움 ➡️ 맵리듀스: 키-값 의 계산으로 변환한 추상화된 프로그래밍 모델 제공 1.3 전체 데이터에 질의하기 맵리듀스: 일괄 질의 처리기 전체 데이터셋을 대상으로 비정형 쿼리 수행 ➡️ 합리적인 시간 내에 결과를 보여줌 1.4 일괄 처리를 넘어서 맵리듀스: 일괄 질의 처리기 ➡️ 대화형 분석 ❌, 오프라인 용도 적합 온라인 접근 지원 구성요소 - HBase: HDFS를 기본 저장소로 하는 키-값 저장소.. 2024. 3. 17.