본문 바로가기

Archive26

[하둡 완벽 가이드] Chapter 4 YARN 아파치 YARN: 하둡의 클러스터 자원 관리 시스템 (맵리듀스 + 분산 컴퓨팅 도구 지원) 4.1YARN 애플리케이션 수행 해부해보기 YARN: 리소스 매니저 + 노드 매니저 ➡️ 핵심 서비스 제공 - 리소스 매니저: 클러스터 유일, 클러스터 전체 자원 사용량 관리 - 노드 매니저: 모든 머신에서 실행, 컨테이너 구동 + 모니터링 클라이언트: 리소스 매니저 접속 ➡️ 애플리케이션 마스터 프로세스 구동 요청 ➡️ 리소스 매니저: 컨테이너에서 애플리케이션 마스터를 시작할 수 있는 노드 매니저 찾음 (➡️ 애플리케이션 마스터: 더 많은 컨테이너 요청 ➡️ 분산 처리 수행) YARN 자체: 애플리케이션(클라이언트, 마스터, 프로세스) 상호 통신 기능 제공 ❌ ➡️ 주요 YARN 애플리케이션: 원격 호출 방식 사.. 2024. 3. 28.
[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 분산 파일 시스템: 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템 (하둡 - HDFS) - 네트워크 기반 ➡️ 네트워크 프로그램의 복잡성 소유 3.1 HDFS HDFS의 설계 특성 매우 큰 파일: 수백 메가바이트 ~ 페타바이트 스트리밍 방식의 데이터 접근: 전체 데이터셋을 모두 읽을 떄 걸리는 시간 중시 범용 하드웨어: 장애가 발생하더라도 사용자가 모르게 작업 수행 HDFS와 잘 맞지 않는 응용 분야 빠른 데이터 응답 시간(↔️스트리밍 방식의 데이터 접근): 대안 - HBase 수많은 작은 파일(↔️매우 큰 파일): 많은 파일은 하드웨어 용량을 넘어섬 다중 라이터와 파일의 임의수정: 파일에서 임의 위치에 있는 내용을 수정하는 것은 허용하지 않음 3.2 HDFS 개념 3.2.1 블록 블록 .. 2024. 3. 24.
[하둡 완벽 가이드] Chapter 2 맵리듀스 2.1 기상 데이터셋 2.1.1 데이터 포맷 행 단위 아스키 형식 1901~2001 연도별 디렉터리 존재 2.2 유닉스 도구로 데이터 분석하기 #!/usr/bin/env bash for year in all/*#압축된 연도별 파일 반복적으로 돎 do echo -ne 'basename $year .gz'"\t" gunzip -c $year | \#해당 연도 출력 awk '{ temp = substr($0, 88, 5) + 0; q = substr($0, 93, 1); if (temp != 9999 && q ~ /[01459]/ && temp > max) max = temp } END { print max }'#정수형 변환, 유효값 & 신뢰 여부 확인 -> 최고기온 변경 done 프로그램 각 부분 병렬 수행.. 2024. 3. 17.
[하둡 완벽 가이드] Chapter 1 하둡과의 만남 1.2 데이터 저장소와 분석 하드 디스크 용량 증가 속도 >>> 데이터 읽는 속도 ➡️ 병렬 작업으로 시간 단축 ❓문제점1: 하드웨어 장애 많은 하드웨어를 사용할수록 장애 발생 확률도 증가 ➡️ 데이터를 여러곳에 복제(하둡: HDFS) ❓ 문제점2: 분석 작업에서 분할된 데이터 결합해야함 정합성을 지키기 어려움 ➡️ 맵리듀스: 키-값 의 계산으로 변환한 추상화된 프로그래밍 모델 제공 1.3 전체 데이터에 질의하기 맵리듀스: 일괄 질의 처리기 전체 데이터셋을 대상으로 비정형 쿼리 수행 ➡️ 합리적인 시간 내에 결과를 보여줌 1.4 일괄 처리를 넘어서 맵리듀스: 일괄 질의 처리기 ➡️ 대화형 분석 ❌, 오프라인 용도 적합 온라인 접근 지원 구성요소 - HBase: HDFS를 기본 저장소로 하는 키-값 저장소.. 2024. 3. 17.
[혼공컴운] 4주차_Chapter 09~11 기본미션 p. 304의 확인 문제 1번 풀고 인증하기 선택미션 Ch.11(11-2) 준비 큐에 A,B,C,D 순으로 삽입되었다고 가정했을 때, 선입 선처리 스케줄링 알고리즘을 적용하면 어떤 프로세스 순서대로 CPU를 할당받는지 풀어보기 Chapter 0️⃣9️⃣ 1) 운영체제를 알아야 하는 이유 (시스템) 자원: 프로그램 실행에 마땅히 필요한 요소들 e.g. 컴퓨터 부품(CPU, 메모리, 보조기억장치, 입출력 장치) ⬇️ 운영체제: 실행할 프로그램에 필요한 자원 할당 + 프로그램이 올바르게 실행되도록 돕는 프로그램 메모리 = 커널 영역(운영 체제) + 사용자 영역(응용 프로그램) 운영 체제를 깊이 이해하면 ➡️ 하드웨어와 프로그램을 더 깊이 이해할 수 있음 2) 운영체제의 큰 그림 운영체제의 핵심 서비스.. 2024. 2. 9.
[혼공컴운] 3주차_Chapter 06~08 기본 미션 p. 185의 확인 문제 3번, p. 205의 확인 문제 1번 풀고 인증하기 선택 미션 Ch.07(07-2) RAID의 정의와 종류를 간단히 정리해 보기 Chapter 0️⃣6️⃣ 1) RAM의 특징과 종류 휘발성 저장 장치: 전원을 끄면 저장된 명령어와 데이터가 모두 날아감 e.g. 메모리(RAM) - 현재 "실행되는" 프로그램의 명령어 + 데이터 저장 [Chapter 01] 비휘발성 저장 장치: 전원이 꺼져도 저장된 내용 유지 but CPU가 직접 접근하지 못함 ➡️ RAM으로 복사하여 저장한 뒤 실행 e.g. 보조기억장치(하드 디스크, SSD, CD-ROM, USB 메모리) - "보관할" 프로그램의 명령어 + 데이터 저장 [Chapter 01] RAM 용량 ⬆️ ➡️ 프로그램 실행 시간 .. 2024. 1. 21.