본문 바로가기

동아리5

[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.4 YARN) 2.4 YARNYARN: 클러스터 리소스 관리 / 애플리케이션 라이프 사이클 관리 아키텍처 = 자원 관리(리소스 매니저  & 노드매니저) + 애플리케이션 라이프 사이클 관리 기능(애플리케이션 마스터 & 컨테이너) - 자원 관리    - 노드매니저: 클러스터의 각 노드마다 실행 ➡️ 현재 노드의 사원 상태 관리 ➡️ 리소스매니저에 보고    - 리소스 매니저: 노트매니저의 정보 ➡️ 클러스터 전체 자원 관리 (자원 사용 상태 모니터링, 애플리케이션 마스터 자원 요청 ➡️ 빈 자원 사용) - 라이프사이클 관리1. 클라이언트: 애플리케이션 ➡️ 리소스 매니저2. 리소스 매니저: 비어있는 노드에서 애플리케이션 마스터 실행3. 애플리케이션 마스터: 작업 실행 자원 요청 ➡️ 리소스 매니저4. 자원 할당5. 각 노.. 2024. 7. 4.
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.3 맵리듀스) 맵리듀스: 프로그래밍 모델(간단한 단위작업 반복 처리 시 사용)= 맵 작업(간단한 단위작업 처리) + 리듀스 작업(맵 작업의 결과물 집계)➡️ 병렬 처리 가능 맵의 입력: 스플릿 단위(128MB)로 분할 맵 작업 속도: HDFS에 입력 데이터가 있는 노드 > 랙의 노드 > 다른 랙의 노드  ➡️ 맵의 작업 결과(= 리듀스 작업 입력): 로컬 디스크에 임시 저장  - 리듀서 한 개: 모든 데이터의 정렬작업이 같음, 시간 ⬆️- 리듀서 여러 개: 리듀서의 수만큼 파일 생성- 리듀서 X(Mapping Only): 원천 데이터를 읽어서 가공, 바로 사용  2.3.1 처리 단계 1. 입력2. 맵3. 컴바이너4. 파티셔너5. 셔플6. 정렬7. 리듀서8. 출력 2024. 6. 30.
[Codeit;] 모던 자바스크립트 1. 모던 자바스크립트란?ECMAScript: JavaScript가 갖추어야 할 내용을 정리해둔 '설명서' (자바스크립트 표준 명세서)➡️ 모든 스크립트 언어가 지켜야 하는 표준 JavaScript: ECMAScript를 준수해서 만들어낸 '결과물'  2. 자바스크립트의 동작 원리 JavaScript: 유연한 데이터 타입- 기본형: Number, String, Boolean, Null, Undefined, Symbol(유일한 값), BigInt(큰 수)- 참조형: Object Boolean 형변환- Falsy 값: false, null, undefined, NaN, 0, ''- Truthy 값: 나머지 값(빈 배열, 빈 객체 포함)//AND와 OR의 연산 방식console.log(true && true).. 2024. 6. 23.
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.2 HDFS) 2.1 하둡이란?  하둡: 적당한 성능의 범용 컴퓨터 여러 대 클러스터화, 큰 크기의 데이터 클러스터에서 병렬로 동시에 처리 ➡️ 처리 속도 ⬆️  하둡의 구성 요소- Hadoop Common: 공통 컴포넌트 모듈(하둡의 다른 모듈 지원)- Hadoop HDFS: 분사너장 처리 모듈, 여러개의 서버 ➡️ 하나의 서버처럼 묶어서 데이터 저장- Hadoop YARN: 클러스터 자원관리 및 스케줄링- Hadoop Mapreduce: 분산 처리 모듈(분산 데이터 병렬처리)- Hadoop Ozone: 오브젝트 저장소 장점- 오픈소스 라이선스 ➡️ 비용 부담 ⬇️- 시스템 중단X 장비 추가 용이- 일부 장비 장애 발생해도 전체 시스템 사용성 영향 ⬇️- 비용대비 빠른 데이터 처리- 오프라인 배치 프로세싱 최적화 단.. 2024. 6. 3.
[하둡, 하이브로 시작하기] 1. 빅데이터 1. 빅데이터란? 빅데이터- 데이터 규모: 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터- 업무 수행 방식: 다양한 종류의 데규모 데이터로부터 가치 추출 ➡️ 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처 특징- Volume: 저장장치 가격 ⬇️ && 네트워크 속도 ⬆️ ➡️ (수 페타바이트의 데이터)/일 생성- Variety: 정형, 반정형, 비정형 형태- Velocity: 정보 유통 속도 ⬆️⬆️, 데이터 처리 속도 ⬆️+) Value: 유의미한 가치, 지표를 사용하는 사람의 의사 결정에 도움+) Veracity: 데이터의 신뢰성, 정확성 ⬆️ 1.1 데이터의 형태수집 형태- 정형: 칼럼 단위의 명확한 구분자, 형태 존재    e.g., 데이터베이스,.. 2024. 5. 26.