본문 바로가기

독학15

[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.3 맵리듀스) 맵리듀스: 프로그래밍 모델(간단한 단위작업 반복 처리 시 사용)= 맵 작업(간단한 단위작업 처리) + 리듀스 작업(맵 작업의 결과물 집계)➡️ 병렬 처리 가능 맵의 입력: 스플릿 단위(128MB)로 분할 맵 작업 속도: HDFS에 입력 데이터가 있는 노드 > 랙의 노드 > 다른 랙의 노드  ➡️ 맵의 작업 결과(= 리듀스 작업 입력): 로컬 디스크에 임시 저장  - 리듀서 한 개: 모든 데이터의 정렬작업이 같음, 시간 ⬆️- 리듀서 여러 개: 리듀서의 수만큼 파일 생성- 리듀서 X(Mapping Only): 원천 데이터를 읽어서 가공, 바로 사용  2.3.1 처리 단계 1. 입력2. 맵3. 컴바이너4. 파티셔너5. 셔플6. 정렬7. 리듀서8. 출력 2024. 6. 30.
[Codeit;] 모던 자바스크립트 1. 모던 자바스크립트란?ECMAScript: JavaScript가 갖추어야 할 내용을 정리해둔 '설명서' (자바스크립트 표준 명세서)➡️ 모든 스크립트 언어가 지켜야 하는 표준 JavaScript: ECMAScript를 준수해서 만들어낸 '결과물'  2. 자바스크립트의 동작 원리 JavaScript: 유연한 데이터 타입- 기본형: Number, String, Boolean, Null, Undefined, Symbol(유일한 값), BigInt(큰 수)- 참조형: Object Boolean 형변환- Falsy 값: false, null, undefined, NaN, 0, ''- Truthy 값: 나머지 값(빈 배열, 빈 객체 포함)//AND와 OR의 연산 방식console.log(true && true).. 2024. 6. 23.
[하둡, 하이브로 시작하기] 2. 하둡(hadoop) (~2.2 HDFS) 2.1 하둡이란?  하둡: 적당한 성능의 범용 컴퓨터 여러 대 클러스터화, 큰 크기의 데이터 클러스터에서 병렬로 동시에 처리 ➡️ 처리 속도 ⬆️  하둡의 구성 요소- Hadoop Common: 공통 컴포넌트 모듈(하둡의 다른 모듈 지원)- Hadoop HDFS: 분사너장 처리 모듈, 여러개의 서버 ➡️ 하나의 서버처럼 묶어서 데이터 저장- Hadoop YARN: 클러스터 자원관리 및 스케줄링- Hadoop Mapreduce: 분산 처리 모듈(분산 데이터 병렬처리)- Hadoop Ozone: 오브젝트 저장소 장점- 오픈소스 라이선스 ➡️ 비용 부담 ⬇️- 시스템 중단X 장비 추가 용이- 일부 장비 장애 발생해도 전체 시스템 사용성 영향 ⬇️- 비용대비 빠른 데이터 처리- 오프라인 배치 프로세싱 최적화 단.. 2024. 6. 3.
[하둡, 하이브로 시작하기] 1. 빅데이터 1. 빅데이터란? 빅데이터- 데이터 규모: 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터- 업무 수행 방식: 다양한 종류의 데규모 데이터로부터 가치 추출 ➡️ 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술 및 아키텍처 특징- Volume: 저장장치 가격 ⬇️ && 네트워크 속도 ⬆️ ➡️ (수 페타바이트의 데이터)/일 생성- Variety: 정형, 반정형, 비정형 형태- Velocity: 정보 유통 속도 ⬆️⬆️, 데이터 처리 속도 ⬆️+) Value: 유의미한 가치, 지표를 사용하는 사람의 의사 결정에 도움+) Veracity: 데이터의 신뢰성, 정확성 ⬆️ 1.1 데이터의 형태수집 형태- 정형: 칼럼 단위의 명확한 구분자, 형태 존재    e.g., 데이터베이스,.. 2024. 5. 26.
[하둡 완벽 가이드] Chapter 3 하둡 분산 파일 시스템 분산 파일 시스템: 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템 (하둡 - HDFS) - 네트워크 기반 ➡️ 네트워크 프로그램의 복잡성 소유 3.1 HDFS HDFS의 설계 특성 매우 큰 파일: 수백 메가바이트 ~ 페타바이트 스트리밍 방식의 데이터 접근: 전체 데이터셋을 모두 읽을 떄 걸리는 시간 중시 범용 하드웨어: 장애가 발생하더라도 사용자가 모르게 작업 수행 HDFS와 잘 맞지 않는 응용 분야 빠른 데이터 응답 시간(↔️스트리밍 방식의 데이터 접근): 대안 - HBase 수많은 작은 파일(↔️매우 큰 파일): 많은 파일은 하드웨어 용량을 넘어섬 다중 라이터와 파일의 임의수정: 파일에서 임의 위치에 있는 내용을 수정하는 것은 허용하지 않음 3.2 HDFS 개념 3.2.1 블록 블록 .. 2024. 3. 24.
[혼공컴운] 4주차_Chapter 09~11 기본미션 p. 304의 확인 문제 1번 풀고 인증하기 선택미션 Ch.11(11-2) 준비 큐에 A,B,C,D 순으로 삽입되었다고 가정했을 때, 선입 선처리 스케줄링 알고리즘을 적용하면 어떤 프로세스 순서대로 CPU를 할당받는지 풀어보기 Chapter 0️⃣9️⃣ 1) 운영체제를 알아야 하는 이유 (시스템) 자원: 프로그램 실행에 마땅히 필요한 요소들 e.g. 컴퓨터 부품(CPU, 메모리, 보조기억장치, 입출력 장치) ⬇️ 운영체제: 실행할 프로그램에 필요한 자원 할당 + 프로그램이 올바르게 실행되도록 돕는 프로그램 메모리 = 커널 영역(운영 체제) + 사용자 영역(응용 프로그램) 운영 체제를 깊이 이해하면 ➡️ 하드웨어와 프로그램을 더 깊이 이해할 수 있음 2) 운영체제의 큰 그림 운영체제의 핵심 서비스.. 2024. 2. 9.