한땀한땀 정성들인 코딩
[spark]스파크 생태계 본문
반응형
하둡의 주요 구성요소
yarn - 리소스관리
mapreduce - 데이터처리
hdfs - 데이터저장
직렬화
data는 디스크에 저장될때 csv, xml, json, 바이너리 등 다양한 형식으로 직렬화 될수 있으며
각 형식은 장단점이 존재한다. csv, xml ,jsom은 사람이 읽을 수있지만 저장공간이나, 파싱면에서 효율적이지 못함, 바이너리형식은 그 반대, 더 콤팩트함
로우기반 vs 칼럼기반
row기반 - CRUD최적화, 분석 별로임, 컴팩트하지 않음
메시징 시스템?
- 소비자(데이터 검색) - 생성자(데이터 작성)
- 수가 비대칭적일때 직접적인 연결은 비효율적
- 모두 메세징 시스템에 연결
반응형
'빅데이터' 카테고리의 다른 글
[빅데이터]원천데이터 (0) | 2017.01.17 |
---|---|
[spark]스파크 코어 (0) | 2017.01.17 |
[빅데이터]동시성공부 (0) | 2017.01.16 |
[spark]스파크가 왜 좋냐? (0) | 2017.01.16 |
[맵리듀스]row count 테이블 로우갯수 (0) | 2017.01.13 |