빅데이터
[spark]스파크 생태계
romance penguin
2017. 1. 16. 23:09
반응형
하둡의 주요 구성요소
yarn - 리소스관리
mapreduce - 데이터처리
hdfs - 데이터저장
직렬화
data는 디스크에 저장될때 csv, xml, json, 바이너리 등 다양한 형식으로 직렬화 될수 있으며
각 형식은 장단점이 존재한다. csv, xml ,jsom은 사람이 읽을 수있지만 저장공간이나, 파싱면에서 효율적이지 못함, 바이너리형식은 그 반대, 더 콤팩트함
로우기반 vs 칼럼기반
row기반 - CRUD최적화, 분석 별로임, 컴팩트하지 않음
메시징 시스템?
- 소비자(데이터 검색) - 생성자(데이터 작성)
- 수가 비대칭적일때 직접적인 연결은 비효율적
- 모두 메세징 시스템에 연결
반응형