한땀한땀 정성들인 코딩

[spark]스파크 생태계 본문

빅데이터

[spark]스파크 생태계

romance penguin 2017. 1. 16. 23:09
반응형

하둡의 주요 구성요소

yarn - 리소스관리

mapreduce - 데이터처리

hdfs - 데이터저장


직렬화

data는 디스크에 저장될때 csv, xml, json, 바이너리 등 다양한 형식으로 직렬화 될수 있으며

각 형식은 장단점이 존재한다. csv, xml ,jsom은 사람이 읽을 수있지만 저장공간이나, 파싱면에서 효율적이지 못함, 바이너리형식은 그 반대, 더 콤팩트함




로우기반 vs 칼럼기반

row기반 - CRUD최적화, 분석 별로임, 컴팩트하지 않음




메시징 시스템?

- 소비자(데이터 검색) - 생성자(데이터 작성)

- 수가 비대칭적일때 직접적인 연결은 비효율적

- 모두 메세징 시스템에 연결

반응형

'빅데이터' 카테고리의 다른 글

[빅데이터]원천데이터  (0) 2017.01.17
[spark]스파크 코어  (0) 2017.01.17
[빅데이터]동시성공부  (0) 2017.01.16
[spark]스파크가 왜 좋냐?  (0) 2017.01.16
[맵리듀스]row count 테이블 로우갯수  (0) 2017.01.13