[spark]스파크 생태계

빅데이터

romance penguin 2017. 1. 16. 23:09

하둡의 주요 구성요소

yarn - 리소스관리

mapreduce - 데이터처리

hdfs - 데이터저장

직렬화

data는 디스크에 저장될때 csv, xml, json, 바이너리 등 다양한 형식으로 직렬화 될수 있으며

각 형식은 장단점이 존재한다. csv, xml ,jsom은 사람이 읽을 수있지만 저장공간이나, 파싱면에서 효율적이지 못함, 바이너리형식은 그 반대, 더 콤팩트함

로우기반 vs 칼럼기반

row기반 - CRUD최적화, 분석 별로임, 컴팩트하지 않음

메시징 시스템?

- 소비자(데이터 검색) - 생성자(데이터 작성)

- 수가 비대칭적일때 직접적인 연결은 비효율적

- 모두 메세징 시스템에 연결