빅데이터
[spark]스파크가 왜 좋냐?
romance penguin
2017. 1. 16. 20:48
반응형
데이터과학
성공적인 분석을 위한 작업은 데이터의 전처리 과정에서 이루어진다.
반복은 기본적인 과정 이다.
분석의 두 종류
연구를 위한 분석 = 탐색적 분석
운영을 위한 분석
R - 성능하, 연동 부적합
c++, java - 탐색적 분석에 부적합
스칼라 탄생!
핵심
탄력적 분산 데이터 셋 rdd
인메모리 처리
하둡의 생태계와 연동 적합
단점 : 나온지 얼마 안되서 부족한 하위 모듈( 스트림처리, sql, 기계학습, 그래프 처리)
반응형