[spark]스파크가 왜 좋냐?

빅데이터

romance penguin 2017. 1. 16. 20:48

데이터과학

성공적인 분석을 위한 작업은 데이터의 전처리 과정에서 이루어진다.

반복은 기본적인 과정 이다.

분석의 두 종류

연구를 위한 분석 = 탐색적 분석

운영을 위한 분석

R - 성능하, 연동 부적합

c++, java - 탐색적 분석에 부적합

스칼라 탄생!

핵심

탄력적 분산 데이터 셋 rdd

인메모리 처리

하둡의 생태계와 연동 적합

단점 : 나온지 얼마 안되서 부족한 하위 모듈( 스트림처리, sql, 기계학습, 그래프 처리)