한땀한땀 정성들인 코딩

[spark]스파크가 왜 좋냐? 본문

빅데이터

[spark]스파크가 왜 좋냐?

romance penguin 2017. 1. 16. 20:48
반응형

데이터과학

성공적인 분석을 위한 작업은 데이터의 전처리 과정에서 이루어진다.

반복은 기본적인 과정 이다.


분석의 두 종류

연구를 위한 분석 = 탐색적 분석

운영을 위한 분석


R - 성능하, 연동 부적합

c++, java - 탐색적 분석에 부적합

스칼라 탄생!


핵심

탄력적 분산 데이터 셋 rdd

인메모리 처리

하둡의 생태계와 연동 적합


단점 : 나온지 얼마 안되서 부족한 하위 모듈( 스트림처리, sql, 기계학습, 그래프 처리)



반응형

'빅데이터' 카테고리의 다른 글

[spark]스파크 생태계  (0) 2017.01.16
[빅데이터]동시성공부  (0) 2017.01.16
[맵리듀스]row count 테이블 로우갯수  (0) 2017.01.13
[맵리듀스]join하기  (0) 2017.01.09
항공데이터 hbase상 맵리듀스 완료!!!  (0) 2017.01.06