한땀한땀 정성들인 코딩
[spark]스파크가 왜 좋냐? 본문
반응형
데이터과학
성공적인 분석을 위한 작업은 데이터의 전처리 과정에서 이루어진다.
반복은 기본적인 과정 이다.
분석의 두 종류
연구를 위한 분석 = 탐색적 분석
운영을 위한 분석
R - 성능하, 연동 부적합
c++, java - 탐색적 분석에 부적합
스칼라 탄생!
핵심
탄력적 분산 데이터 셋 rdd
인메모리 처리
하둡의 생태계와 연동 적합
단점 : 나온지 얼마 안되서 부족한 하위 모듈( 스트림처리, sql, 기계학습, 그래프 처리)
반응형
'빅데이터' 카테고리의 다른 글
[spark]스파크 생태계 (0) | 2017.01.16 |
---|---|
[빅데이터]동시성공부 (0) | 2017.01.16 |
[맵리듀스]row count 테이블 로우갯수 (0) | 2017.01.13 |
[맵리듀스]join하기 (0) | 2017.01.09 |
항공데이터 hbase상 맵리듀스 완료!!! (0) | 2017.01.06 |