[spark]스파크 인프라 구축

Recent Posts

Recent Comments

Archives

관리 메뉴

한땀한땀 정성들인 코딩

빅데이터

romance penguin 2017. 1. 18. 02:24

실시간 처리 - 데이터 처리의 목표 또는 제약사항, 마감시각이 존재

스트림 처리 - 데이터 처리 방식, 끊임 없이 흘러가는 데이터에 대한 처리방식 <->배치 처리

*무한한 작은 배치처리 : 마이크로 배치

admin

hbase -> query(hive) -> 데이터 창출

client

web or app -> server -> 아파치 kafka -> spark streaming -> hbase

hbase,hdfs,spark streaming -> yarn이 제어

0. 사용자는 앱을 사용하여 서버에 로그기록

1. 서버는 로그변화를 감지하여 실시간으로 카프카에 전송

2. 카프카는 분산 메시징 시스템, 실시간 데이터 전송에서 원천데이터와 처리데이터 사이에서 버퍼역활을 함

3. 스파크 스트리밍은 카프카에서 받은 로그를 마이크로 배치방식으로 가져와 비즈니스 로직에 맞게 데이터 처리 ( 맵퍼 역활 )

4. hbase에 데이터 저장 (sql 쿼리 사용 : 피닉스, hive)

5. hbase의 데이터를 추출하여 MLlib를 이용해 새로운 데이터를 추출해 가치 창출

'빅데이터' Related Articles