한땀한땀 정성들인 코딩

[spark]스파크 인프라 구축 본문

빅데이터

[spark]스파크 인프라 구축

romance penguin 2017. 1. 18. 02:24
반응형

실시간 처리 - 데이터 처리의 목표 또는 제약사항, 마감시각이 존재

스트림 처리 - 데이터 처리 방식, 끊임 없이 흘러가는 데이터에 대한 처리방식 <->배치 처리

*무한한 작은 배치처리 : 마이크로 배치


admin

hbase -> query(hive) -> 데이터 창출


client

web or app -> server -> 아파치 kafka -> spark streaming -> hbase


hbase,hdfs,spark streaming -> yarn이 제어


0. 사용자는 앱을 사용하여 서버에 로그기록

1. 서버는 로그변화를 감지하여 실시간으로 카프카에 전송

2. 카프카는 분산 메시징 시스템, 실시간 데이터 전송에서 원천데이터와 처리데이터 사이에서 버퍼역활을 함

3. 스파크 스트리밍은 카프카에서 받은 로그를 마이크로 배치방식으로 가져와 비즈니스 로직에 맞게 데이터 처리 ( 맵퍼 역활 )

4. hbase에 데이터 저장 (sql 쿼리 사용 : 피닉스, hive)

5. hbase의 데이터를 추출하여 MLlib를 이용해 새로운 데이터를 추출해 가치 창출



반응형

'빅데이터' 카테고리의 다른 글

[빅데이터]yarn ? zookeeper? 차이점  (0) 2017.01.25
[메이븐]환경세팅  (0) 2017.01.20
[HDFS]hdfs시나리오  (0) 2017.01.18
[HBase]그외 필터들, 필터리스트  (0) 2017.01.17
[HBase]단일컬럼값 필터  (0) 2017.01.17