한땀한땀 정성들인 코딩
[spark]스파크 인프라 구축 본문
반응형
실시간 처리 - 데이터 처리의 목표 또는 제약사항, 마감시각이 존재
스트림 처리 - 데이터 처리 방식, 끊임 없이 흘러가는 데이터에 대한 처리방식 <->배치 처리
*무한한 작은 배치처리 : 마이크로 배치
admin
hbase -> query(hive) -> 데이터 창출
client
web or app -> server -> 아파치 kafka -> spark streaming -> hbase
hbase,hdfs,spark streaming -> yarn이 제어
0. 사용자는 앱을 사용하여 서버에 로그기록
1. 서버는 로그변화를 감지하여 실시간으로 카프카에 전송
2. 카프카는 분산 메시징 시스템, 실시간 데이터 전송에서 원천데이터와 처리데이터 사이에서 버퍼역활을 함
3. 스파크 스트리밍은 카프카에서 받은 로그를 마이크로 배치방식으로 가져와 비즈니스 로직에 맞게 데이터 처리 ( 맵퍼 역활 )
4. hbase에 데이터 저장 (sql 쿼리 사용 : 피닉스, hive)
5. hbase의 데이터를 추출하여 MLlib를 이용해 새로운 데이터를 추출해 가치 창출
반응형
'빅데이터' 카테고리의 다른 글
[빅데이터]yarn ? zookeeper? 차이점 (0) | 2017.01.25 |
---|---|
[메이븐]환경세팅 (0) | 2017.01.20 |
[HDFS]hdfs시나리오 (0) | 2017.01.18 |
[HBase]그외 필터들, 필터리스트 (0) | 2017.01.17 |
[HBase]단일컬럼값 필터 (0) | 2017.01.17 |