한땀한땀 정성들인 코딩

[HBase] HBase 맵리듀스 하기 본문

빅데이터

[HBase] HBase 맵리듀스 하기

romance penguin 2017. 1. 5. 18:56
반응형

학교에서 hdfs에서 맵리듀스를 배웠는데

hbase내에서 하는 방법도 비슷해서 어렵지않다.

그저 hbase에서 데이터를 꺼내오는 과정이 추가 됬을뿐...


맵리듀스는 data를 처리하는 기술이라 보면된다.

맵 : data input처리

리듀스 : 집계


sql쿼리에서 집계함수같은 것을 처리하는 과정이라 보면된다.

select count(*) from table

** hive를 쓰면 sql로 맵리듀스 하기 때문에 무진장 쉬워진다. 근데 왜 안쓰냐? 1. 맵리듀스의 과정을 이해해야 진정한 빅데이터 전문가 2. hive는 select만 써도 맵리듀스가 가동되 리소스를 잡아먹는 현상이 생긴다. ( -대체품이 많이 나왔지만 기술의 발전이 너무 빠르고 다량이라 근본부터 이해하는것이 좋을것 이다.) 


맵리듀스로 할수 있는 대표적인것은 빈도수분석, data끼리의 join, 특정 data의 count

** 고급( 어드밴스 ) 맵리듀스도 있지만 아직 익히지 않음


**사실 data처리는 진짜 spark( 스칼라언어 )가 갑인듯!!! 자바로 짜면 몇십줄 나오는게 스파크는 1줄이면 만족하니 ....

반응형

'빅데이터' 카테고리의 다른 글

[HBase]shell명령어  (0) 2017.01.06
[맵리듀스] map클래스  (0) 2017.01.05
[맵리듀스]parse 클래스  (0) 2017.01.05
[HBase]text 파일 hbase에 input하기 1. 맵퍼 클래스  (1) 2017.01.04
hbase를 이용한 jsp 웹서버  (0) 2017.01.03