한땀한땀 정성들인 코딩
[HBase] HBase 맵리듀스 하기 본문
반응형
학교에서 hdfs에서 맵리듀스를 배웠는데
hbase내에서 하는 방법도 비슷해서 어렵지않다.
그저 hbase에서 데이터를 꺼내오는 과정이 추가 됬을뿐...
맵리듀스는 data를 처리하는 기술이라 보면된다.
맵 : data input처리
리듀스 : 집계
sql쿼리에서 집계함수같은 것을 처리하는 과정이라 보면된다.
select count(*) from table
** hive를 쓰면 sql로 맵리듀스 하기 때문에 무진장 쉬워진다. 근데 왜 안쓰냐? 1. 맵리듀스의 과정을 이해해야 진정한 빅데이터 전문가 2. hive는 select만 써도 맵리듀스가 가동되 리소스를 잡아먹는 현상이 생긴다. ( -대체품이 많이 나왔지만 기술의 발전이 너무 빠르고 다량이라 근본부터 이해하는것이 좋을것 이다.)
맵리듀스로 할수 있는 대표적인것은 빈도수분석, data끼리의 join, 특정 data의 count
** 고급( 어드밴스 ) 맵리듀스도 있지만 아직 익히지 않음
**사실 data처리는 진짜 spark( 스칼라언어 )가 갑인듯!!! 자바로 짜면 몇십줄 나오는게 스파크는 1줄이면 만족하니 ....
반응형
'빅데이터' 카테고리의 다른 글
[HBase]shell명령어 (0) | 2017.01.06 |
---|---|
[맵리듀스] map클래스 (0) | 2017.01.05 |
[맵리듀스]parse 클래스 (0) | 2017.01.05 |
[HBase]text 파일 hbase에 input하기 1. 맵퍼 클래스 (1) | 2017.01.04 |
hbase를 이용한 jsp 웹서버 (0) | 2017.01.03 |