목록빅데이터 (23)
한땀한땀 정성들인 코딩
머신러닝 알고리즘선형회귀 : 선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. y가 없는 x값에 대해서 y를 추측하기 위해 사용한다.단순 선형회귀 : 독립변수 1개다중 선형회귀 : 독립변수가 여러개 목적은 두가지로 나뉜다.1. 독립변수 w가중치의 양, 종속변수에 영향을 주는 크기 혹은 여부 2. 단순선형회귀의 목적과 같음, 종속변수 예측 비선형 회귀(다항) : 관계를 나타내는 함수가 직선으로 나타내지 못할경우 로지스틱회귀 : 사건이 일어날 확률 예측 서포트 벡터머신 : 새로운 data가 주어졌을때 기존에 있는 데이터 집합을 활용하여 어느쪽에 속할지 결정하는 알고리즘 나이브 베이즈 : 텍스트 분류에 사용됨 -조건부확률 : 사건 A가 발생 했을때, 사..
raw data( 원시 데이터 ) -> 가공결과 예측 분류 훈련집합 : 양질의 data속성목적변수 : 속성 값 분류에서 목적 변수는 명목형 값을 가진다.회귀에서 목적 변수는 계속 되풀이 될수 있다. 무게 날개 길이 발갈퀴 등 색상 종 1000.1 124.1 없음 갈색 buteo 3000.2 200.0 없음 회색 sagitt 무게,날개길이,발갈퀴,등 색상 --> 속성종 --> 목적변수 ( 분류항목 ) 훈련집합검사집합 지도학습 -분류 : data가 어느 부류에 속하는지 예측-회귀 : 수치형 입력값으로 예측-분류,회귀,k-최근접 이웃,선형 회귀,나이브베이스,의사결정트리 비지도 학습 : 목적변수가 없음-군집화 : -밀도추정-군집화(클러스터링), 밀도추정, k-means 적절한 알고리즘 선택방법1. 목적 목적값을..
어... 둘다 넓은 의미에서 보면 클러스터 매니저인데yarn같은 경우는 hdfs, spark-core에 쓰이고zookeeper는 하둡 생태계를 담당하는데 (혹은 카프카) 왜? 따로 쓰일까? 구글검색많은 사람들이 궁금했었나 보다.. 자료가 많음 YARN은 Hadoop-2 아키텍처의 리소스 관리자입니다. 이것은 Mesos와 비슷한 역할을합니다. 클러스터와 리소스 요청을 받으면 YARN은 노드를 실제로 관리하는 NodeManagers에 명령하여 해당 리소스에 대한 액세스 권한을 부여합니다. 그래서 YARN은 자원 제약, 스케줄링 전략, 우선 순위, 공정성 및 규칙을 고려하여 질서있게 클러스터에 작업 요청을 예약하는 클러스터의 중앙 일정 조정자입니다. 예, YARN은 자원 할당 조정 및 스케줄링 관점에서 노드 ..
org.apache.hbase hbase-client 1.2.4 org.apache.hbase hbase-protocol 1.2.4 org.apache.hbase hbase-server 1.2.4 hbase세팅 -- artifactId에 hbase가 안먹힘.. 못 찾아온다. 왠지 사용자가 0이더라. org.apache.spark spark-core_2.10 2.1.0 org.apache.spark spark-streaming_2.10 2.1.0 org.apache.spark spark-mllib_2.10 2.1.0 spark세팅 -- 메이븐 개편함!! javax.ws.rs javax.ws.rs-api 2.0.1 java의 웹통신을 위한 라이브러리 같은데.javax/ws/rs/WebApplicationEx..
실시간 처리 - 데이터 처리의 목표 또는 제약사항, 마감시각이 존재 스트림 처리 - 데이터 처리 방식, 끊임 없이 흘러가는 데이터에 대한 처리방식 배치 처리*무한한 작은 배치처리 : 마이크로 배치 admin hbase -> query(hive) -> 데이터 창출 clientweb or app -> server -> 아파치 kafka -> spark streaming -> hbase hbase,hdfs,spark streaming -> yarn이 제어 0. 사용자는 앱을 사용하여 서버에 로그기록 1. 서버는 로그변화를 감지하여 실시간으로 카프카에 전송2. 카프카는 분산 메시징 시스템, 실시간 데이터 전송에서 원천데이터와 처리데이터 사이에서 버퍼역활을 함3. 스파크 스트리밍은 카프카에서 받은 로그를 마이크로..
E-tailing Recommendation engines — increase average order size by recommending complementary products based on predictive analysis for cross-selling.Cross-channel analytics — sales attribution, average order value, lifetime value (e.g., how many in-store purchases resulted from a particular recommendation, advertisement or promotion).Event analytics — what series of steps (golden path) led to a ..
페이지? 로우키 단위로 묶음PageFilter(반환할 페이지 갯수);.setSize(); 페이지당 반환할 로우갯수 FirstKeyOnlyFilter - 로우의 갯수만 countInclusiveStopFIlter - 해당 로우키를 만나면 scan종료TimestampsFilter(List timestamps) - 특정 타임스탬프값 필터링 scan.setTimeRange(start,end); //이건 범위 ColumnCountGetFilter(int n) 컬럼수 필터리스트FilterList(Operator operator,List rowFilters) operatorFilterList.Operator.MUST_PASS_ALL - 모든 조건 만족 FilterList.Operator.MUST_PASS_ONE
SingleColumnValueFilter filter = new SingleColumnValueFilter(Bytes.toBytes("컬럼패밀리"),Bytes.toBytes("컬럼명"),CompareFilter.CompareOp.NOT_EQUAL,new SubstringComparator("vale-5")); filter.setFilterIfMissing(true); // 참조컬럼이 없는 로우가 결과에 포함되지 않음 setLatestVersionOnly(true); //최근의 버전(timestamp)만을 검사한다. 단일컬럼 값 제외 필터SingleColumnValueExcludeFilter
hbase를 내일 반납해야한다. ㅜㅜ꼭 필요한 기능을 좀 메모해놔야 겠다. 읽기메소드인 get,scan은 정밀한 탐새기능을 제공하지 않아필터 인터페이스를 이용한다.물론 클라이언트에서 필터기능을 구현해도 되지만 모든 data를 리전서버에서 가져와 적절하지 않다. CompareFIlter계열 필터에 사용되는 비교 연산자 LESS 작은값 LESS_OR_EQUALEQUALNOT_EQUAL 일치하지 않는값 GREATER_OR_EQUALGREATER 큰값 NO_OP 모든값을 배제 비교자BinaryComparator 현재값과 비교BinaryPrefixComparatorNullComparatorBitComparator 비트단위 비교RegexStringComparator 정규식 비교 SubstringComparator ..
정보는 두개의 범주로 나뉜다.-원천 데이터-도출된 데이터 원천데이터는 왜 불변인가- 주소 정보는 변하는가? , 만약 다른집으로 이사를 간다면?- 타임스탬프만 추가한다. +1982년 3월 1일 현재 샬롯테가 아카시아 길 22번지에 산다. 도출데이터는 원천 데이터를 이용해 만들어 냄으로 굳이 따로 보관할 필요가 없다.데이터가 불변이면 새로운data를 스토리지에 저장만 하면 된다.- 잠금장치 혹은 트랜잭션 같은것이 전혀 필요없다.왜? 데이터가 변할일이 없다.여러개의 스레드가 서로 방해할 걱정없이 동일한 data를 마음껏 병렬적으로 사용한다. 스파크 프로그래밍에서 왜 val을 사용하는것을 권장하는지 알수있음.