한땀한땀 정성들인 코딩

[spark] 머신러닝 라이브러리 본문

빅데이터

[spark] 머신러닝 라이브러리

romance penguin 2017. 2. 20. 17:45
반응형

머신러닝 알고리즘

선형회귀 : 선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. y가 없는 x값에 대해서 y를 추측하기 위해 사용한다.

단순 선형회귀 : 독립변수 1개

다중 선형회귀 : 독립변수가 여러개 목적은 두가지로 나뉜다.

1. 독립변수 w가중치의 양, 종속변수에 영향을 주는 크기 혹은 여부

2. 단순선형회귀의 목적과 같음, 종속변수 예측

비선형 회귀(다항) : 관계를 나타내는 함수가 직선으로 나타내지 못할경우


로지스틱회귀 : 사건이 일어날 확률 예측


서포트 벡터머신 : 새로운 data가 주어졌을때 기존에 있는 데이터 집합을 활용하여 어느쪽에 속할지 결정하는 알고리즘


나이브 베이즈 : 텍스트 분류에 사용됨

-조건부확률 : 사건 A가 발생 했을때, 사건 B가 발생할 확률


의사결정 트리 : 데이터를 분류하는 목적


랜덤 포레스트


그래디언트 부스티드 트리


등위 회귀


클러스터링

k-means : 클러스터링 분할법

스트리밍 k-means

가우시안 혼합 : 전체 집단에서 하위집단을 나타내기 위한 모델

파워 이터레이션 클러스터링

잠재적인 디리클레 할당

차원 축소

주성분 분석

특이값 분해

특성 추출과 변환

TF-IDF

Word2Vec

표준 스칼라

노말라이저

카이제곱 기능 선택

엘리먼트와이즈 제품

프리퀀트 패턴 마이닝

FP-growth

협업규칙

PrefixSpan


**컴공과 멀어지는 기분.. 전산학,통계학이랑 관련이 더 깊다... 데이터 과학자

**인공지능과 관련이 깊다. 패턴인식,학습 모델,머신러닝

**어떤 학습모델이든간에 병렬처리가 기본이다.

반응형

'빅데이터' 카테고리의 다른 글

[기계학습]base  (0) 2017.02.14
[빅데이터]yarn ? zookeeper? 차이점  (0) 2017.01.25
[메이븐]환경세팅  (0) 2017.01.20
[spark]스파크 인프라 구축  (0) 2017.01.18
[HDFS]hdfs시나리오  (0) 2017.01.18