한땀한땀 정성들인 코딩
[spark] 머신러닝 라이브러리 본문
머신러닝 알고리즘
선형회귀 : 선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. y가 없는 x값에 대해서 y를 추측하기 위해 사용한다.
단순 선형회귀 : 독립변수 1개
다중 선형회귀 : 독립변수가 여러개 목적은 두가지로 나뉜다.
1. 독립변수 w가중치의 양, 종속변수에 영향을 주는 크기 혹은 여부
2. 단순선형회귀의 목적과 같음, 종속변수 예측
비선형 회귀(다항) : 관계를 나타내는 함수가 직선으로 나타내지 못할경우
로지스틱회귀 : 사건이 일어날 확률 예측
서포트 벡터머신 : 새로운 data가 주어졌을때 기존에 있는 데이터 집합을 활용하여 어느쪽에 속할지 결정하는 알고리즘
나이브 베이즈 : 텍스트 분류에 사용됨
-조건부확률 : 사건 A가 발생 했을때, 사건 B가 발생할 확률
의사결정 트리 : 데이터를 분류하는 목적
랜덤 포레스트
그래디언트 부스티드 트리
등위 회귀
클러스터링
k-means : 클러스터링 분할법
스트리밍 k-means
가우시안 혼합 : 전체 집단에서 하위집단을 나타내기 위한 모델
파워 이터레이션 클러스터링
잠재적인 디리클레 할당
차원 축소
주성분 분석
특이값 분해
특성 추출과 변환
TF-IDF
Word2Vec
표준 스칼라
노말라이저
카이제곱 기능 선택
엘리먼트와이즈 제품
프리퀀트 패턴 마이닝
FP-growth
협업규칙
PrefixSpan
**컴공과 멀어지는 기분.. 전산학,통계학이랑 관련이 더 깊다... 데이터 과학자
**인공지능과 관련이 깊다. 패턴인식,학습 모델,머신러닝
**어떤 학습모델이든간에 병렬처리가 기본이다.
'빅데이터' 카테고리의 다른 글
[기계학습]base (0) | 2017.02.14 |
---|---|
[빅데이터]yarn ? zookeeper? 차이점 (0) | 2017.01.25 |
[메이븐]환경세팅 (0) | 2017.01.20 |
[spark]스파크 인프라 구축 (0) | 2017.01.18 |
[HDFS]hdfs시나리오 (0) | 2017.01.18 |