한땀한땀 정성들인 코딩

[기계학습]base 본문

빅데이터

[기계학습]base

romance penguin 2017. 2. 14. 16:45
반응형

raw data( 원시 데이터 ) -> 가공

결과 예측


분류


훈련집합 : 양질의 data

속성

목적변수 : 속성 값


분류에서 목적 변수는 명목형 값을 가진다.

회귀에서 목적 변수는 계속 되풀이 될수 있다.


무게 

날개 길이 

발갈퀴

등 색상 


1000.1

124.1

없음

갈색

buteo

3000.2

200.0

없음

회색

sagitt


무게,날개길이,발갈퀴,등 색상 --> 속성

종 --> 목적변수 ( 분류항목 )


훈련집합

검사집합



지도학습

-분류 : data가 어느 부류에 속하는지 예측

-회귀 : 수치형 입력값으로 예측

-분류,회귀,k-최근접 이웃,선형 회귀,나이브베이스,의사결정트리


비지도 학습 : 목적변수가 없음

-군집화 :

-밀도추정

-군집화(클러스터링), 밀도추정, k-means


적절한 알고리즘 선택방법

1. 목적

목적값을 예측하려 한다 -yes-> 지도학습 --> 목적값이 이산적인가? -yes->

-no 수치값이다.-> 회귀


-no 예측이 아니다.-> 어느 집합에 속하는지 알고싶다. -yes-> 군집

-no 어느정도 수치값으로 속하는가?->밀도 추정


2. 보유한 data type

- 명목형인지 연속형

- 누락된값은 있는가?

- data내에 오류


기계학습 프로그램 개발 단계

1. 데이터 수집

2. 입력 data 준비

3. 입력 data 분석

4. 알고리즘 훈련

5. 알고리즘 test

반응형

'빅데이터' 카테고리의 다른 글

[spark] 머신러닝 라이브러리  (0) 2017.02.20
[빅데이터]yarn ? zookeeper? 차이점  (0) 2017.01.25
[메이븐]환경세팅  (0) 2017.01.20
[spark]스파크 인프라 구축  (0) 2017.01.18
[HDFS]hdfs시나리오  (0) 2017.01.18