한땀한땀 정성들인 코딩
[기계학습]base 본문
반응형
raw data( 원시 데이터 ) -> 가공
결과 예측
분류
훈련집합 : 양질의 data
속성
목적변수 : 속성 값
분류에서 목적 변수는 명목형 값을 가진다.
회귀에서 목적 변수는 계속 되풀이 될수 있다.
무게 |
날개 길이 |
발갈퀴 |
등 색상 |
종 |
1000.1 |
124.1 |
없음 |
갈색 |
buteo |
3000.2 |
200.0 |
없음 |
회색 |
sagitt |
무게,날개길이,발갈퀴,등 색상 --> 속성
종 --> 목적변수 ( 분류항목 )
훈련집합
검사집합
지도학습
-분류 : data가 어느 부류에 속하는지 예측
-회귀 : 수치형 입력값으로 예측
-분류,회귀,k-최근접 이웃,선형 회귀,나이브베이스,의사결정트리
비지도 학습 : 목적변수가 없음
-군집화 :
-밀도추정
-군집화(클러스터링), 밀도추정, k-means
적절한 알고리즘 선택방법
1. 목적
목적값을 예측하려 한다 -yes-> 지도학습 --> 목적값이 이산적인가? -yes->
-no 수치값이다.-> 회귀
-no 예측이 아니다.-> 어느 집합에 속하는지 알고싶다. -yes-> 군집
-no 어느정도 수치값으로 속하는가?->밀도 추정
2. 보유한 data type
- 명목형인지 연속형
- 누락된값은 있는가?
- data내에 오류
기계학습 프로그램 개발 단계
1. 데이터 수집
2. 입력 data 준비
3. 입력 data 분석
4. 알고리즘 훈련
5. 알고리즘 test
반응형
'빅데이터' 카테고리의 다른 글
[spark] 머신러닝 라이브러리 (0) | 2017.02.20 |
---|---|
[빅데이터]yarn ? zookeeper? 차이점 (0) | 2017.01.25 |
[메이븐]환경세팅 (0) | 2017.01.20 |
[spark]스파크 인프라 구축 (0) | 2017.01.18 |
[HDFS]hdfs시나리오 (0) | 2017.01.18 |