* 결정트리 Decision Tree
- 스무고개와 같이 질문을 하나씩 던져 정답을 맞춰가며 학습하는 알고리즘 -> 예측 과정을 이해하기 쉬움
* 검증세트 Validation set
- hiperparameter 튜닝을 위해 모델을 평가할 때, test set을 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 data set
* 교차검증 cross validation
- 훈련세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련
* 그리드 서치 Grid Search
- hiperparameter 탐색을 자동화 해주는 도구 -> 자동으로 맞는 값을 찾아준다
* 랜덤 서치 Random Search
- 연속적인 parameter의 값을 탐색할 때 유용
* 정형데이터(structured data) vs 비정형데이터(unstructured data)
- CSV, database등 특정 구조로 되어 있는 것은 structed data, 정형화가 어려운 사진, 음악 등은 비정형 데이터라고 함
* 앙상블 학습 ensemble learning
- 여러 알고리즘을 합쳐 성능을 높이는 머신러닝 기법
* 랜덤 포레스트 Random Forest
- 대표적인 앙상블 학습 방법, 안정적인 성능
- 부트스트랩 샘플 사용, 랜덤하게 일부 특성을 선택하여 트리를 만든다
* 부트스트랩 샘플 Bootstrap sample
- 데이터세트에서 중복을 허용하여 데이터를 샘플링하는 방식
* 엑스트라 트리 extra trees
- random forest와 비슷하게 동작하며 결정 트리를 사용하여 앙상블 모델을 만들지만 bootstrap sample을 사용하지 않는 대신 랜덤하게 노드를 분할하여 과대적합을 감소
* 그레이디언트 부스팅 Gradient boosting
- 깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식으로 앙상블하는 방법, 깊이가 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고 일반적으로 높은 일반화 성능을 기대할 수 있음
* Histogram-based Gradient Boosting
- Gradient boosting의 속도를 개선한 것으로 과대적합을 잘 억제하며 Gradient boosting
'Programming > Machine Learning' 카테고리의 다른 글
[혼공머신] 07-2 심층 신경망 (0) | 2022.04.24 |
---|---|
[혼공머신] 07-1 인공 신경망 Cont. (0) | 2022.04.09 |
[혼공머신] 07-1 인공 신경망 (0) | 2022.04.09 |
[혼공머신] 06-3 주성분 분석 (0) | 2022.03.27 |
[혼공머신] 용어 04장 (0) | 2022.02.28 |
[혼공머신] 06-2 k-평균 (0) | 2022.02.20 |
[혼공머신] 06-1 군집 알고리즘(비지도학습) (0) | 2022.02.19 |
[혼공머신] 05-3 트리의 앙상블 (0) | 2022.02.13 |
[혼공머신] 05-2 교차 검증과 그리드 서치 (0) | 2022.02.12 |
[혼공머신] 05-1 결정트리 (0) | 2022.02.06 |