728x90

* 결정트리 Decision Tree

 - 스무고개와 같이 질문을 하나씩 던져 정답을 맞춰가며 학습하는 알고리즘 -> 예측 과정을 이해하기 쉬움

* 검증세트 Validation set

 - hiperparameter 튜닝을 위해 모델을 평가할 때, test set을 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 data set

* 교차검증 cross validation

 - 훈련세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련

* 그리드 서치 Grid Search

 - hiperparameter 탐색을 자동화 해주는 도구 -> 자동으로 맞는 값을 찾아준다

* 랜덤 서치 Random Search

 - 연속적인 parameter의 값을 탐색할 때 유용

* 정형데이터(structured data) vs 비정형데이터(unstructured data)

 - CSV, database등 특정 구조로 되어 있는 것은 structed data, 정형화가 어려운 사진, 음악 등은 비정형 데이터라고 함

* 앙상블 학습 ensemble learning

 - 여러 알고리즘을 합쳐 성능을 높이는 머신러닝 기법

* 랜덤 포레스트 Random Forest

 - 대표적인 앙상블 학습 방법, 안정적인 성능

 - 부트스트랩 샘플 사용, 랜덤하게 일부 특성을 선택하여 트리를 만든다

* 부트스트랩 샘플 Bootstrap sample

 - 데이터세트에서 중복을 허용하여 데이터를 샘플링하는 방식

* 엑스트라 트리 extra trees

 - random forest와 비슷하게 동작하며 결정 트리를 사용하여 앙상블 모델을 만들지만 bootstrap sample을 사용하지 않는 대신 랜덤하게 노드를 분할하여 과대적합을 감소

* 그레이디언트 부스팅 Gradient boosting

 - 깊이가 얕은 결정 트리를 사용하여 이전 트리의 오차를 보완하는 방식으로 앙상블하는 방법, 깊이가 얕은 결정 트리를 사용하기 때문에 과대적합에 강하고 일반적으로 높은 일반화 성능을 기대할 수 있음

* Histogram-based Gradient Boosting

 - Gradient boosting의 속도를 개선한 것으로 과대적합을 잘 억제하며 Gradient boosting

728x90

+ Recent posts