보팅(Voting)
- Hard Votiing: 다수의 Classifeir간 다수결로 최종 class 결정
- Soft Voting: 다수의 Classifier들의 class 확률을 평균하여 결졍(*일반적으로 많이 사용) -> predict prob가 있어야 가능
- SVC 모델은 predict proba가 없으므로 Soft Votingd 참여 불가
배깅(Bagging)
: Bootstrap Sampling의 줄임말, 기존 학습 데이터 세트로부터 랜덤하게 복원추출하여 동일한 사이즈의 데이터 세트를 여러 개 만드는 것
과대적합되며 훈련이 진행됨
- 대표 모델: 랜덤포레스트
부스팅(Boosting)
: 과소적합된 모델을 사용하여 순차적으로 반복학습을 진행함, 예측한 데이터 혹은 학습 트리에 가중치 부여를 통해 오류를 개선해 나가면서 학습함 -> 오류가 없을 때 까지 반복
에이다 부스팅
GBM(Gradient Boost Machine) ⭐️
: AdaBoost와 유사하나, 가중치 업데이트 시 경사 하강법을 이용함
loss
: 경사 하강법에서 사용할 손실 함수 지정. 기본은 deviance
learning_rate
: GBM이 학습을 진행할 때마다 적용하는 학습률
n_estimators
: Weak Learner의 개수, 기본값은 100
XGBoost(eXtra Gradient Boost)
: 사이킷런이랑 유사함
주요 장점
- 조기 중단(Early Stopping)
- 자체 내장된 교차 검증
- 결손값 자체 처리
LightGBM
: 리프 중심 트리 분할
사용법은 사이킷런과 유사함