MLOps 부트캠프 by 한경+토스뱅크/Machine Learning

앙상블(보팅, 배깅, 부스팅)

나니니 2024. 7. 25. 14:53

보팅(Voting)

  • Hard Votiing: 다수의 Classifeir간 다수결로 최종 class 결정
  • Soft Voting: 다수의 Classifier들의 class 확률을 평균하여 결졍(*일반적으로 많이 사용) -> predict prob가 있어야 가능
    • SVC 모델은 predict proba가 없으므로 Soft Votingd 참여 불가

 

배깅(Bagging)

: Bootstrap Sampling의 줄임말, 기존 학습 데이터 세트로부터 랜덤하게 복원추출하여 동일한 사이즈의 데이터 세트를 여러 개 만드는 것

과대적합되며 훈련이 진행됨

  • 대표 모델: 랜덤포레스트

부스팅(Boosting)

: 과소적합된 모델을 사용하여 순차적으로 반복학습을 진행함, 예측한 데이터 혹은 학습 트리에 가중치 부여를 통해 오류를 개선해 나가면서 학습함 -> 오류가 없을 때 까지 반복

에이다 부스팅

에이다 부스팅

GBM(Gradient Boost Machine) ⭐️

: AdaBoost와 유사하나, 가중치 업데이트경사 하강법을 이용함

loss

: 경사 하강법에서 사용할 손실 함수 지정. 기본은 deviance

learning_rate

: GBM이 학습을 진행할 때마다 적용하는 학습률

n_estimators

: Weak Learner의 개수, 기본값은 100

 

XGBoost(eXtra Gradient Boost)

: 사이킷런이랑 유사함

주요 장점

  • 조기 중단(Early Stopping)
  • 자체 내장된 교차 검증
  • 결손값 자체 처리

LightGBM

: 리프 중심 트리 분할

사용법은 사이킷런과 유사함