차원 축소 알고리즘

MLOps 부트캠프 by 한경+토스뱅크/Machine Learning

Marlangcow 2024. 7. 31. 11:09

차원의 저주

: 차원이 커지면 커질수록 데이터 포인트들 간 거리가 크게 늘어나므로 데이터가 희소화(Sparse) 되기 시작함

수백~수천 개 이상의 Feature로 구성된 포인트들간 거리에 기반한 머신러닝 알고리즘들이 무력화 됨

또, Feature가 많을 경우, 개별 Feature간 상관관계가 높아 선형 회귀 같은 모델에선 '다중공선성 문제'로 인해 모델의 예측 성능이 저하될 가능성이 매우 높다.

: 종속성이 강한 불필요한 특성은 완전히 제거하고, 주요 특성만 선택하는 것

: 기존 특성을 저차원의 주요 특성으로 압축하여 또 다른 공간으로 매핑해 추출함(*새롭게 추출된 중요 특성은 기존의 특성을 반영해 압축된 것이지만 새로운 특성으로 추출됨)

-> 차원 축소를 통해 데이터를 보다 더 잘 설명할 수 있는 잠재적(Latent)인 요소를 추출함

추천엔진, 이미지 분류 및 변환, 문서 토픽 모델링 등에서 사용됨