머신러닝에는 사용되는 데이터터는 아래와 같이 크게 두 종료가 있다. 많은 머신 러닝 알고리즘은 인풋 데이터, 즉 입력 변수의 값이 수치형 데이터여야 한다. 예를 들면 선형 회귀도 손실 함수를 구하고 경사 하강법을 적용하려면 인풋 데이터가 수치형 데이터여야 한다. 그렇다면 범주형 데이터가 있을 땐 어떻게 해야 할까? 범주형 데이터를 -> 수치형 데이터로 바뚸 주면 된다. 그러나 위 이미지처럼 범주에 숫자를 입력하게 된다면 머신러닝 알고리즘은 'A형은 1이니까 가장 작고, O형은 4니까 가장 크고, AB형, B형은 그 사이에 존재한다'라는 관계로 인식하게 되어 오히려 예측에 방해가 된다. 그러므로 범주형 데이터를 수치형 데이터로 바꿔줄 때는 One-hot encoding 방법을 사용한다. One-hot..