정수 인코딩이란? 전처리된 텍스트 데이터를 컴퓨터가 분석에 활용할 수 있게 하려면 숫자 데이터로 변환해야 한다. 이를 위한 여러 방법이 있는데, 대표적으로 정수 인코딩이 있다. 정수 인코딩은 토큰화된 각 단어에 특정 정수를 맵핑하여 고유 번호로 사용하는 방법이다. 단어 토큰에 정수 인덱스를 부여하는 방법은 다양한데, 그 중 가장 일반적인 방법은 단어의 등장 빈도를 기준으로 정렬한 다음 인덱스를 부여하는 방식이다. 정수 인코딩 하기더보기정수 인코딩을 하면 더 이상 추가적인 전처리를 할 수 없다. 때문에 모든 전처리 과정이 끝난 코퍼스를 가지고 정수 인코딩을 해야 한다. import nltkfrom nltk.tokenize import word_tokenizefrom nltk.tokenize import ..