데이터로 Deep Dive

데이터 분석과 개발 경험을 공유합니다.

LLM 8

[논문 리뷰] 한국어 LLM성능 평가를 위한 통합 툴킷, ‘HRET’ by HAE-RAE

좋은 기회로 HAE-RAE팀의 사이드프로젝트 멤버로 합류하여 실험에 사용될 코드를 작업하게 되었다.  한국어에 특화된 LLM 평가 툴킷을 개발하여 논문으로 발표하는데, 부트캠프에서 갓 배워온 쪼무래기 초보자가 여기에 참여할 수 있다니 말이다.  내 기준으로는 0.001%도 기여했나 싶을 정도로 부끄럽지만논문 제출 날 내 이름도 함께 올라가 있어서 가족들에게 자랑도 했다. ㅎㅎㅎㅎ *하단 캡쳐는 다른 분들의 이름도 함께 노출되다 보니 개인정보 이슈로 블러 처리함 그래서 이 논문에 대해 리뷰하는 시간을 가지면서 동시에 어떻게 동작하는지도 테스트 해보고자 한다.  HAE-RAE 소개HAE-RAE는 한국어 모델의 해석 가능성과 평가에 초점을 맞춘 비영리 오픈소스 단체이다. 이 단체의 미션은 통찰력 있는 벤치마크..

금융 데이터 AI 챗봇 개발기: 4) 드디어 모델 배포! 사이트가 생기니 좋구만!

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  1️⃣ 금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/902️⃣ 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/913️⃣ 금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기- 출처: https://nanini.tistory.com/92   앞에서 세 개 포스팅으로 모델을 구현한 이야기의 최종판, 기능들을 한데 모아서RePick이란 서비스를 만들었다.  - RePick (ht..

금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/90금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/91  LLM은 마무리 되었으니!이제 추천 알고리즘을 만들어보자.  구현 배경여기서 짚고 넘어가야 할 부분이추천 알고리즘? 추천 모델? 추천 시스템? 헷갈리는 부분이 있어개념을 다시한번 정리해보면 아래와 같다. 추천 시스템 > 추천 알고리즘 > 추천 모델추천 모델: 알고리즘을 구현한 구체적인 형태추천 알고리즘: 추천을 생..

금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)

👇 이전의 포스팅은 아래에서 확인할 수 있습니다. 👇금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)출처: https://nanini.tistory.com/90 [데이터 개발 공부:티스토리]  이전 포스팅에 이어서이제 RAG를 구축할 차례이다.  LangChain 공식문서에서 RAG는두 가지 주요 구성 요속 있는데 1번 인덱싱 부분은 이전 포스팅에서 이미 완료한 상태였다.  I) 인덱싱 : 소스에서 데이터를 수집하고 인덱싱하는 파이프라인. 이는 일반적으로 오프라인에서 발생합니다.로드 : 먼저 데이터를 로드해야 합니다. 이는 Document Loaders 로 수행됩니다 .분할 : 텍스트 분할기는 큰 청크를 작은 청크로 나눕니다 Documents. ..

우아콘 2024 골라보기, 2) Fine-tuning 없이, 프롬프트 엔지니어링으로 메뉴 이미지 검수하기

이 영상은토스뱅크 멘토님이 추천해주셔서 보게되었는데보면서 느낀점은엇..우리도 RePick 개발하면서 저렇게 진행했는데!! 하는 거였다.  그런데 슬라이드도 깔끔하고 내용도 딱딱 구조화시켜 정리해놓으니이해하기도 수월했고, 어떤 문제와 상황들을 거쳐서 어떻게 해결해나갔는지를 단번에 알 수 있었다.  우리네 최종 프로젝트도 얼른 리뷰도 해야 하는데, 막상 적을 내용이 너무 많다보니 계속 미루게 되는 겨울이다..ㅠㅠ우아콘 2024 골라보기 시리즈저번 우아콘 2024 골라보기, 1) 추천 모델 성장 일지에 이어서 Fine-tunning 없이, Only 프롬프트 엔지니어링 만으로 '메뉴 이미지 검수하기'라는 주제다.  이번 영상도 마찬가지로AI/ML 카테고리다. *영상 제목이 'Fine-tuning없이'라고 되어 ..

etc 2025.01.09

자연어 숫자로 표현하기 - 정수 인코딩과 패딩(제로 패딩)

정수 인코딩이란? 전처리된 텍스트 데이터를 컴퓨터가 분석에 활용할 수 있게 하려면 숫자 데이터로 변환해야 한다. 이를 위한 여러 방법이 있는데, 대표적으로 정수 인코딩이 있다. 정수 인코딩은 토큰화된 각 단어에 특정 정수를 맵핑하여 고유 번호로 사용하는 방법이다. 단어 토큰에 정수 인덱스를 부여하는 방법은 다양한데, 그 중 가장 일반적인 방법은 단어의 등장 빈도를 기준으로 정렬한 다음 인덱스를 부여하는 방식이다.  정수 인코딩 하기더보기정수 인코딩을 하면 더 이상 추가적인 전처리를 할 수 없다. 때문에 모든 전처리 과정이 끝난 코퍼스를 가지고 정수 인코딩을 해야 한다. import nltkfrom nltk.tokenize import word_tokenizefrom nltk.tokenize import ..

문장 단위 - 자연어 전처리(문장 토큰화, 품사 태깅, 표제어 추출)

문장 토큰화(Sentence Tokenization)경우에 따라 코퍼스를 문장 단위로 토큰화한 다음에 문장의 의미를 살려서 분석을 해야 하는 경우가 있다. 대표적으로 '품사 태깅'이 그러한 경우인데, 어떠한 단어의 품사는 그 단어 자체의 의미와 함께 문장 안에서 사용된 위치에 따라 달라질 수 있다. 이런 경우에는 문장 간의 구분이 된 상태에서 단어의 품사를 정해야 하기 때문에 문장 단위로 먼저 토큰화한 후에 품사를 구분해야 한다.  예시 - sent_tokenize()더보기 punkt 모듈을 설치하면 마침표나 약어(Mr. , Dr.)와 같은 언어적인 특성을 고려해서 문장 토큰화가 되기 때문에 단순히 마침표가 있는 곳을 문장으로 나누는 것이 아니라 실제 문장을 잘 구분해 준다. # 필요한 패키지와 함수 불..

단어 단위 - 자연어 전처리(정제, 불용어, 정규화, 어간 추출)

자연어 전처리란?자연어 데이터를 사용할 때, 전처리를 어떻게 하냐에 따라 분석 결과가 크게 달라진다. 예를 들어, 'Oh, Hi helo. Nice to meetyou.' 문장에서 맞춤법과 띄어쓰기 수정, 그리고 의미 표현에 크게 기여하지 않는 'Oh' 제거, 중첩된 유의어 제거(Hi, Hello), 각 단어에 숫자 인덱스 부여 등의 작업을 거치고나면 {'Hi':0, 'Nice':1, 'to':2, 'meet':3, 'you':4} 와 같이 분석에 활용하기 좋은 형태가 된다. 이러한 과정을 자연어 전처리라고 한다.  자연어 전처리 과정토큰화: 자연어 데이터를 분석을 위한 작은 단위(토큰)로 분리한다.정제: 분석에 큰 의미가 없는 데이터들을 제거한다.정규화: 표현 방법이 다르지만 의미가 같은 단어들을 통..