데이터로 Deep Dive

데이터 분석과 개발 경험을 공유합니다.

ai 9

[논문 리뷰] 한국어 LLM성능 평가를 위한 통합 툴킷, ‘HRET’ by HAE-RAE

좋은 기회로 HAE-RAE팀의 사이드프로젝트 멤버로 합류하여 실험에 사용될 코드를 작업하게 되었다.  한국어에 특화된 LLM 평가 툴킷을 개발하여 논문으로 발표하는데, 부트캠프에서 갓 배워온 쪼무래기 초보자가 여기에 참여할 수 있다니 말이다.  내 기준으로는 0.001%도 기여했나 싶을 정도로 부끄럽지만논문 제출 날 내 이름도 함께 올라가 있어서 가족들에게 자랑도 했다. ㅎㅎㅎㅎ *하단 캡쳐는 다른 분들의 이름도 함께 노출되다 보니 개인정보 이슈로 블러 처리함 그래서 이 논문에 대해 리뷰하는 시간을 가지면서 동시에 어떻게 동작하는지도 테스트 해보고자 한다.  HAE-RAE 소개HAE-RAE는 한국어 모델의 해석 가능성과 평가에 초점을 맞춘 비영리 오픈소스 단체이다. 이 단체의 미션은 통찰력 있는 벤치마크..

머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 2) 뉴스 헤드라인으로 감성분석 비교하기

앞전 포스팅에서는'테슬라'의 주가를 가지고 예측해 보았다. - 머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 1) 랜덤 포레스트, XGBoost, 앙상블 및 LSTM 모델링 머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 1) 랜덤 포레스트, XGBoost, 앙상블 및 LSTM 모델링'금융' 관련 머신러닝 사례를 찾아보다가 ChatGPT로 주식 가격과 코인 가격을 예측해 본 아티클을 발견했다.  찬찬히 읽어보았는데,시도해보면 재미있을 것 같아서 테슬라로 간단히 시도해보았nanini.tistory.com 이번 포스팅에서는 '테슬라'의 뉴스 헤드라인으로감성분석을 하여 주가 예측을 해보고자 한다.  참고한 내용은 카카오뱅크 기술기획팀 William께서 발행한 포스팅이다. -> ChatGPT로 ..

요식업 매출 베이스로 제주 맛집 추천 웹앱 만들기(feat. Streamlit)

작년 말 즈음에 빅콘테스트 주최로 '제주 맛집'을 추천하는 'LM활용 제주도 맛집 추천 대화형 AI서비스 개발'에 참여한 적이 있다.  이때, 첫 공모전이기도 하고LLM에 막 발을 담가봤던 시기이기도 해서굉장히 재미있지만서도 어려워서 밤을 새어 가며내 친구 Cursor와 함께 뚝딱뚝딱 만들어보았던 시기가 있었다.  이때, 다른 친구 한 명과 같이 참여했는데, 다행스럽게도 둘 다 LLM이란 기술에 매료되어서 고군분투하며 어떻게든 Streamlit까지 만들고, 영상도 찍었었다.  결론적으론, 입상은 하지 못했다.  아이디어는 좋았으나, 우리의 기술력 한계로 인해 영상도, 제출 코드도 엉망인 채로 제출해 버렸다. 왜냐하면.. 우린 LLM구현이 잘 된 줄 알았으나 알고 봤더니 LLM 이 자체적으로 답변을 생성하..

금융 데이터 AI 챗봇 개발기: 4) 드디어 모델 배포! 사이트가 생기니 좋구만!

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  1️⃣ 금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/902️⃣ 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/913️⃣ 금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기- 출처: https://nanini.tistory.com/92   앞에서 세 개 포스팅으로 모델을 구현한 이야기의 최종판, 기능들을 한데 모아서RePick이란 서비스를 만들었다.  - RePick (ht..

금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/90금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/91  LLM은 마무리 되었으니!이제 추천 알고리즘을 만들어보자.  구현 배경여기서 짚고 넘어가야 할 부분이추천 알고리즘? 추천 모델? 추천 시스템? 헷갈리는 부분이 있어개념을 다시한번 정리해보면 아래와 같다. 추천 시스템 > 추천 알고리즘 > 추천 모델추천 모델: 알고리즘을 구현한 구체적인 형태추천 알고리즘: 추천을 생..

금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)

👇 이전의 포스팅은 아래에서 확인할 수 있습니다. 👇금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)출처: https://nanini.tistory.com/90 [데이터 개발 공부:티스토리]  이전 포스팅에 이어서이제 RAG를 구축할 차례이다.  LangChain 공식문서에서 RAG는두 가지 주요 구성 요속 있는데 1번 인덱싱 부분은 이전 포스팅에서 이미 완료한 상태였다.  I) 인덱싱 : 소스에서 데이터를 수집하고 인덱싱하는 파이프라인. 이는 일반적으로 오프라인에서 발생합니다.로드 : 먼저 데이터를 로드해야 합니다. 이는 Document Loaders 로 수행됩니다 .분할 : 텍스트 분할기는 큰 청크를 작은 청크로 나눕니다 Documents. ..

금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)

드디어, 6개월의 부트캠프에서 최종,그러니까최종_찐최종_찐찐최종_마지막최종 으로 진행했던 프로젝트에 대해 리뷰하고자 한다. (아래의 자료들은 실제 프로젝트와 발표에 사용되었던 자료들이다) 약 3회에 걸쳐 리뷰할 예정이고,본 포스팅은 서비스 기획부터 데이터 전처리까지의 이야기를 담고 있다.  0. 팀빌딩 및 기획우리의 서비스 명은 RePick이고, 팀명도 RePick이다.(*다른 팀원들은 개인정보 이슈로 블러처리함)RePick 개발에는 나를 포함하여 7명(백엔드 3, 프론트 1, 엠엘 3)이 함께 개발에 참여했다.  그리고 이 프로젝트에서 맡은 나의 역할은프로젝트 리드 및 데이터 전처리, 모델링이었고또, 제일 고연령(;;) 및 경력직도 맡았다. 하하하 이 부분의 혜택을 얻은 부분도 있는데, 바로 리더십이다..

우아콘 2024 골라보기, 2) Fine-tuning 없이, 프롬프트 엔지니어링으로 메뉴 이미지 검수하기

이 영상은토스뱅크 멘토님이 추천해주셔서 보게되었는데보면서 느낀점은엇..우리도 RePick 개발하면서 저렇게 진행했는데!! 하는 거였다.  그런데 슬라이드도 깔끔하고 내용도 딱딱 구조화시켜 정리해놓으니이해하기도 수월했고, 어떤 문제와 상황들을 거쳐서 어떻게 해결해나갔는지를 단번에 알 수 있었다.  우리네 최종 프로젝트도 얼른 리뷰도 해야 하는데, 막상 적을 내용이 너무 많다보니 계속 미루게 되는 겨울이다..ㅠㅠ우아콘 2024 골라보기 시리즈저번 우아콘 2024 골라보기, 1) 추천 모델 성장 일지에 이어서 Fine-tunning 없이, Only 프롬프트 엔지니어링 만으로 '메뉴 이미지 검수하기'라는 주제다.  이번 영상도 마찬가지로AI/ML 카테고리다. *영상 제목이 'Fine-tuning없이'라고 되어 ..

etc 2025.01.09

우아콘 2024 골라보기, 1) 추천 모델 성장 일지

우아콘 2024가 종료되었다.  10월 경, 참여 신청이 올라왔을 때 신청할까 하다가 모든 세션이 유튭으로도 올라온다고하여 이 날만을 기다렸고드디어 모든 영상이 떴다지..! 10월 30일에 진행되었고,영상을 보기까지의 약 두달동안부트캠프 최종프로젝트에 몰입하고 있었다.  오히려..부트캠프 최종프로젝트를 모두 마무리하고 보길 잘한 듯 싶은게 AI/LM 파트 영상을 보는데'어? 저거 저렇게도 적용할 수 있구나', '저런 방식으로 적용해야하는구나' 라는 생각도 들었고동시에'와..현업에서 이런저런 시도 다 해볼 수 있어서 넘 부럽다' 란 생각도 들었다.  결론은, 부트캠프를 거치면서 AI/LM에 대한 이해도를 올린 덕분에이 영상도 이해할 수 있었다는 거...! 우와콘 2024 영상 중에서, AI와 관련된 영상이..

etc 2025.01.01