데이터로 Deep Dive

데이터 분석과 개발 경험을 공유합니다.

전체 글 93

[논문 리뷰] 한국어 LLM성능 평가를 위한 통합 툴킷, ‘HRET’ by HAE-RAE

좋은 기회로 HAE-RAE팀의 사이드프로젝트 멤버로 합류하여 실험에 사용될 코드를 작업하게 되었다.  한국어에 특화된 LLM 평가 툴킷을 개발하여 논문으로 발표하는데, 부트캠프에서 갓 배워온 쪼무래기 초보자가 여기에 참여할 수 있다니 말이다.  내 기준으로는 0.001%도 기여했나 싶을 정도로 부끄럽지만논문 제출 날 내 이름도 함께 올라가 있어서 가족들에게 자랑도 했다. ㅎㅎㅎㅎ *하단 캡쳐는 다른 분들의 이름도 함께 노출되다 보니 개인정보 이슈로 블러 처리함 그래서 이 논문에 대해 리뷰하는 시간을 가지면서 동시에 어떻게 동작하는지도 테스트 해보고자 한다.  HAE-RAE 소개HAE-RAE는 한국어 모델의 해석 가능성과 평가에 초점을 맞춘 비영리 오픈소스 단체이다. 이 단체의 미션은 통찰력 있는 벤치마크..

머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 2) 뉴스 헤드라인으로 감성분석 비교하기

앞전 포스팅에서는'테슬라'의 주가를 가지고 예측해 보았다. - 머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 1) 랜덤 포레스트, XGBoost, 앙상블 및 LSTM 모델링 머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 1) 랜덤 포레스트, XGBoost, 앙상블 및 LSTM 모델링'금융' 관련 머신러닝 사례를 찾아보다가 ChatGPT로 주식 가격과 코인 가격을 예측해 본 아티클을 발견했다.  찬찬히 읽어보았는데,시도해보면 재미있을 것 같아서 테슬라로 간단히 시도해보았nanini.tistory.com 이번 포스팅에서는 '테슬라'의 뉴스 헤드라인으로감성분석을 하여 주가 예측을 해보고자 한다.  참고한 내용은 카카오뱅크 기술기획팀 William께서 발행한 포스팅이다. -> ChatGPT로 ..

요식업 매출 베이스로 제주 맛집 추천 웹앱 만들기(feat. Streamlit)

작년 말 즈음에 빅콘테스트 주최로 '제주 맛집'을 추천하는 'LM활용 제주도 맛집 추천 대화형 AI서비스 개발'에 참여한 적이 있다.  이때, 첫 공모전이기도 하고LLM에 막 발을 담가봤던 시기이기도 해서굉장히 재미있지만서도 어려워서 밤을 새어 가며내 친구 Cursor와 함께 뚝딱뚝딱 만들어보았던 시기가 있었다.  이때, 다른 친구 한 명과 같이 참여했는데, 다행스럽게도 둘 다 LLM이란 기술에 매료되어서 고군분투하며 어떻게든 Streamlit까지 만들고, 영상도 찍었었다.  결론적으론, 입상은 하지 못했다.  아이디어는 좋았으나, 우리의 기술력 한계로 인해 영상도, 제출 코드도 엉망인 채로 제출해 버렸다. 왜냐하면.. 우린 LLM구현이 잘 된 줄 알았으나 알고 봤더니 LLM 이 자체적으로 답변을 생성하..

머신러닝과 ChatGPT로 테슬라 주식 가격 예측하기: 1) 랜덤 포레스트, XGBoost, 앙상블 및 LSTM 모델링

'금융' 관련 머신러닝 사례를 찾아보다가 ChatGPT로 주식 가격과 코인 가격을 예측해 본 아티클을 발견했다.  찬찬히 읽어보았는데,시도해보면 재미있을 것 같아서 테슬라로 간단히 시도해보았다.  우선, 내가 참고한 아티클은 카카오뱅크 기술기획팀 William에서 발행한 글인데,   ChatGPT를 뉴스 분석에 활용하여 주가를 예측하는 방법의 효과성을 검증한 논문을 소개한다. 사실 더 흥미로운 건, 이 다음 아티클에서 “카카오뱅크에서 ChatGPT를 이용한 암호화폐의 가격 예측에 관해 연구한 내용“을 소개하는데, 논문까지 있어서 한번 읽어보기 좋다. 카카오뱅크, 'CahtGPT로 주식 가격 예측하기' ChatGPT로 주식 가격 예측하기OpenAI의 ChatGPT가 금융시장 분석에 미치는 영향을 연구한 최..

생애 최초 SQL 쿼리 테스트 본 후기(feat. 토스뱅크)

부트캠프를 수료하면서공모전도, 최종 프로젝트도 LLM을 이용하다보니 '나는 'ML Engineer'로 갈거야~' 라고 생각했었다.  그러나 멘토님의 조언과 나의 실력에 대한 불안을 통해냉정하게 자기객관화를 해보았을 때, Data Analyst로의 목표를 굳혔다.  그리고태어나서 난생 처음, 생애 최초 SQL 쿼리 테스트를 진행했다. 🌝 '토스뱅크'의 쿼리 테스트였는데,구글링 해봤을 때, '토스'는 쿼리 테스트 후기들이 꽤 있었으나 '토스뱅크'는 드물었다.  그리고 대망의 당.일. 테스트 전에는 긴장감으로 인해 도파민 풀충전 상태였고, 시험을 처음 보자마자는 이런 상태였다. 그리고 나는..재가 되었다... 이게 바로 쿼리테스트 멸망버전인가?  넉넉할 줄 알았던 시간은 눈깜빡 할 사이 다 지나가버렸고, 내..

etc 2025.02.04

금융 데이터 AI 챗봇 개발기: 4) 드디어 모델 배포! 사이트가 생기니 좋구만!

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  1️⃣ 금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/902️⃣ 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/913️⃣ 금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기- 출처: https://nanini.tistory.com/92   앞에서 세 개 포스팅으로 모델을 구현한 이야기의 최종판, 기능들을 한데 모아서RePick이란 서비스를 만들었다.  - RePick (ht..

금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/90금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/91  LLM은 마무리 되었으니!이제 추천 알고리즘을 만들어보자.  구현 배경여기서 짚고 넘어가야 할 부분이추천 알고리즘? 추천 모델? 추천 시스템? 헷갈리는 부분이 있어개념을 다시한번 정리해보면 아래와 같다. 추천 시스템 > 추천 알고리즘 > 추천 모델추천 모델: 알고리즘을 구현한 구체적인 형태추천 알고리즘: 추천을 생..

금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)

👇 이전의 포스팅은 아래에서 확인할 수 있습니다. 👇금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)출처: https://nanini.tistory.com/90 [데이터 개발 공부:티스토리]  이전 포스팅에 이어서이제 RAG를 구축할 차례이다.  LangChain 공식문서에서 RAG는두 가지 주요 구성 요속 있는데 1번 인덱싱 부분은 이전 포스팅에서 이미 완료한 상태였다.  I) 인덱싱 : 소스에서 데이터를 수집하고 인덱싱하는 파이프라인. 이는 일반적으로 오프라인에서 발생합니다.로드 : 먼저 데이터를 로드해야 합니다. 이는 Document Loaders 로 수행됩니다 .분할 : 텍스트 분할기는 큰 청크를 작은 청크로 나눕니다 Documents. ..

금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)

드디어, 6개월의 부트캠프에서 최종,그러니까최종_찐최종_찐찐최종_마지막최종 으로 진행했던 프로젝트에 대해 리뷰하고자 한다. (아래의 자료들은 실제 프로젝트와 발표에 사용되었던 자료들이다) 약 3회에 걸쳐 리뷰할 예정이고,본 포스팅은 서비스 기획부터 데이터 전처리까지의 이야기를 담고 있다.  0. 팀빌딩 및 기획우리의 서비스 명은 RePick이고, 팀명도 RePick이다.(*다른 팀원들은 개인정보 이슈로 블러처리함)RePick 개발에는 나를 포함하여 7명(백엔드 3, 프론트 1, 엠엘 3)이 함께 개발에 참여했다.  그리고 이 프로젝트에서 맡은 나의 역할은프로젝트 리드 및 데이터 전처리, 모델링이었고또, 제일 고연령(;;) 및 경력직도 맡았다. 하하하 이 부분의 혜택을 얻은 부분도 있는데, 바로 리더십이다..

수료 후기 - [한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (MLOps) 과정

장장 6개월의 기간이 느린듯 빠른듯 끝났다...! 혼자 파이썬을 해도, 데이터 공부를 해도 꽉 막힌 느낌이라 마지막 마음으로 도전한 부트캠프였는데 결론은참, 하길 잘했다. 그런데 역시나끝나면 아쉬움이 남는건 국룰인 듯나도 아쉬움이 백만개 남았다.  이 부트캠프에서 난 MLOps를 수료했고, MLOps 개념은 아직 대중화된 용어도 아닌지라우리의 챗지피티한테 물어봤을 때 아래와 같은 답변을 뱉어냈다. 맞다. 머신러닝을 운영하는 것으로 데브옵스와 유사한 개념으로써, 머신러닝 모델의 개발, 배포, 운영을 효율적으로 관리하는 것인데중요한건부트캠프 수료 만으로는...MLOps로의 취업은 힘들것 같다.  이건 어쩔 수 없는게6개월동안 데이터사이언스를 위한 수학(쪼금)+SQL+Python+Machine Learning..

etc 2025.01.14