- 89

생애 최초 SQL 쿼리 테스트 본 후기(feat. 토스뱅크)

부트캠프를 수료하면서공모전도, 최종 프로젝트도 LLM을 이용하다보니 '나는 'ML Engineer'로 갈거야~' 라고 생각했었다.  그러나 멘토님의 조언과 나의 실력에 대한 불안을 통해냉정하게 자기객관화를 해보았을 때, Data Analyst로의 목표를 굳혔다.  그리고태어나서 난생 처음, 생애 최초 SQL 쿼리 테스트를 진행했다. 🌝 '토스뱅크'의 쿼리 테스트였는데,구글링 해봤을 때, '토스'는 쿼리 테스트 후기들이 꽤 있었으나 '토스뱅크'는 드물었다.  그리고 대망의 당.일. 테스트 전에는 긴장감으로 인해 도파민 풀충전 상태였고, 시험을 처음 보자마자는 이런 상태였다. 그리고 나는..재가 되었다... 이게 바로 쿼리테스트 멸망버전인가?  넉넉할 줄 알았던 시간은 눈깜빡 할 사이 다 지나가버렸고, 내..

etc 2025.02.04

금융 데이터 AI 챗봇 개발기: 4) 드디어 모델 배포! 사이트가 생기니 좋구만!

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇 1️⃣ 금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지) - 출처: https://nanini.tistory.com/902️⃣ 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지) - 출처: https://nanini.tistory.com/913️⃣ 금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기- 출처: https://nanini.tistory.com/92 앞에서 세 개 포스팅으로 모델을 구현한 이야기의 최종판, 기능들을 한데 모아서RePick이란 서비스를 만들었다. - RePick (ht..

금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇 금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지) - 출처: https://nanini.tistory.com/90금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지) - 출처: https://nanini.tistory.com/91 LLM은 마무리 되었으니!이제 추천 알고리즘을 만들어보자. 구현 배경여기서 짚고 넘어가야 할 부분이추천 알고리즘? 추천 모델? 추천 시스템? 헷갈리는 부분이 있어개념을 다시한번 정리해보면 아래와 같다. 추천 시스템 > 추천 알고리즘 > 추천 모델 추천 모델: 알고리즘을 구현한 구체적인 형태 추..

금융 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)

👇 이전의 포스팅은 아래에서 확인할 수 있습니다. 👇금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)출처: https://nanini.tistory.com/90 [데이터 개발 공부:티스토리]  이전 포스팅에 이어서이제 RAG를 구축할 차례이다.  LangChain 공식문서에서 RAG는두 가지 주요 구성 요속 있는데 1번 인덱싱 부분은 이전 포스팅에서 이미 완료한 상태였다.  I) 인덱싱 : 소스에서 데이터를 수집하고 인덱싱하는 파이프라인. 이는 일반적으로 오프라인에서 발생합니다.로드 : 먼저 데이터를 로드해야 합니다. 이는 Document Loaders 로 수행됩니다 .분할 : 텍스트 분할기는 큰 청크를 작은 청크로 나눕니다 Documents. ..

금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)

드디어, 6개월의 부트캠프에서 최종,그러니까최종_찐최종_찐찐최종_마지막최종 으로 진행했던 프로젝트에 대해 리뷰하고자 한다. (아래의 자료들은 실제 프로젝트와 발표에 사용되었던 자료들이다) 약 3회에 걸쳐 리뷰할 예정이고,본 포스팅은 서비스 기획부터 데이터 전처리까지의 이야기를 담고 있다.  0. 팀빌딩 및 기획우리의 서비스 명은 RePick이고, 팀명도 RePick이다.(*다른 팀원들은 개인정보 이슈로 블러처리함)RePick 개발에는 나를 포함하여 7명(백엔드 3, 프론트 1, 엠엘 3)이 함께 개발에 참여했다.  그리고 이 프로젝트에서 맡은 나의 역할은프로젝트 리드 및 데이터 전처리, 모델링이었고또, 제일 고연령(;;) 및 경력직도 맡았다. 하하하 이 부분의 혜택을 얻은 부분도 있는데, 바로 리더십이다..

수료 후기 - [한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (MLOps) 과정

장장 6개월의 기간이 느린듯 빠른듯 끝났다...! 혼자 파이썬을 해도, 데이터 공부를 해도 꽉 막힌 느낌이라 마지막 마음으로 도전한 부트캠프였는데 결론은참, 하길 잘했다. 그런데 역시나끝나면 아쉬움이 남는건 국룰인 듯나도 아쉬움이 백만개 남았다.  이 부트캠프에서 난 MLOps를 수료했고, MLOps 개념은 아직 대중화된 용어도 아닌지라우리의 챗지피티한테 물어봤을 때 아래와 같은 답변을 뱉어냈다. 맞다. 머신러닝을 운영하는 것으로 데브옵스와 유사한 개념으로써, 머신러닝 모델의 개발, 배포, 운영을 효율적으로 관리하는 것인데중요한건부트캠프 수료 만으로는...MLOps로의 취업은 힘들것 같다.  이건 어쩔 수 없는게6개월동안 데이터사이언스를 위한 수학(쪼금)+SQL+Python+Machine Learning..

etc 2025.01.14

우아콘 2024 골라보기, 2) Fine-tuning 없이, 프롬프트 엔지니어링으로 메뉴 이미지 검수하기

이 영상은토스뱅크 멘토님이 추천해주셔서 보게되었는데보면서 느낀점은엇..우리도 RePick 개발하면서 저렇게 진행했는데!! 하는 거였다.  그런데 슬라이드도 깔끔하고 내용도 딱딱 구조화시켜 정리해놓으니이해하기도 수월했고, 어떤 문제와 상황들을 거쳐서 어떻게 해결해나갔는지를 단번에 알 수 있었다.  우리네 최종 프로젝트도 얼른 리뷰도 해야 하는데, 막상 적을 내용이 너무 많다보니 계속 미루게 되는 겨울이다..ㅠㅠ우아콘 2024 골라보기 시리즈저번 우아콘 2024 골라보기, 1) 추천 모델 성장 일지에 이어서 Fine-tunning 없이, Only 프롬프트 엔지니어링 만으로 '메뉴 이미지 검수하기'라는 주제다.  이번 영상도 마찬가지로AI/ML 카테고리다. *영상 제목이 'Fine-tuning없이'라고 되어 ..

etc 2025.01.09

우아콘 2024 골라보기, 1) 추천 모델 성장 일지

우아콘 2024가 종료되었다.  10월 경, 참여 신청이 올라왔을 때 신청할까 하다가 모든 세션이 유튭으로도 올라온다고하여 이 날만을 기다렸고드디어 모든 영상이 떴다지..! 10월 30일에 진행되었고,영상을 보기까지의 약 두달동안부트캠프 최종프로젝트에 몰입하고 있었다.  오히려..부트캠프 최종프로젝트를 모두 마무리하고 보길 잘한 듯 싶은게 AI/LM 파트 영상을 보는데'어? 저거 저렇게도 적용할 수 있구나', '저런 방식으로 적용해야하는구나' 라는 생각도 들었고동시에'와..현업에서 이런저런 시도 다 해볼 수 있어서 넘 부럽다' 란 생각도 들었다.  결론은, 부트캠프를 거치면서 AI/LM에 대한 이해도를 올린 덕분에이 영상도 이해할 수 있었다는 거...! 우와콘 2024 영상 중에서, AI와 관련된 영상이..

etc 2025.01.01

자연어 숫자로 표현하기 - 정수 인코딩과 패딩(제로 패딩)

정수 인코딩이란? 전처리된 텍스트 데이터를 컴퓨터가 분석에 활용할 수 있게 하려면 숫자 데이터로 변환해야 한다. 이를 위한 여러 방법이 있는데, 대표적으로 정수 인코딩이 있다. 정수 인코딩은 토큰화된 각 단어에 특정 정수를 맵핑하여 고유 번호로 사용하는 방법이다. 단어 토큰에 정수 인덱스를 부여하는 방법은 다양한데, 그 중 가장 일반적인 방법은 단어의 등장 빈도를 기준으로 정렬한 다음 인덱스를 부여하는 방식이다.  정수 인코딩 하기더보기정수 인코딩을 하면 더 이상 추가적인 전처리를 할 수 없다. 때문에 모든 전처리 과정이 끝난 코퍼스를 가지고 정수 인코딩을 해야 한다. import nltkfrom nltk.tokenize import word_tokenizefrom nltk.tokenize import ..

문장 단위 - 자연어 전처리(문장 토큰화, 품사 태깅, 표제어 추출)

문장 토큰화(Sentence Tokenization)경우에 따라 코퍼스를 문장 단위로 토큰화한 다음에 문장의 의미를 살려서 분석을 해야 하는 경우가 있다. 대표적으로 '품사 태깅'이 그러한 경우인데, 어떠한 단어의 품사는 그 단어 자체의 의미와 함께 문장 안에서 사용된 위치에 따라 달라질 수 있다. 이런 경우에는 문장 간의 구분이 된 상태에서 단어의 품사를 정해야 하기 때문에 문장 단위로 먼저 토큰화한 후에 품사를 구분해야 한다.  예시 - sent_tokenize()더보기 punkt 모듈을 설치하면 마침표나 약어(Mr. , Dr.)와 같은 언어적인 특성을 고려해서 문장 토큰화가 되기 때문에 단순히 마침표가 있는 곳을 문장으로 나누는 것이 아니라 실제 문장을 잘 구분해 준다. # 필요한 패키지와 함수 불..