데이터로 Deep Dive

데이터 분석과 개발 경험을 공유합니다.

토스뱅크 69

생애 최초 SQL 쿼리 테스트 본 후기(feat. 토스뱅크)

부트캠프를 수료하면서공모전도, 최종 프로젝트도 LLM을 이용하다보니 '나는 'ML Engineer'로 갈거야~' 라고 생각했었다.  그러나 멘토님의 조언과 나의 실력에 대한 불안을 통해냉정하게 자기객관화를 해보았을 때, Data Analyst로의 목표를 굳혔다.  그리고태어나서 난생 처음, 생애 최초 SQL 쿼리 테스트를 진행했다. 🌝 '토스뱅크'의 쿼리 테스트였는데,구글링 해봤을 때, '토스'는 쿼리 테스트 후기들이 꽤 있었으나 '토스뱅크'는 드물었다.  그리고 대망의 당.일. 테스트 전에는 긴장감으로 인해 도파민 풀충전 상태였고, 시험을 처음 보자마자는 이런 상태였다. 그리고 나는..재가 되었다... 이게 바로 쿼리테스트 멸망버전인가?  넉넉할 줄 알았던 시간은 눈깜빡 할 사이 다 지나가버렸고, 내..

etc 2025.02.04

금융 데이터 AI 챗봇 개발기: 4) 드디어 모델 배포! 사이트가 생기니 좋구만!

👇 이전 포스팅은 아래에서 확인할 수 있습니다. 👇  1️⃣ 금융 데이터 AI 챗봇 개발기: 1) 그래서 PDF를 어떻게 분석할건데? (기획부터 데이터 전처리까지)    - 출처: https://nanini.tistory.com/902️⃣ 데이터 AI 챗봇 개발기: 2) LLM 모델을 통한 챗봇 만들기 (RAG부터 Chain까지)   - 출처: https://nanini.tistory.com/913️⃣ 금융 데이터 AI 챗봇 개발기: 3) 추천 알고리즘, 개인 선호도를 반영한 레포트 추천 기능 만들기- 출처: https://nanini.tistory.com/92   앞에서 세 개 포스팅으로 모델을 구현한 이야기의 최종판, 기능들을 한데 모아서RePick이란 서비스를 만들었다.  - RePick (ht..

수료 후기 - [한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (MLOps) 과정

장장 6개월의 기간이 느린듯 빠른듯 끝났다...! 혼자 파이썬을 해도, 데이터 공부를 해도 꽉 막힌 느낌이라 마지막 마음으로 도전한 부트캠프였는데 결론은참, 하길 잘했다. 그런데 역시나끝나면 아쉬움이 남는건 국룰인 듯나도 아쉬움이 백만개 남았다.  이 부트캠프에서 난 MLOps를 수료했고, MLOps 개념은 아직 대중화된 용어도 아닌지라우리의 챗지피티한테 물어봤을 때 아래와 같은 답변을 뱉어냈다. 맞다. 머신러닝을 운영하는 것으로 데브옵스와 유사한 개념으로써, 머신러닝 모델의 개발, 배포, 운영을 효율적으로 관리하는 것인데중요한건부트캠프 수료 만으로는...MLOps로의 취업은 힘들것 같다.  이건 어쩔 수 없는게6개월동안 데이터사이언스를 위한 수학(쪼금)+SQL+Python+Machine Learning..

etc 2025.01.14

대표적인 CNN 모델 - LeNet, ImageNet, AlexNet, VGGNet, GoogLeNet, ResNet

LeNetLeNet 이미지 분류 모델은 문서 인식을 위한 모델이며, 실용적인 응용분야에 CNN과 역전파 방법이 처음 적용된 모델이다. MNIST database미국 우편 공사의 우편번호 손글씨를 컴퓨터로 인식하기 위한 연구 과정에서 MNIST database가 구축되었는데,MNIST는 필기체 숫자 이미지를 모아놓은 데이터셋이다. 위의 이미지와 같이 다양한 스타일의 숫자 글씨들을 정확히 인식할 수 있는가에 대한 대표적인 Classification 문제다.  MNIST database는 28 x 28 픽셀의 흑백톤이미지로, 약 7만장의 이미지로 구성되어 있다. 손글씨는 사람마다 제각기 다른 형태로 쓰게 된다. 따라서 활자체를 인식하는 것보다 상당히 어려운 문제였다.  그러면 이제 LeNet의 모델 구조를 살..

Pooling Layer

Pooling Layer란?CNN에는 Convolutional Layer 외에도 Pooling Layer라는 특징적인 레이어가 있다. Pooling Layer는 단어 그대로 Pooling 연산이 이루어지는 레이어인데, Pooling Layer의 목적은 다운샘플링을 하는 것이다. 다운샘플링이미지에서 다운샘플링이란, 동일한 이미지를 좀 더 적은량의 정보로 표현하는 것이다.예를 들어 가로x세로 100px의 이미지를 50x50픽셀로 해상도를 절반으로 줄인다고 생각하면 된다. Pooling 연산Pooling 연산은 Convolution 연산과 비슷하게 이미지의 kernel을 옮겨 가면서 적용하는 데, 보통 stride를 2로 움직인다. 마찬가지로 이 영역을 대표하는 값 하나를 출력한다는 점에서 Convolutio..

Convolutional Layer(Feature Map, Kernel, Stride와 Padding)

Convolution Layer란?Convolution 연산이 수행되는 네트워크 레이어로, Convolution 연산은 결국 지역적 특성을 추출하는 과정이라고 볼 수 있다.Convolution 연산 방법Convoltion 연산은 어떻게 하는걸까? 간단히 말하자면 입력 데이터에 Kernel이라고 불리는 필터를 적용해서 값을 계산하는 과정이다.필터는 카메라의 렌즈와 비슷한 역할을 하는데, 카메라 필터는 렌즈앞에 씌워서 센서에 맺히는 상에 변화를 주는 역할로 어떤 입력이 필터를 통과하면 변형을 가하여 조금 바뀐 결과물이 나오는 것이다. 그럼 Convolution Filter는 어떤 계산을 하는걸까? Convolution Filter는 이미지 사이즈보다 작은 크기의 행렬이다. 아래 이미지에선 가로 3칸, 세로 ..

CNN(Convolutional Neural Network) 개념 잡기

CNN이란?강아지와 고양이를 구분하는 딥러닝을 만든다고 할 때, 이미지 데이터를 컴퓨터가 인식할 수 있는 형태로 표현하게 되는데 기본적으로 비트맵이란 형식으로 나타내게 된다.  비트맵은 가로x세로 크기가 있는 영역에 픽셀이라고 부르는 점을 찍어서 그림을 표현하는 방식이다. 각 픽셀은 픽셀값이라고 부르는 빛의 강도를 가지고 있다.  아래 숫자 1 이미지는 글씨 영역에 해당하는 윗 부분은 검은색으로 되어 있고 아래로 갈 수록 점점 밝은 회색으로 되어 있다. 흰색이 빛의 강도가 가장 강한 것으로 255, 검은색이 0으로 표현된다.  그렇다면컬러 이미지는 어떻게 표현할까? 빛의 삼원색인 빨강, 초록, 파랑을 각각 나눠서 표현하게 되는데 채널이라고 부르는 동일한 크기의 영역 각각에마찬가지로 빨강, 초록, 파랑 빛..

딥러닝 모델 성능 높이기

최적화가 어려운 이유1. 모델의 비선형성2. 고차원성과 과적합3. 그래디언트 소실 문제4. 하이퍼파라미터의 민감성하이퍼파라미터란?하이퍼파라미터란, 모델의 학습 과정에서 사용자가 사전에 설정해야 하는 값으로 모델의 성능 최적화를 위해 중요한 역할을 한다. 주로 딥러닝 학습 전에 설정되며, 학습 과정을 제어하는데 사용된다.모델의 학습 속도, 안정성, 최종 성능에 직접적인 영향을 미치며 적절한 하이퍼파라미터의 설정은 과적합 방지, 학습 효율, 모델 성능 최적화에 중요한 열할을 한다. 하이퍼파라미터의 종류1. 배치 크기(Batch Size)한 번의 학습 단계에 사용되는 데이터 샘플의 수이다. 이는 모델이 학습하는 데이터의 양을 결정해서 메모리 사용량과 학습 속도에 큰 영향을 미친다. 배치 크기가 작으면, 메모리..

로지스틱 회귀 - 경사 하강법

로지스틱 회귀의 가설 함수와 손실 함수를 봤으므로 이제 경사 하강법을 알아보자.  가설 함수와 손실 함수는 좀 다르지만, 경사 하강법을 하는 방법은 선형 회귀와 거의 동일하다.  시작점을 위해 처음에는 세타 값들을 모두 0 또는 모두 랜덤으로 지정한다. 그러면 현재 세타 값들에 대한 손실, 즉 현재 가설 함수에 대한 손실을 계산할 수 있다. 여기서부터 시작해서 세타를 조금씩 조율하며 손실을 계속 줄여나가야 한다.  예를 들어, $θ_0, θ_1, θ_2$... 이렇게 세타 값이 3개 있다고 가정하자. 손실 함수를 $θ$에 대해 편미분하고, 그 결과에 학습률 알파를 곱한다. 그리고 그 결과를 기존 $θ_0$에서 빼면 된다. 똑같이 $θ_1$과 $θ_2$도 업데이트 하면 된다. 이렇게 모든 세타값들을 업데이..

로지스틱 회귀 - 손실 함수

선형 회귀를 통해 하려고 하는 건 학습 데이터에 최대한 잘 맞는 가설 함수를 찾는 것이다. 그러기 위해선 가설 함수를 평가하는 어떤 기준이 있어야 하는데, 그 기준이 되는게 손실 함수이다. 로지스틱 회귀에서도 마찬가지다. 데이터에 잘 맞는 가설 함수를 찾고, 손실 함수를 이용해 가설 함수를 평가한다. 선형 회귀의 손실 함수는 평균 제곱 오차라는 개념을 기반으로 하는데, 데이터 하나하나의 오차를 구한 후에 그 오차들을 모두 제곱항 평균을 내는 작업을 한다. 로지스틱 회귀의 손실 함수는 평균 제곱 오차를 사용하지 않고, 대신 '로그 손실', 영어로는 log loss라는 것을 사용한다. 좀 더 어려운 푷ㄴ으로는 cross entropy라고도 한다.  로그 손실로그 손실은 아래와 같은데, 이를 로그 손실이라고 ..