데이터로 Deep Dive

데이터 분석과 개발 경험을 공유합니다.

한국경제신문 26

git stash - 작업 내용 임시 저장하기

git stash*stash: 안전한 곳에 보관하다, 넣어두다git stach 실행 시, 최근 커밋 이후로 작업했던 내용은 모두 stack(어떤 데이터를 저장하는 구조) 에 옮겨지고, working directory 내부는 다시 최근 커밋의 상태로 초기화된다. git stash # 현재 directory 작업 내용을 stack에 저장(=작업 내용 저장)git stash list # stack에 저장된 내용을 확인(=작업 내용 조회)git stash apply [작업 내용의 아이디] # stack에 있는 내용을 다시 working directory로 가져와서 적용(=작업 내용 적용)git stash drop [작업 내용의 아이디] # 해당 stash를 삭제(=작업 내용 제거), [작업 내용의 아이디]를 생..

앙상블(보팅, 배깅, 부스팅)

보팅(Voting)Hard Votiing: 다수의 Classifeir간 다수결로 최종 class 결정Soft Voting: 다수의 Classifier들의 class 확률을 평균하여 결졍(*일반적으로 많이 사용) -> predict prob가 있어야 가능SVC 모델은 predict proba가 없으므로 Soft Votingd 참여 불가 배깅(Bagging): Bootstrap Sampling의 줄임말, 기존 학습 데이터 세트로부터 랜덤하게 복원추출하여 동일한 사이즈의 데이터 세트를 여러 개 만드는 것과대적합되며 훈련이 진행됨대표 모델: 랜덤포레스트부스팅(Boosting): 과소적합된 모델을 사용하여 순차적으로 반복학습을 진행함, 예측한 데이터 혹은 학습 트리에 가중치 부여를 통해 오류를 개선해 나가면서 학..

미분

예측 모형의 성능손실함수(loss function) = 비용함수(cost function) 또는 오차함수(error function)목적:  목적함수의 값을 가장 크게 혹은 적게 할 수 있는 입력값, 즉 모수를 구하는 것을 최적화(optmization)라고 한다.  eg.   미분을 이용해 최소 지점으로 갈 수 있는 방법을 구해보자. 기울기: (= 변화량) 가장 적은 횟수로 여러가지 𝑥값을 시도하여 최적의 값을 찾는 방법수치미분미분(differentiation): 어떤 함수로부터 그 함수 기울기를 출력하는 새로운 함수를 만들어내는 작업이다. 미분으로 만들어진 함수를 원래 함수의 도함수(derivative)라고 한다.미분 가능: 함수에 따라서는 어떤 점에서는 기울기 값을 정의하기 어려울 수가 있다. 예를..

한달 후기 - [한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (풀스택 / MLOps) 과정(feat. 퇴사)

부트캠프 첫 OT후기는 아래 포스팅에서 --[한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (풀스택 / MLOps) OT 후기 드디어 '한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (풀스택 / MLOps) 과정' 의 6개월 과정 중벌써...한달의 시간이 지났다.그 동안 퇴사도 했고,스터디도 참가했고,공부 진도도 꽤나 많이 나갔다.벌써파이썬 기초, SQL을 다 끝내고 머신러닝을 배우고 있으니월화수목금은 시간이 느린 것 같다가도주말은 완전 순삭이라한달이나 지났다는게 믿기지 않을 정도다.본격 [한국경제신문 with toss bank] Tech 우수인재 양성을 위한 (풀스택 / MLOps) 과정 한달 후기 시-작 1. 부트캠프 수강생의 하루 ☕️여긴 한경아카데..

etc 2024.07.23

Git 협업하기(feat. git fetch, git diff, git blame, git revert)

> git fetch: 로컬 레포지토리에서 현재 HEAD가 가리키는 브랜치의 업스트림(upstream) 브랜치로부터 최신 커밋들을 가져옴(*git pull과 다름!)*git pull = git fetch + git merge> git diff: 두 커밋 간의 차이 + 두 브랜치 간의 차이 확인> git pull 과 git fetch의 차이점은?> git blame [파일명]:  특정 파일의 내용 한줄한줄이 어떤 커밋에 의해 생긴 것인지 출력> git show [커밋 아이디]: 해당하는 커밋의 변경사항 확인> git revert [커밋 아이디]: 특정 커밋에서 이루어진 작업을 되돌리는(취소하는) 커밋을 새로 생성> git revert [되돌아갈 커밋 아이디]..[커밋 아이디]: 되돌아갈 커밋 아이디 다음부..

브랜치(branch) 개념부터 잘 사용하는 방법까지

branch 는 왜 사용할까?: Git에서 하나의 프로젝트는 여러 가지 버전으로 관리할 수 있다. 예를 들어 하나의 프로젝트를 '유/무료 버전, 배포/개발/테스트/긴급 버그 수정용 버전, 스마트폰/PC/TV 버전' 등 으로 나누어 관리할 수 있는데 이는 모두 Git에 branch 라는 개념이 있기 때문에 가능하다. git branch: 생성된 모든 브랜치 조회git branch [브랜치명]: 입력한 브랜치명으로 새로운 브랜치 생성git branch -d [브랜치명]: 해당 브랜치를 삭제git checkout [브랜치명]: 해당 브랜치로 이동git checkout -b [브랜치명]: 입력한 브랜치명으로 된 새로운 브랜치를 생성하여 해당 브랜치로 이동checkout: 다른 branch로 이동-b: branc..

Remote Repository의 브랜치에 대해 더 알아보자(feat.origin과 master)

아래 포스팅에서 했던 작업 중, 2024.07.15 - [Codeit/Git] - GitHub 시작하기(git push, git pull, git clone)GitHub에서 Math_Box라는 리모트 레포지토리(remote repository)를 만들고로컬 레포지토리(local repository)의 내용을 그 리모트 레포지토리에 보내기위해 아래와 같은 커맨드 2개를 실행한 적이 있다. 이때 아래의 두개 커맨드에 대해 알아보자. git remote add origin https://github.com/Marlangcow/Math_box.gitgit push -u origin master1. origin이란?git remote add origin [GitHub 상 프로젝트 주소]: [GitHub 상 프로젝..

def() 함수를 더 간결하게 작성할 수 없을까? '람다(lambda)'

처음에 람다(lambda) 함수를 들었을 때, 이름부터 생소해서 굳이 사용하지 않고 있었는데이번 강의 중에 람다(lambda) 함수를 배우면서이렇게...간단하게 함수를 작성할 수 있구나를 알게 되면서적극 익히려고 하고 있음 그래서 람다(lambda) 함수란? (*파이썬 공식 문서: Python Lambdas)lambda_expr ::=  "lambda" [parameter_list] ":" expression람다(lambda) 표현식(람다 폼이라고도 함)은 익명 함수를 만드는 데 사용됩니다. 표현식은 함수 객체를 생성합니다. 명명되지 않은 객체는 다음으로 정의된 함수 객체처럼 동작합니다.def (parameters):    return expression매개변수 목록의 구문은 함수 정의 섹션을 참조하세..

API 통해 데이터 수집(feat. 크롤링은 지양한다..)

데이터 수집 방법크롤링: 추천 x (*불법 소지 다분함, 최근까지도 다수 기업의 법적 분쟁 사례 있음)크롤링의 최종목표: 웹데이터를 DataFrame으로 변환API: 추천 o (*고비용, 이용 제한 x, 이용매뉴얼만 잘 익히면 API 크롤링 완)부동산 데이터 수집(서울시 빅데이터 센터, 공공데이터 포털) https://data.seoul.go.kr/together/guide/useGuide.do공공데이터 요청 시, 응답할 때 두가지 컨셉으로 응답 (XML, JSON)일괄처리 함수 만들기 (처리.py)자동 적용배치 처리 윈도우에서는 스케쥴러 프로그램Linux에서는 Crontab 설정해당 스크립트 (처리.py)가 정해진 시간에 코드가 돌아감웹 스크래핑 시, 주의점1. 어떤 웹 페이지를 스크래핑 하고자 한다면..