토스뱅크 66

Numpy 개념과 특징

Numpy: 파이썬 라이브러리로써, Numerical Python 의 줄임말로 수치적인 연산에 최적화된 파이썬 도구이다.  Numpy Array: 자료형, Python List와 유사함, 간결한 코드로 구현, 메모리 및 연산 최적화장점루프를 사용하지 않고 대량 데이터의 배열 연산이 가능 -> 빠른 배열 연산 속도C/C++ 등의 저수준 언어 기반 호환 API제공 -> 기존 C/C++ 기반 외부 프로그램과 호환 용이단점가독성이 떨어짐정보에 대한 레이블 삽입 불가한 가지 데이터 타입만 사용 가능다양한 API 지원 측면이 어려움 import numpy as np # 'as np' 를 약어로 추가하여 모듈을 표현하는 것이 관례ndarray란?: 넘파이 기반 데이터 타입이며, ndarry를 이용해 넘파이에서 다차원..

회귀 알고리즘

회귀란?데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 여러 개의 독립변수(X)와 한 개의 종속변수(y) 간의 상관관계를 모델링하는 기법(*모델링은 표본)가중치 -> 회귀 계수(Regressino Coefficients)회귀 유형회귀 계수회귀 계수가 직선이면 -> 선형회귀회귀 계수가 직선이 아니면 -> 비선형로지스틱 회귀독립변수 개수회귀 계수의 결합1개단일 회귀선형선형 회귀 N개 다중 회귀비선형비선형 회귀로지스틱 회귀 회귀 모델의 목적: 전체 데이터의 잔차(오류 값) 합이 최소가 되는 모델을 만드는 것 -> 오류 값의 합이 최소가 될 수 있는 최적의 회귀 계수 w을 찾는 것!일반 선형 회귀(LinearRegre..

.gitignore - 조금 더 깔끔한 버전 관리가 필요하다면?

.gitignore 파일이란?: Git으로 프로젝트의 버전 관리를 시작할 때, .gitignore 파일에는 'working directory 안에 존재하기는 하지만 Git으로 버전을 관리하고 싶지 않은 것들'의 이름을 적어 활용할 수 있다. Add .gitignore: None 은 .gitignore파일을 생성하지 않겠다는 의미이다.  .gitignore 파일은그 플랫폼에서 실행될 프로그램을 만들거나,해당 프로그래밍 언어로 코드를 작성할 때(보통 자동으로) 생성되는 파일들중에서 굳이 Git에 의해 버전 관리될 필요가 없는, 불필요한 파일들의 이름이 정리된 .gitignore 파일을 자동으로 생성해준다.단어의미*.py[cod] .pyc 또는 .pyo 또는 pyd로 끝나는 파일명*$py.class $py...

git stash - 작업 내용 임시 저장하기

git stash*stash: 안전한 곳에 보관하다, 넣어두다git stach 실행 시, 최근 커밋 이후로 작업했던 내용은 모두 stack(어떤 데이터를 저장하는 구조) 에 옮겨지고, working directory 내부는 다시 최근 커밋의 상태로 초기화된다. git stash # 현재 directory 작업 내용을 stack에 저장(=작업 내용 저장)git stash list # stack에 저장된 내용을 확인(=작업 내용 조회)git stash apply [작업 내용의 아이디] # stack에 있는 내용을 다시 working directory로 가져와서 적용(=작업 내용 적용)git stash drop [작업 내용의 아이디] # 해당 stash를 삭제(=작업 내용 제거), [작업 내용의 아이디]를 생..

앙상블(보팅, 배깅, 부스팅)

보팅(Voting)Hard Votiing: 다수의 Classifeir간 다수결로 최종 class 결정Soft Voting: 다수의 Classifier들의 class 확률을 평균하여 결졍(*일반적으로 많이 사용) -> predict prob가 있어야 가능SVC 모델은 predict proba가 없으므로 Soft Votingd 참여 불가 배깅(Bagging): Bootstrap Sampling의 줄임말, 기존 학습 데이터 세트로부터 랜덤하게 복원추출하여 동일한 사이즈의 데이터 세트를 여러 개 만드는 것과대적합되며 훈련이 진행됨대표 모델: 랜덤포레스트부스팅(Boosting): 과소적합된 모델을 사용하여 순차적으로 반복학습을 진행함, 예측한 데이터 혹은 학습 트리에 가중치 부여를 통해 오류를 개선해 나가면서 학..

미분

예측 모형의 성능손실함수(loss function) = 비용함수(cost function) 또는 오차함수(error function)목적:  목적함수의 값을 가장 크게 혹은 적게 할 수 있는 입력값, 즉 모수를 구하는 것을 최적화(optmization)라고 한다.  eg.   미분을 이용해 최소 지점으로 갈 수 있는 방법을 구해보자. 기울기: (= 변화량) 가장 적은 횟수로 여러가지 𝑥값을 시도하여 최적의 값을 찾는 방법수치미분미분(differentiation): 어떤 함수로부터 그 함수 기울기를 출력하는 새로운 함수를 만들어내는 작업이다. 미분으로 만들어진 함수를 원래 함수의 도함수(derivative)라고 한다.미분 가능: 함수에 따라서는 어떤 점에서는 기울기 값을 정의하기 어려울 수가 있다. 예를..

함수

함수 4.1 함수 — 데이터 사이언스 스쿨이 절에서는 함수와 역함수의 개념, 그리고 파이썬에서 어떻게 함수를 구현하는지를 익히고 데이터 분석에서 자주 쓰이는 다양한 함수와 그 특성에 대해 공부한다. 함수 **함수(function)**는 입력datascienceschool.net함수는 입력값을 넣으면 출력값을 뱉어냄정의역(domain): 입력변수가 가질 수 있는 집합(=파라미터)공역(range): 리턴값(return) 변수: 입력과 출력의 관계를 설명하기 위한 것-> 입력과 출력의 관계를 학습한 것이 '지도학습 머신러닝'연속과 불연속불연속 함수: 데이터 분석에서 많이 사용됨부호함수: 입력이 양수이면 1, 음수이면 -1, 0이면 0을 출력하는 𝑥=0 에서 불연속인 함수불연속 함수란?: x가 어떠한 순간에 ..

분류 알고리즘 - 결정 트리

알고리즘을 배운다는 것은?결정 트리 알고리즘스무고개를 하듯이 계속적인 질문을 통해 패턴을 찾아간다. 목적: 가장 효율적인 분류가 되기 위한 규칙을 찾음(모든 리프를 균일하게 만드는 것)정보 균일도 측정 방법정보 이득 vs 지니 계수 - 정보 이득: 엔트로피(복잡도) 개념 기반상이한 값들이 섞여 있으면 엔트로피 높음, 동일한 값들이 섞여 있으면 엔트로피 낮음정보 이득 지수 = 1 - 엔트로피 지수결정 트리는 이 정보 이득 지수로 분할 기준을 정한다. 즉, 정보 이득이 높은 속성을 기준으로 분할한다.  - 지니 계수: 경제학에서 불평등 지수를 나타낼 때 사용하는 지수0(평등/균일) ~ 1(불평등/불균일): 낮으면 낮을 수록 좋음!즉, 결정 트리에선 지니 계수를 0으로 만드는 것이 목적임  규칙 노드 생성 ..