부트캠프 44

선형대수학 - 행렬

행렬과 벡터 구분행렬이란?행렬(matrix)은 수를 직사각형의 형태로 나열한 것으로 행렬의 가로줄을 행, 영어로는 row라고하며, 세로줄은 열, 영어로는 column이라고 한다. A의 경우 행이 3개 있고 열이 4개 있는데, 이런 걸 3 x 4 행렬 또는 "이 행렬의 차원이 3 x 4다"라고도 한다. 원소 표기 m x n인 행렬이 있다면 원소들을 아래처럼 표현할 수 있다.벡터벡터도 일종의 행렬로써, 행이 하나밖에 없거나 열이 하나밖에 없는 행렬을 의미한다.a는 열이 하나만 있으므로 열 벡터라고 하며 b는 행이 하나만 있기 때문에 행 벡터라고 한다. 다만, 열 벡터를 사용하는 경우가 더 많기 때문에, 그냥 벡터라고 하면 열 벡터를 뜻한다. 벡터의 차원벡터는 무조건 열이 하나밖에 없거나 행이 하나밖에 없다...

DataFrame - 그룹별로 분석하기

groupby()netflix_df.groupby('genre').count()# 컬럼별로 결측값을 제외한 각 데이터가 몇개씩 있는지 알 수 있음netflix_df.groupby('genre').size()# genre컬럼을 기준으로 그룹화# .size(): 각 장르별로 로우가 몇개인지 한 줄의 시리즈로 표현됨(*결측값 포함)netflix_df.groupby('genre').min(numeric_only=True)# min에 문자데이터가 적용될 경우, 문자 데이터의 최소값은 오름차순을 했을 때 가장 첫번째 값# 숫자 데이터만 요약해서 보고 싶다면 'numeric_only=True'를 설정해줘야 함# min 외 max, mean, sum 모두 사용법 동일함netflix_df.groupby('genre')[..

DataFrame - 데이터 합치기

pd.concat()pd.concat([english_df1, english_df2], ignore_index=True) # ignore_index: index값을 합친 데이터 기준으로 재설정pd.concat([english_df, math_df], axis=1)# axis=1: 컬럼을 기준으로 합침 예제2020년부터 2022년까지 3년 간의 월별 매출액 데이터를 한 번에 모아서 보려고 합니다. 각 연도의 데이터는 sales_2020, sales_2021, sales_2022라는 변수에 각각 저장되어 있는데요. 세 개의 DataFrame을 하나로 합쳐서 sales_df라는 변수에 저장해 주시면 됩니다.import pandas as pdsales_2020_df = pd.read_csv('data/sales..

DataFrame - 날짜와 시간 연산

order_df['shipping_time'] - order_df.indextimedelta: 두 시점 사이의 시간 차이를 나타내는데 사용됨pd.to_timedelta(order_df['days_for_shipping(expected)'], unit='D']# unit='D': day인 1을 기준으로 timedelta가 설정됨# H: 시간 / P: 분 / S: 초 단위예제 배달 음식이 고객에게 도착한 시각을 계산해 봅시다. 주문 시각(order_time)과 배달 소요 시간(time_taken)을 가지고 배달 완료 시간을 계산해서 DataFrame에 delivery_time이라는 컬럼을 추가해 주세요! 참고로 time_taken 컬럼은 배달에 몇 분이 소요되었는지를 의미하므로, 아래 출력 결과처럼 분을 ..

DataFrame - 날짜와 시간 연산

timedelta: 두 시점 사이의 시간 차이를 나타내는데 사용됨order_df['shipping_time'] - order_df.indexpd.to_timedelta(order_df['days_for_shipping(expected)'], unit='D']# unit='D': day인 1을 기준으로 timedelta가 설정됨# H: 시간 / P: 분 / S: 초 단위예제 배달 음식이 고객에게 도착한 시각을 계산해 봅시다. 주문 시각(order_time)과 배달 소요 시간(time_taken)을 가지고 배달 완료 시간을 계산해서 DataFrame에 delivery_time이라는 컬럼을 추가해 주세요! 참고로 time_taken 컬럼은 배달에 몇 분이 소요되었는지를 의미하므로, 아래 출력 결과처럼 분을 ..

DataFrame - 날짜와 시간 데이터 다루기

데이터를 불러올 때 형식 지정하기pd.to_datetime(): Timestamp로 된 시리즈parse_dates()목적: 데이터프레임의 특정 열을 날짜형으로 변환하여, 날짜와 시간을 보다 쉽게 조작하고 분석할 수 있게 해준다.사용법: parse_dates는 pd.read_csv() 또는 pd.read_excel() 같은 데이터 읽기 함수의 인자로 사용된다. # parse_dates 파라미터에 '날짜' 데이터로 불러올 컬럼명을 입력함order_df = pd.read_csv('data/order.csv', parse_dates=['order_time', 'shipping_time'])pandas datetime의 기본 형식은 '연도-월-일' 이다. 이를 parse_dates=[]에 넘겨주면 pandas가 ..

DataFrame - 데이터 구간화(cut(), apply())

df.cut()# cut()함수를 통해 데이터 구간화patient_df['age_group'] = pd.cut(patient_df['age'], bins=[20, 30, 40, 50, 60, 70], right=False, labels=['20s', '30s', '40s', '50s', '60s'])# bin: 구간화 할 범위# right=False: 오른쪽 구간을 포함하지 않음(기본값은 True)# labels: 구간에 이름을 붙여줌예제환자들의 비만도를 BMI 값에 따라 분류하려고 합니다. 아래 기준에 따라 비만도를 분류해서 obesity라는 컬럼에 저장해 주세요.18.5 미만(저체중): under18.5 이상 25 미만(정상): healthy25 이상 30 미만(과체중): over30 이상(비만..

DataFrame - 문자열 분리, 변경, 제거하기

대소문자 처리하기airbnb_df['state'].unique()# 모두 소문자 통일airbnb_df['state'].str.lower() # str()함수로 시리즈와 문자열 처리 함수를 연결# 모두 대문자 통일airbnb_df['state'].str.upper()# 앞글자만 대문자, 나머진 소문자airbnb_df['state'].str.capitalize()문자열 분리하기df.split()# ,(콤마) 값을 기준으로 'location'컬럼의 문자열 분리하여 0번째 값을 가져오기 airbnb_df['location'].str.split(',').str[0]df.strip()# 문자열 내 공백 제거airbnb_df['city'].str.strip()df.replace()# 특정 문자열 변경(* .온점 ->..

DataFrame - 중복값 찾고 처리하기

df.duplicated()중복값 확인 시, 가장 먼저 나온 데이터는 중복값이 아닌 데이터로 보고 나머지값들을 중복값으로 인식한다.모든 컬럼의 값이 동일해야 '중복값'으로 본다. airbnb_df.duplicated() # 중복값 여부 확인, True면 중복값이고 False면 아님airbnb_df.duplicated().sum() # 중복된 값의 총합 계산airbnb_df[airbnb_df.duplicated(subset='id')] # 'id'가 중복된 값의 데이터 확인# 중복값을 리스트로 줄 수도 있음airbnb_df[airbnb_df.duplicated(subset=['id', 'n_review', 'price')] # subset의 3개의 값이 모두 동일하면 중복값# keep='first'가 기본..

DataFrame - 결측값 처리하기(삭제/대체)

결측값 삭제하기df.dropna()airbnb_df.dropna() # 결측값 삭제하기 결측값을 다른 값으로 채우기df.fillna() airbnb_df['rating'].mean() # 1 - 'rating'컬럼의 평균값 확인rating_mean = airbnb_df['rating'].mean() # 2 - 1의 값을 rating_mean변수에 저장airbnb_df['rating'].fillna(rating_mean) # 3 - 결측값을 2의 값으로 채움 예제)효준이는 새로운 스마트폰을 구입하기 위해 애플과 삼성의 스마트폰 데이터를 수집했습니다. 그런데 실수로 특정 모델의 무게를 입력하는 것을 깜빡했다고 하는데요. 다행히 한 가지 모델만 누락되어 있고, 모델명이 같으면 용량이나 색상과 관계없이 무게가 ..