Garbage in, Garbage out
쓰레기를 넣으면, 쓰레기가 나온다
데이터의 퀄리티가 좋지 않다면, 의미있는 분석 결과를 얻기 어렵다.
이를 위해 원본 데이터를 분석하기 용이하게 다듬는 과정을 거치게 되는데, 이를 '데이터 전처리'라고 한다.
df.info()
airbnb_df.info() # 결측값을 제외한 데이터 수를 확인할 수 있음
df.isna()
airbnb_df.isna() # 데이터 프레임에서 결측값이면 True, 결측값이 아니면 False값을 출력함
df.isna().sum()
airbnb_df.isna().sum() # 컬럼별로 결측값의 개수가 계산됨(True=1, False=0)
df.any()
airbnb_df.insa().any(axis=1)
# .any() 데이터프레임의 각 요소를 차례대로 검사하며 이 중 True값이 하나라도 있으면 True, 없으면 False를 시리즈로 출력함
# 결측값의 존재 여부를 확인할 수 있음
# 시리즈로 출력됨
airbnb_df[airbnb_df.isna().any(axis=1)] # 불린 인덱싱으로 결측값이 있는 데이터(True)만 확인함