반응형 결측치3 [파이썬 판다스] 결측치 평균으로 대체하기 예시에 사용할 데이터를 먼저 불러옵시다. seaborn 패키지의 타이타닉 데이터를 불러오겠습니다. import seaborn as sns import pandas as pd dt = sns.load_dataset('titanic') 결측치 확인을 해보면 age가 상당히 많이 비어 있는 것을 알 수 있습니다. >>> dt.isnull().sum() survived 0 pclass 0 sex 0 age 177 sibsp 0 parch 0 fare 0 embarked 2 class 0 who 0 adult_male 0 deck 688 embark_town 2 alive 0 alone 0 dtype: int64 age 열의 결측치를 평균으로 대체하는 방법은 아래와 같습니다. inplace 를 True로 놓으면 .. 2023. 10. 10. [파이썬 판다스] 데이터프레임 결측치 수 및 위치 확인 열별 결측치 수 확인 데이터프레임 df 의 열별 결측치 수를 확인하는 방법은 아래와 같습니다. df.isnull().sum() 특정 열의 결측치 위치 확인 데이터프레임 df에 A라는 열이 있다고 합시다. 열 A의 결측치 위치를 출력하는 방법은 아래와 같습니다. df.loc[df['A'].isnull(),'A'] 출력 예시는 아래와 같습니다. >>> df.loc[df['A'].isnull(),'A'] 58 NaN 141 NaN 156 NaN 222 NaN 246 NaN 318 NaN 336 NaN Name: A, dtype: float64 2023. 9. 6. [데이터 분석] 결측치 처리 방법 데이터의 결측치를 처리하는 방법을 알아봅시다. 인스턴스와 피처라는 용어를 사용할 것입니다. 100명의 키와 몸무게가 아래와 같이 정리되어 있다고 합시다. 사람1 166 44 사람2 172 55 ... 이때 행을 파라미터, 키와 몸무게에 해당되는 열을 피처라고 부릅니다. 1. 단순 제거 - 결측치가 포함된 인스턴스를 단순 제거해도 영향이 적은 경우에 사용 - 다른 제거방법의 적용이 불가능한 경우 사용 2. NA,0,-1 등으로 처리 - 비순서 범주형 자료에 사용 - (-1)로 처리시 연속데이터 통계량을 구할 때 결과가 이상해지므로 주의해야 함 3. 대체하기(Imputation) 1) 임의 대체 (Random imputation) - 말 그대로 임의의 값으로 대체함 - 자료의 경향 반영 불가 2) 대응기반 .. 2023. 6. 29. 이전 1 다음 반응형