보통 데이터 EDA를 할 때엔, 결측치가 있는지 없는지를 먼저 살펴보는것이 일반적이다.
이는 isna()나 isnull()을 통해 수치로 확인할 수 있지만 시각화도 해볼 수 있다.
어떻게 ? missingno라는 라이브러리의 matrix(), bar() 함를 이용한다. (포켓몬의 미싱노가 생각난다...)
간단하게 데이터를 만들고 직접 사용해보도록 하자.
1. 데이터 생성
2.1 matrix()
위의 df 출력결과와 비교해서 보면 알겠지만, 결측치는 흰색으로, 그 외는 검은색으로 표시되어 있다. 즉 컬럼별 결측치의 위치를 나타낸다.
2.2 bar()
각 결측치의 위치를 표시했던 matrix()와는 달리, 각 컬럼별로 결측치가 얼마나 있는지를 보여주고 있다.
데이터가 많다면, bar()의 파라미터에 log=True를 추가해서 로그 스케일로 바꿀 수도 있다.
'STUDY > Python' 카테고리의 다른 글
[Anaconda] 가상환경 생성/활성화/삭제/패키지 설치/아나콘다 명령어 (0) | 2024.03.08 |
---|---|
[Anaconda] 아나콘다란? / 아나콘다 설치 (2) | 2024.03.08 |
[Pandas] concat()과 merge()의 차이 (0) | 2024.01.16 |
[Pandas] describe() (0) | 2024.01.16 |
[Pandas] idxmax(), idxmin() (2) | 2024.01.01 |