본문 바로가기

STUDY/Python

[visualization] 결측치 시각화 - missingno

보통 데이터 EDA를 할 때엔, 결측치가 있는지 없는지를 먼저 살펴보는것이 일반적이다.

 

이는 isna()나 isnull()을 통해 수치로 확인할 수 있지만 시각화도 해볼 수 있다.

 

어떻게 ? missingno라는 라이브러리의 matrix(), bar() 함를 이용한다. (포켓몬의 미싱노가 생각난다...)

 

 

간단하게 데이터를 만들고 직접 사용해보도록 하자.

 

1. 데이터 생성

데이터 생성

 

 

2.1 matrix()

missingno.matrix() 사용

 

위의 df 출력결과와 비교해서 보면 알겠지만, 결측치는 흰색으로, 그 외는 검은색으로 표시되어 있다. 즉 컬럼별 결측치의 위치를 나타낸다.

 

 

2.2 bar()

missingno.bar() 사용

 

각 결측치의 위치를 표시했던 matrix()와는 달리, 각 컬럼별로 결측치가 얼마나 있는지를 보여주고 있다.

데이터가 많다면, bar()의 파라미터에 log=True를 추가해서 로그 스케일로 바꿀 수도 있다.