본문 바로가기

STUDY/부스트코스 - AI 엔지니어 기초 다지기

[AI 엔지니어 기초 다지기] 2일차

[24.01.16]

1주차 - 2차시 [EDA]

 

EDA란?

EDA(탐색적 데이터 분석Exploratory Data Analysis) : 데이터를 탐색하고 가설을 세워 증명하는 과정. 

  => 다양한 시각을 통해 데이터를 이해하고, 특징을 찾아내는 과정

  => 이런 특징들을 시각화 하거나 통계량으로 표현함

  => ...으로써 데이터의 문제들을 직관적으로 이해할 수 있음.

   

  1) 데이터에 대한 가설 / 의문을 가짐

  2) 시각화, 통계량 출력, 모델링 등을 통해 가설을 검정함

  3) 위의 결론을 통해 새로운 가설을 세우거나, 문제를 해결함.

 

도메인 별로 데이터의 형태나 종류 등이 다르기 때문에 일반화가 어려우며, 정답은 없다.

 

그러나, 아무리 정답이 없다 한들 권장되는(추천되는) 시작은 있다. 바로,

 개별 변수들(범주형, 연속형)의 분포를 확인하고 변수간의 분포와 관계를 확인하는 것.

 

굉장히 유명한 데이터인 Titanic Survivor data를 예로 들어보자.

 

EDA 예시

1. 데이터 파악

 - 해당 데이터 셋의 컬럼 정보

 

 - 연속형 변수

 

 - 범주형 변수

 

 

이렇듯 그래프를 통한 시각화 등으로 각 feature들의 특성을 확인하고, 그로부터 가설을 도출해서 그 가설이 맞는지를 검증하는 과정을 EDA라고 할 수 있다.