본문 바로가기

STUDY/부스트코스 - AI 엔지니어 기초 다지기

[AI 엔지니어 기초 다지기] 1일차

[24.01.15]

1주차 - (1) 정형 데이터란?

 

정형 데이터 :

엑셀 파일 형식이나 RDBMS의 테이블에 담을 수 있는 데이터로, 행Row과 열Columns으로 표현 가능한 데이터.

하나의 행은 하나의 데이터 속성을 나타내고, 각 열은 데이터의 feature를 나타낸다.

비정형 데이터 : 

이미지, 영상, 음성, 자연어 등, 정제되지 않은 데이터를 의미한다.

 

정형 데이터의 중요성 : 

 

비정형 데이터가 떠오르고는 있으나, 아직까지 많은 사람, 기업, 현상, 사회의 많은 부분들이 정형데이터로 기록되기 때문.

정형 데이터는 가장 기본적인 데이터이며, 분야 막론 굉장히 많은 정형 데이터가 존재한다. 

 

정형 데이터의 분석 능력은 데이터에 대한 상상력, 통찰력, 다양한 경험을 통해 데이터의 종류에 국한되지 않고 범용적으로 쓰일 수 있는 능력을 말한다.

 

분석 능력이 중요함을 보여주는 예시로, 생존편향Survivorship Bias의 오류가 있다.

관련 내용은 아래 링크 참고!

https://www.andrewahn.co/silicon-valley/survivorship-bias/

 

Survivorship Bias (생존자 편향의 오류)

2차 세계대전 당시 미군 전투기가 격추되는 것을 줄이기 위해 전장에서 돌아온 전투기들의 외상을 분석하여 취약 부분을 보강하는 계획을 세웠다고 한다. 분석 결과 비행기의 외상 대부분이 날

www.andrewahn.co

 

 

 

평가지표 이해

 - 분류Classification 문제 : 예측해야 할 대상의 개수가 정해진 문제... 라고는 하지만 말 그대로 분류하는 문제.

    ex) 동물 이미지에서 개인지 고양이인지 분류 / 어떤 카드 거래가 정상 거래인지 아닌지 분류 등...

 - 회귀Regression 문제 : 예측해야 할 대상이 연속적인 숫자인 문제...라고는 하지만 특정 값을 예측하는 문제.

    ex) 내일 기온 예측 / 특정 제품 가격 예측 등...

 - 평가지표 : 위와 같은 문제들에 쓰인 ML 모델의 성능을 평가하는 지표를 말한다. 

 

혼동 행렬Confusion Matrix

이진분류 문제에서 지도 학습으로 훈련된 분류 알고리즘의 성능을 시각화 할 수 있는 표를 말한다.

TP : 정답이 P이고, 예측도 P로 알맞게 한 경우

TN : 정답이 N이고, 예측도 N으로 알맞게 한 경우

FP : 정답은 N인데, 예측은 P로 잘못 한 경우

FN : 정답은 P인데, 예측은 N으로 잘못 한 경우

 

이 4가지 경우로부터 이진분류 문제의 평가지표를 3가지 도출해낼 수 있다.

 

어떤 문제이고, 무엇을 예측하느냐에 따라서 어떤 지표를 가장 중요한 지표로 사용할 것인지 결정해야 한다.

 ex) 특정 메일이 스팸이냐 아니냐를 분류하는 이진 분류 문제에서는 Precision이 중요한 지표다.

       왜냐? 일반 메일을 스팸으로 분류하면 문제가 생길 수 있으므로, 스팸을 스팸이라고 예측하는 것 보단, 일반 메일을 일반 메일이라고 잘 예측하는 것이 더 중요하다.