[24.01.18]
1주차 4차시 - 머신러닝 기본 개념
1. Underfitting / Overfitting
fit 이란?? => 모델이 얼마나 데이터를 "잘" 설명할 수 있는가, 를 의미함. Well fitting : 모델이 데이터를 잘 설명할 수 있게 되었다!
1.1 Underfitting : 모델이 데이터를 잘 설명하지 못함. Why? 학습이 충분히 되지 않았거나, 데이터가 부족하거나 등등...
1.2 Overfitting : 모델이 데이터를 과하게 잘 설명함. Why? 학습 데이터에 대해서 너무 과하게 학습함.
Overfitting이 문제가 되나? 학습을 많이 하면 할 수록 좋은 거 아니야?? 라는 생각은
=> 경기도 오산임... 왜냐?
우리가 학습 데이터로 사용하는 데이터는 전체 데이터의 일부분이다. 학습 데이터가 전체 데이터의 일부임에도 불구하고 와 굉장히 유사한 경향을 띤다면 Overfitting이 좋은 상황이겠지만, 그럴 일은 그다지 많지 않다.
그러므로 Overfitting을 경계해야 한다. 모델링의 목적은 학습 데이터를 설명하는 것이 아닌, 전체 데이터를 설명하는 것이니까.
그럼, 이런 Overfitting은 어떻게 방지할 수 있을까?
2. Regularization규제
모델이 학습 데이터셋의 모든 데이터에 너무 민감하게 반응하지 않도록, 모델을 규제하는 것을 의미한다.
2.1 Early Stopping
: 모델이 데이터를 학습해나가다가, Error가 지속적으로 크게 증가하는 지점에서 모델의 학습을 멈추는 기법.
2.2 Parameter norm penalty
: 파라미터의 페널티 항을 추가하여 파라미터 값에 제약을 주어 모델의 복잡도를 낮추는 방법이다. 대표적으로 릿지(Ridge) 스타일의 페널티 항인 L2 norm penalty와 라소(Lasso) 스타일의 L1 norm penalty를 사용한다. 릿지의 경우 파라미터의 값을 축소하는 작용을 하며 라소는 파라미터를 선택하는 방식으로 작동한다
2.3 Data agumentation
: Fake date를 추가해, 데이터의 수를 늘리는 방법이다(=>Over sampling). 새로운 데이터를 추가할 수도 있지만 기존의 데이터를 살짝 가공한 fake 데이터를 추가하여 모델의 성능을 향상시킬 수 있다. 정형 데이터 분석에도 충분히 사용할 수 있다. 그러나, 정형 데이터 분석에는...
2.4 SMOTE
: 이 방법을 좀 더 많이 쓴다. Imbalance한 데이터를 처리할 때 주로 사용하는 Over sampling 기법이다. 동작 방식은 데이터의 개수가 적은 클래스의 표본을 가져온 뒤 임의의 값을 추가하여 새로운 샘플을 만들어 데이터에 추가하는 식이다.
이 외에도 다양한 방법들이 있다.
'STUDY > 부스트코스 - AI 엔지니어 기초 다지기' 카테고리의 다른 글
[AI 엔지니어 기초 다지기] 6일차 (0) | 2024.01.22 |
---|---|
[AI 엔지니어 기초 다지기] 5일차 (0) | 2024.01.19 |
[AI 엔지니어 기초 다지기] 3일차 (0) | 2024.01.17 |
[AI 엔지니어 기초 다지기] 2일차 (0) | 2024.01.16 |
[AI 엔지니어 기초 다지기] 1일차 (0) | 2024.01.15 |