본문 바로가기

STUDY/부스트코스 - AI 엔지니어 기초 다지기

(20)
[AI 엔지니어 기초 다지기] 11일차 [24.01.30] 3주차 15차시 - 경사하강법 경사하강법 : DL에서 활용되는, 가장 중요한 최적화 알고리즘. 미분 미분은 어디에 써먹는가?? 경사하강법 알고리즘 (1) 경사하강법 알고리즘 (2) - 변수가 벡터인 경우
[AI 엔지니어 기초 다지기] 10일차 [24.01.29] 3주차 14차시 - 벡터와 행렬 1. 벡터Vector란 ?? 1) 숫자를 원소로 가지는 리스트List 또는 배열Array을 말한다. 2) 좀 더 본질적으로는, N차원 공간에서 원점으로부터 특정 위치에 있는 점의 상대적 위치를 의미한다. 3) 벡터는 모양이 같으면 사칙연산이 가능하다. 숫자를 곱해주면 벡터의 길이만 변하는데, 이를 스칼라곱이라 한다. 1.1 벡터간 덧, 뺄셈 : 벡터는 원점으로부터 특정 점까지의 상대적 위치를 표현하는 것이다 => 그러므로 두 벡터의 덧, 뺄셈은 특정 점의 상대적 위치 이동을 표현한다. 1.2 벡터의 노름Norm 1) Norm은 임의의 차원 d에서, 원점에서부터 벡터까지의 거리를 의미한다. ** L1, L2 norm은 단순 계산식으로도 구할 수 있지만, ..
[AI 엔지니어 기초 다지기] 9일차 [24.01.25] 2주차 11차시 - 앙상블 1. Ensemble : 특정한 알고리즘이 모든 문제에서 항상 제일 나은 성능을 보이지 않는다는 연구결과 => 더 나은 모델 성능을 위해 여러 개의 알고리즘을 조합해서 사용하는 것. 1.1 Ensemble Learning - 여러개의 Decision Tree를 결합하여 하나의 D.T보다 더 좋은 성능을 내는 ML 기법. - 앙상블 학습의 핵심은, 여러개의 약한 분류기Weak Classifier를 결합해서 하나의 강한 분류기Strong Classifier를 만드는 것이라 할 수 있다. 마치 집단지성. 1.2 Ensemble Learning 기법 1) Bagging(Boostrap Aggregation) - 장점 : Overfitting에 효과적이다. - 대표 ..
[AI 엔지니어 기초 다지기] 8일차 [24.01.24] 2주차 10차시 - 하이퍼 파라미터 튜닝 1. 하이퍼 파라미터Hyper Parameter : 모델 학습 전, 사용자가 직접 설정해주어야 하는 모델의 파라미터. 하이퍼파라미터 튜닝은, 이들을 최적화 하는 작업이라 보면 된다. 1.1 하이퍼 파라미터 튜닝 방 1) Manual Search : 자동화 툴을 쓰지 않고, 직접 튜닝할 하이퍼 파라미터 셋을 정하고 하나씩 바꿔가며 튜닝하는 방식. 2) Grid Search : 사용 가능한 모든 하이퍼 파라미터 조합을 모두 하나하나 테스트하며, 어떤 조합이 가장 성능이 좋은지 기록하는 방식으로, 하이퍼파라미터의 수가 많다면 비효율적이다. 오래 걸리니까. 3) Random Search : 사용 가능한 모든 하이퍼파라미터의 조합 중에서 무작위로 값을 ..
[AI 엔지니어 기초 다지기] 7일차 [24.01.23] 2주차 9차시 - 피처 중요도 1. 피처 중요도Feature Importance란? - 타겟 변수를 예측하는데에 사용된 각각의 feature들이 예측에 얼마나 유용하게 사용되었는지를, 각 feature들에 점수로 할당해서 중요도를 측정하는 방법. 2가지 방법이 있다. 1.1 Model specific vs Model agnostic : ML모델 자체에서 중요도를 계산하는 방법을 Model specific, 모델 학습 후에 모델의 중요도 계산 기능이 아닌 다른 방법으로 중요도를 계산하는 방법을 Model agnistic이라 한다. 2. Boosting Tree Feature Importance( Model specific ) 2.1 LightGBM Feature Importance - ..
[AI 엔지니어 기초 다지기] 6일차 [24.01.22] 2주차 8차시 - 피처 엔지니어링 1. 피처 엔지니어링 원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는데 도움이 되는 Feature 를 생성 / 변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업 딥러닝이 아닌 머신러닝에서 모델의 성능을 높이는 가장 핵심적인 단계 양질의 데이터라면 성능의 80 - 90% 는 피처 엔지니어링에 의해 결정됨 나머지는 하이퍼 파라미터 튜닝 등 딥러닝 : end-to-end learning, 딥러닝 모델의 구조를 통해 데이터의 feature 를 모델이 알아서 찾아냄 머신러닝 : 사람이 직접 데이터에 대해 이해해서 feature 를 만들어 줘야함 1) Pandas Group By Aggregation 을 이용한 Feature Enginee..
[AI 엔지니어 기초 다지기] 5일차 [24.01.19] 1주차 5차시 - 트리 모델 1. What is Tree model? 1.1 의사결정나무 Decision Tree - Tree model 중 가장 기본적인 모델이다. - 컬럼(feature) 값들을 특정 기준으로 나누어, 목적에 맞는 의사결정을 만드는 방법. - 특정 기준에 yes or no 로 decision을 만듦. 스무고개라 생각하면 비슷하다. 1.2 Tree model의 발전형 : Random Forest, Ada Boost, GBM, XGBoost, LightGBM, CatBoost 등이 있다. 1.3 Bagging & Boosting 1) Bagging(Bootstrap + Aggregation) - 데이터셋을 샘플링(=Bootstrap)해서 모델을 만들어나가는 것. - 샘..
[AI 엔지니어 기초 다지기] 4일차 [24.01.18] 1주차 4차시 - 머신러닝 기본 개념 1. Underfitting / Overfitting fit 이란?? => 모델이 얼마나 데이터를 "잘" 설명할 수 있는가, 를 의미함. Well fitting : 모델이 데이터를 잘 설명할 수 있게 되었다! 1.1 Underfitting : 모델이 데이터를 잘 설명하지 못함. Why? 학습이 충분히 되지 않았거나, 데이터가 부족하거나 등등... 1.2 Overfitting : 모델이 데이터를 과하게 잘 설명함. Why? 학습 데이터에 대해서 너무 과하게 학습함. Overfitting이 문제가 되나? 학습을 많이 하면 할 수록 좋은 거 아니야?? 라는 생각은 => 경기도 오산임... 왜냐? 우리가 학습 데이터로 사용하는 데이터는 전체 데이터의 일부..