본문 바로가기

STUDY

(98)
[AI 엔지니어 기초 다지기] 14일차 [24.02.07] 4주차 18차시 - 통계학 맛보기 모수Population Parameter 1. 통계적 모델링의 목표는 적절한 가정 위에서 확률분포를 추정inference하는 것 2. 이는 기계학습과 통계학의 공통 목표이기도 하다. 3. 그러나 유한한 개수의 데이터만 관찰해서 모집단의 확률분포를 정확하게 알아내는 것은 불가능. => 근사적으로 확률분포 추정함 => 예측 모형의 목적은 정확한 분포를 맞추는 것 보단 데이터와 추정 방법의 불확실성을 고려해서 예측의 위험을 최소화 하는 것 정도면 충분하기 때문. 3-1. 모수적parametric 방법 : 데이터가 특정 확률분포를 따른다고 선험적으로priori 가정한 후, 해당 분포를 결정하는 모수를 추정하는 방법. ex) 정규분포의 경우 평균과 분산이 중요..
[AI 엔지니어 기초 다지기] 13일차 [24.02.06] 4주차 17차시 - 확률론 맛보기 딥러닝에 확률론이 필요한 이유? 1. DL은 확률론 기반의 기계학습 이론에 바탕을 두고 있기 때문 1-1. 기계학습에서 사용되는 손실함수(비용함수)의 작동 원리는 데이터공간을 통계적으로 해석하는 것에서 시작. 1-2. 회귀분석에서 손실함수로 사용되는 L2 norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도함. 1-3. 분류 문제에서 사용되는 교차엔트로피Cross-entropy는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도함. 1-4. 분산과 불확실성을 최소화 하기 위해서는, 이들을 측정하는 방법을 알아야 하고, 해당 측정 방법은 통계학으로부터 나온다. 즉, 기계학습을 이해하려면 확률론을 알아야 한다! 데이터 공간 - 말..
[데벨챌 2기 - 컨버티드] 3주차 이래저래 일이 많아 3주차 작성이 며칠 늦었다 ... 허나 늦었다고 마무리를 안 할수는 없다. 시작을 했으면 끝을 봐야 하는 법. 이번주에 읽은 파트는 Part3 - 발전 (어떻게 더 뛰어난 성과를 낼 것인가) 이 파트에서 감명깊게 읽었던 부분은, 평소 내 생각과도 일맥상통하는 부분이었다. 바로, 발전이란 꾸준히 한 걸음씩 이루어진다는 것. 사람이든 환경이든, 뭐든 간에 한번에 확 바뀌는 것은 없다. 중요한 건, 한 걸음씩 꾸준히 나아가는 것. 어제의 나 보다 오늘의 내가 조금이나마 낫다면, 그것이 발전인 것이다. 꾸준히 나아가다 보면 달라져 있는 나를 어느샌가 발견하게 될 것이다. 그것을 위해, 나는 매일 조금씩이지만 꾸준히 나아가고 있다. 뒤돌아봤을 때, 나은 방향으로 발전해있는 나를 발견할 수 있기..
[AI 엔지니어 기초 다지기] 12일차 [24.01.31] 3주차 16차시 - 딥러닝 학습방법 이해하기 선형 모델을 간단하게 표시해보면... 대략 아래와 같다. 이는, d개의 변수로 p개의 선형모델을 만들어 p개의 잠재변수를 설명하는 모델이라 볼 수 있다. 최종 출력 벡터인 O에 softmax 함수를 합성하면, 주어진 데이터가 특정 클래스 k에 속할 확률을 구할 수 있는데, 이를 분류문제라고 부른다. 그런데, softmax함수가 뭐지?? Softmax 함수 - 모델의 출력을 확률로 해석할 수 있게 변환해 주는 연산(함수)이다. 위에서 언급했듯, 분류 문제를 풀 때 선형모델과 softmax 함수를 결합해 사용한다. - 하지만, 추론인 경우엔 softmax를 쓰지 않는다! (참고) One-Layer NN(Nerual Network) - 신경망 =..
[AI 엔지니어 기초 다지기] 11일차 [24.01.30] 3주차 15차시 - 경사하강법 경사하강법 : DL에서 활용되는, 가장 중요한 최적화 알고리즘. 미분 미분은 어디에 써먹는가?? 경사하강법 알고리즘 (1) 경사하강법 알고리즘 (2) - 변수가 벡터인 경우
[AI 엔지니어 기초 다지기] 10일차 [24.01.29] 3주차 14차시 - 벡터와 행렬 1. 벡터Vector란 ?? 1) 숫자를 원소로 가지는 리스트List 또는 배열Array을 말한다. 2) 좀 더 본질적으로는, N차원 공간에서 원점으로부터 특정 위치에 있는 점의 상대적 위치를 의미한다. 3) 벡터는 모양이 같으면 사칙연산이 가능하다. 숫자를 곱해주면 벡터의 길이만 변하는데, 이를 스칼라곱이라 한다. 1.1 벡터간 덧, 뺄셈 : 벡터는 원점으로부터 특정 점까지의 상대적 위치를 표현하는 것이다 => 그러므로 두 벡터의 덧, 뺄셈은 특정 점의 상대적 위치 이동을 표현한다. 1.2 벡터의 노름Norm 1) Norm은 임의의 차원 d에서, 원점에서부터 벡터까지의 거리를 의미한다. ** L1, L2 norm은 단순 계산식으로도 구할 수 있지만, ..
[AI 엔지니어 기초 다지기] 9일차 [24.01.25] 2주차 11차시 - 앙상블 1. Ensemble : 특정한 알고리즘이 모든 문제에서 항상 제일 나은 성능을 보이지 않는다는 연구결과 => 더 나은 모델 성능을 위해 여러 개의 알고리즘을 조합해서 사용하는 것. 1.1 Ensemble Learning - 여러개의 Decision Tree를 결합하여 하나의 D.T보다 더 좋은 성능을 내는 ML 기법. - 앙상블 학습의 핵심은, 여러개의 약한 분류기Weak Classifier를 결합해서 하나의 강한 분류기Strong Classifier를 만드는 것이라 할 수 있다. 마치 집단지성. 1.2 Ensemble Learning 기법 1) Bagging(Boostrap Aggregation) - 장점 : Overfitting에 효과적이다. - 대표 ..
[AI 엔지니어 기초 다지기] 8일차 [24.01.24] 2주차 10차시 - 하이퍼 파라미터 튜닝 1. 하이퍼 파라미터Hyper Parameter : 모델 학습 전, 사용자가 직접 설정해주어야 하는 모델의 파라미터. 하이퍼파라미터 튜닝은, 이들을 최적화 하는 작업이라 보면 된다. 1.1 하이퍼 파라미터 튜닝 방 1) Manual Search : 자동화 툴을 쓰지 않고, 직접 튜닝할 하이퍼 파라미터 셋을 정하고 하나씩 바꿔가며 튜닝하는 방식. 2) Grid Search : 사용 가능한 모든 하이퍼 파라미터 조합을 모두 하나하나 테스트하며, 어떤 조합이 가장 성능이 좋은지 기록하는 방식으로, 하이퍼파라미터의 수가 많다면 비효율적이다. 오래 걸리니까. 3) Random Search : 사용 가능한 모든 하이퍼파라미터의 조합 중에서 무작위로 값을 ..