[24.02.06]
4주차 17차시 - 확률론 맛보기
딥러닝에 확률론이 필요한 이유?
1. DL은 확률론 기반의 기계학습 이론에 바탕을 두고 있기 때문
1-1. 기계학습에서 사용되는 손실함수(비용함수)의 작동 원리는 데이터공간을 통계적으로 해석하는 것에서 시작.
1-2. 회귀분석에서 손실함수로 사용되는 L2 norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도함.
1-3. 분류 문제에서 사용되는 교차엔트로피Cross-entropy는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도함.
1-4. 분산과 불확실성을 최소화 하기 위해서는, 이들을 측정하는 방법을 알아야 하고, 해당 측정 방법은 통계학으로부터 나온다. 즉, 기계학습을 이해하려면 확률론을 알아야 한다!
데이터 공간
- 말 그대로, 데이터가 분포하는 공간. (X x Y)로 표기함.
- 이 공간에서 데이터를 추출할 때 확률 변수를 사용하게 되고, 이렇게 추출한 데이터의 분포는 확률분포 D로 표기한다.
- 따라서, 데이터는 (x , y) ~ D로 표기한다. 데이터 (x , y)는 데이터 공간 상에서 관측가능한 데이터를 의미한다.
확률변수
- 확률변수는 확률분포 D에 따라 이산형discrete 확률변수와 연속형continuous 확률변수로 구분한다(데이터공간에 의해 결정되는 것이 아님).
1. 이산형 확률변수
- 확률변수가 가질 수 있는 모든 경우의 수의 합
2. 연속형 확률변수
- 데이터 공간에 정의된 확률변수의 밀도density를 적분한 것. why? => 정확한 확률을 구하는 것은 불가능하기 때문.
확률분포
1. 결합분포(Joint distribution) P(x, y)
- 전체 데이터 (x,y)가 주어진 상황에서 상정하는 확률분포
- 결합분포 P(x, y)를 통해 원래 확률분포인 D를 모델링으로 구해낼 수 있음(D는 이론 확률분포이기 때문에, 사전에 알 수 없다).
2. 주변확률분포(Marginal distribution) P(x)
- 결합분포 P(x, y)가 주어진 상황에서, 각각의 입력 x에 대한 y를 더해주거나(이산형) 적분해서(연속형) 얻어지는 확률분포.
- 즉, 주변확률분포는 x에 대한 정보를 표현한 것.
3. 조건부확률분포 P(x | y)
- y가 주어진 상황에서의 x의 확률분포를 말한다.
- 다시 말해 P(x | y)는 특정 클래스 y가 주어졌을 때 데이터의 확률분포라 할 수 있다.
- 더 쉽게 말하자면, P(x | y)는 데이터 공간에서 입력 x와 출력 y 사이의 관계를 모델링하는 것.
조건부확률과 기계학습
- 조건부확률 P(y | x)는,
1) 이산형 확률변수 : 입력변수가 x일 때 정답이 y일 확률(혹은 y가 발생할 확률)
2) 연속형 확률변수 : 입력변수가 x일 때 정답이 y일 확률밀도(혹은 y가 발생할 확률밀도)
를 의미한다.
기대값expectation
- 기대값은 데이터를 대표하는 통계량이다.
- 확률분포가 주어지면 데이터를 분석하는 데 사용 가능한 여러 통계함수statistical functional가 있는데,
- 기대값은 확률분포를 통해 이 통계함수들을 계산하는 데에 사용된다.
몬테카를로 샘플링Monte Carlo Sampling
- 기계학습의 여러 문제들은, 밀도함수나 질량함수 등의 확률분포를 모르는 경우가 대부분이다.
- 하지만 이런 경우에 데이터 샘플링 하는 방법은 알고 있다, 라고 한다면 적분이나 summation 대신 데이터 샘플링으로 기대값을 계산할 수 있다.
- 이럴 때 쓰는 데이터 샘플링 방법이 몬테카를로 샘플링이다.
- 단 몬테카를로 샘플링은 각 샘플이 독립적이어야 한다는, 독립추출이 보장되어야 대수의 법칙law of large number 의해 수렴성이 보장된다.
- 예시
'STUDY > 부스트코스 - AI 엔지니어 기초 다지기' 카테고리의 다른 글
[AI 엔지니어 기초 다지기] 15일차 (0) | 2024.02.09 |
---|---|
[AI 엔지니어 기초 다지기] 14일차 (2) | 2024.02.07 |
[AI 엔지니어 기초 다지기] 12일차 (0) | 2024.01.31 |
[AI 엔지니어 기초 다지기] 11일차 (0) | 2024.01.30 |
[AI 엔지니어 기초 다지기] 10일차 (0) | 2024.01.29 |