본문 바로가기

STUDY/부스트코스 - AI 엔지니어 기초 다지기

[AI 엔지니어 기초 다지기] 13일차

[24.02.06]

4주차 17차시 - 확률론 맛보기

 

 

딥러닝에 확률론이 필요한 이유?

 1. DL은 확률론 기반의 기계학습 이론에 바탕을 두고 있기 때문

   1-1. 기계학습에서 사용되는 손실함수(비용함수)의 작동 원리는 데이터공간을 통계적으로 해석하는 것에서 시작.

   1-2. 회귀분석에서 손실함수로 사용되는 L2 norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도함.

   1-3. 분류 문제에서 사용되는 교차엔트로피Cross-entropy는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도함.

   1-4. 분산과 불확실성을 최소화 하기 위해서는, 이들을 측정하는 방법을 알아야 하고, 해당 측정 방법은 통계학으로부터 나온다. 즉, 기계학습을 이해하려면 확률론을 알아야 한다!

 

 

 

데이터 공간

 - 말 그대로, 데이터가 분포하는 공간. (X x Y)로 표기함.

 - 이 공간에서 데이터를 추출할 때 확률 변수를 사용하게 되고, 이렇게 추출한 데이터의 분포는 확률분포 D로 표기한다.

 - 따라서, 데이터는 (x , y) ~ D로 표기한다. 데이터 (x , y)는 데이터 공간 상에서 관측가능한 데이터를 의미한다.

 

 

 

확률변수

 - 확률변수는 확률분포 D에 따라 이산형discrete 확률변수와 연속형continuous 확률변수로 구분한다(데이터공간에 의해 결정되는 것이 아님).

1. 이산형 확률변수

 - 확률변수가 가질 수 있는 모든 경우의 수의 합

이산형 확률변수

2. 연속형 확률변수

 - 데이터 공간에 정의된 확률변수의 밀도density를 적분한 것. why? => 정확한 확률을 구하는 것은 불가능하기 때문.

연속형 확률변수

 

 

 

확률분포

1. 결합분포(Joint distribution) P(x, y)

 - 전체 데이터 (x,y)가 주어진 상황에서 상정하는 확률분포

 - 결합분포 P(x, y)를 통해 원래 확률분포인 D를 모델링으로 구해낼 수 있음(D는 이론 확률분포이기 때문에, 사전에 알 수 없다). 

결합분포

 

2. 주변확률분포(Marginal distribution) P(x)

 - 결합분포 P(x, y)가 주어진 상황에서, 각각의 입력 x에 대한 y를 더해주거나(이산형) 적분해서(연속형) 얻어지는 확률분포.

 - 즉, 주변확률분포는 x에 대한 정보를 표현한 것.

주변확률분포를 그래프로 나타낸 것.

 

3. 조건부확률분포 P(x | y)

 - y가 주어진 상황에서의 x의 확률분포를 말한다.

 - 다시 말해 P(x | y)는 특정 클래스 y가 주어졌을 때 데이터의 확률분포라 할 수 있다.

 - 더 쉽게 말하자면, P(x | y)는 데이터 공간에서 입력 x와 출력 y 사이의 관계를 모델링하는 것.

조건부확률분포의 예시.  y = 1인 경우의 x의 확률분포

 

 

 

조건부확률과 기계학습

 - 조건부확률 P(y | x)는,

   1) 이산형 확률변수 : 입력변수가 x일 때 정답이 y일 확률(혹은 y가 발생할 확률)

   2) 연속형 확률변수 : 입력변수가 x일 때 정답이 y일 확률밀도(혹은 y가 발생할 확률밀도)

   를 의미한다.

 

 

 

기대값expectation

 - 기대값은 데이터를 대표하는 통계량이다.

 - 확률분포가 주어지면 데이터를 분석하는 데 사용 가능한 여러 통계함수statistical functional가 있는데,

 - 기대값은 확률분포를 통해 이 통계함수들을 계산하는 데에 사용된다.

기대값

 

 

 

몬테카를로 샘플링Monte Carlo Sampling

 - 기계학습의 여러 문제들은, 밀도함수나 질량함수 등의 확률분포를 모르는 경우가 대부분이다.

 - 하지만 이런 경우에 데이터 샘플링 하는 방법은 알고 있다, 라고 한다면 적분이나 summation 대신 데이터 샘플링으로 기대값을 계산할 수 있다.

 - 이럴 때 쓰는 데이터 샘플링 방법이 몬테카를로 샘플링이다.

몬테카를로 샘플링

 

 - 단 몬테카를로 샘플링은 각 샘플이 독립적이어야 한다는, 독립추출이 보장되어야 대수의 법칙law of large number 의해 수렴성이 보장된다.

 - 예시