본문 바로가기

STUDY/확률과 통계

(21)
[ProDS] 13. 모평균에 관한 가설검정(One sample t-test) 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 모평균에 관한 추론 - 모집단이 정규분포인 경우 표본평균의 표본분포 1) 모집단이 정규분포고 모분산 $\sigma^2$이 알려진 경우 $$\bar{X}\sim N[\mu,\, \frac{\sigma^2}{n}]$$ $$\Rightarrow Normalization \Rightarrow $$ $$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N[0,\, 1]$$ 2) 모집단이 정규분포고 모분산 $\sigma^2$이 알려지지 않은 경우 : $\sigma^2$를 모르므로, 그 값을 표본 표준편차 $S$로, $Z$를 $T$로 대체한다. $$ S = \sqrt{\frac{\sum_{i=1}^n(X_i- \bar{..
[ProDS] 12. 가설검정의 원리 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 통계적 가설검정 : 표본으로부터 주어지는 정보를 가지고 모수에 대한 가설(= 모수에 대한 예상, 주장, 추측 등)이 옳은지 그른지 판정하는 과정, 가설 1) 귀무가설($H_0$) : 사실로 알려져 있는 가설. 별 문제가 없는 한 나타날 것으로 예상되는 현상에 대한 기존의 입장. 2) 대립가설($H_1$) : 표본자료로부터 입증하고자 하는 가설 => 가설 검정은 표본의 정보가 귀무가설 $H_0$에 대한 충분한 반증이 되는가를 확인하는 것. 가설 유형 - 관심 모수가 $\mu$고, 검정하려는 모수의 경계값이 %\mu_0%일 때, 1) 왼꼬리 검정 - $H_0 : \mu = \mu_0,\; H_1 : \mu< \mu_0$ 2) 오른꼬리 검정 ..
[ProDS] 11. 점추정과 구간추정 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 추정$Estimation$ : 어떤 모집단의 모수를, 통계량의 값을 이용해서 맞추는 것을 말한다. - 추정량 : 모수 $\theta$의 추정에 사용되는 통계량을 $\theta$의 추정량이라 하고, $\hat{\theta}$로 표기한다. - 추정치 : 관찰된 표본자료로 추정량의 값을 계산하는 것. - 점추정$point\, estimation$ : 하나의 모수를 한 개의 값으로 추정하는 것. - 구간추정$interval\, estimation$ : 모수가 포함되어있을 것으로 예상되는 구간으로 모수를 추정하는 것. 신뢰구간$Confidence\, Interval$ : $\theta$의 추정량 $\hat{\theta}$을 변형한 $L$과 $U$..
[ProDS] 10. 통계적 추론 개요, 표본추출법 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 모집단의 분포와 확률표본 - 모집단의 변수(확률변수) $X$의 확률분포함수를 $f(x)$로 가정했을 때, $f(x)$로부터의 확률표본 $X_1,\, X_2,\, \cdots ,\, X_n$은 다음의 두 가지 성질을 만족하는 표본을 뜻한다. 1) $X_1,\, X_2,\, \cdots ,\, X_n$은 서로 독립이다. 2) $X_1,\, X_2,\, \cdots ,\, X_n$은 모두 $f(x)$의 분포를 따른다. 통계량과 표본분포 1) 통계량 : 확률표본 $X_1,\, X_2,\, \cdots ,\, X_n$의 함수. ex) 표본평균 $ \bar{X} = \sum_{i=1}^{n} \frac{X_i}{n},\quad E(\bar{X})=..
[ProDS] 9. 수치적 기술통계 - 2) 연관성 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 선형적 연관성 : 두 변수가 비례 혹은 반비례 관계인 경우, 선형적 연관성이 있다고 한다. 1) 선형적 연관성의 방향 2) 선형석 연관성의 강도 선형적 연관성 척도 - 표본 공분산$Sample\; Covariance$ 1) n쌍의 표본자료$(x_1,\, y_1), \cdots , (x_n,\, y_n)$이 주어졌을 때(예시 - 키,몸무게 쌍) $$s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$ 2) 선형관계의 방향 : $s_{xy}>0\to$양의 선형관계, $s_{xy}0\to$ 양의 상관관계, $r_{xy}\to$ 음의 상관관계 2) 선형관계의 강도 : $\lvert r_{..
[ProDS] 8. 수치적 기술통계 - 1) 위치, 변이, 모양통계량 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 중심위치척도 1) 평균$Mean$ : 표본자료 $x_1, \cdots , x_n$이 주어졌을 때 표본자료들의 평균은 아래와 같다. $$\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}$$ 2) 중앙값$Median$ : 표본자료 $x_1, \cdots , x_n$을 오름차순으로 정렬했을 때, 표본자료들의 중앙값은 아래와 같다. $$x_{med} = \begin{cases}(\frac{n+1}{2})_{th}\,x & n\; is\; odd\\Mean\;of\;(\frac{n}{2})_{th}\;x \;and\;(\frac{n}{2}+1)_{th}\;x & n\;is\;even\end{cases}$$ 3) 최빈값$Mode$..
[ProDS] 7. 그래프에 의한 기술통계 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 데이터 시각화 - 질적 자료(명목형, 순서형)인 경우 1) 변수 1개 : Bar chart, Pie chart ... 2) 변수 2개 사이의 연관성 : Heat map, Stacked column chart... - 양적(=숫자형) 자료(이산형 및 연속형) 1) 변수 1개 : Histogram, Box plot, Line chart, QQ plot 2) 변수 2개 사이의 연관성 : Scatter plot
[ProDS] 6. 카이제곱분포, t분포 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 카이제곱분포 1) 정의 : $Z_1,\, Z_2,\, \cdots Z_k$가 $k$개의 서로 독립인 표준정규확률변수라 할 때 $$X={Z_1}^2+{Z_2}^2+\cdots +{Z_k}^2$$ 가 따르는 분포를 자유도가 k인 카이제곱분포라 정의하며 확률분포함수는 $$ f(x)=\frac{1}{\Gamma(\frac{1}{2})2^{\frac{k}{2}}}x^{\frac{k}{2}-1}e^{-\frac{x}{2}}\quad (0C)=\alpha$를 만족하는 특정 값 $C$를 $(1-\alpha)$분위수라 하고, $t_{\alpha,\, k}$로 표기한다.