본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다.
선형적 연관성
: 두 변수가 비례 혹은 반비례 관계인 경우, 선형적 연관성이 있다고 한다.
1) 선형적 연관성의 방향
2) 선형석 연관성의 강도
선형적 연관성 척도
- 표본 공분산$Sample\; Covariance$
1) n쌍의 표본자료$(x_1,\, y_1), \cdots , (x_n,\, y_n)$이 주어졌을 때(예시 - 키,몸무게 쌍) $$s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$
2) 선형관계의 방향 : $s_{xy}>0\to$양의 선형관계, $s_{xy}<0\to$음의 선형관계
3) 성질 : $s_{xy}\to$ 선형관계 없음, $\lvert s_{xy} \rvert \uparrow \; \to $ 선형관계 강도 커짐.
4) 선형관계의 강도 : $-s_xs_y\leq s_{xy}\leq s_xs_y\quad by\; Cauchy-Schwartz$ 부등식
5) 표본 공분산은 $x$와 $y$의 측정 단위에 의존하는 지표다.
ex) $x'=ax+b,\, y'=cy+d$인 경우, $s_{x'y'}=ac\cdot s_{xy}$
- 표본 상관계수($Pearson\; Correlation\; Coefficient,\; PCC$)
: 공분산을 표준편차의 곱으로 나눈 값이다. $$r_{xy} = \frac{s_{xy}}{s_xs_y},\quad -1\leq r_{xy}\leq 1\,(\because -s_xs_y\leq s_{xy}\leq s_xs_y)$$
1) 선형관계의 방향 : $r_{xy}>0\to$ 양의 상관관계, $r_{xy}\to$ 음의 상관관계
2) 선형관계의 강도 : $\lvert r_{xy}\rvert \approx 0\to$ 약함, $ \lvert r_{xy}\rvert \approx 1\to $ 강함
3) 측정 단위에 의존하지 않는다.
ex) $x'=ax+b,\, y'=cy+d,\, ac>0 \quad \to \quad r_{x'y'}=r_{xy}$
- 순위를 이용한 상관계수
1) 서열 척도이거나, 정규분포를 심하게 벗어나는 두 숫자의 연관성을 파악하는 데에 사용된다.
2) 스피어만 상관계수$Spearman's\; Correlation\; Coefficient$
: 원래 자료의 순위에 대해 피어슨 상관계수를 구한 것이다. -1 ~ 1 사이 값을 가지며 절대값이 클 수록 상관관계도 크다.
3) 켄달 상관계수$Kendall\; Rank\; Correlation\; Coefficient$
: 두 변수 순위의 일치 정도를 측정한다. 한 변수 순위의 변화가 다른 순위 변화와 비례하는 정도가 큰지, 반비례하는 정도가 큰지를 측정함.
'STUDY > 확률과 통계' 카테고리의 다른 글
[ProDS] 11. 점추정과 구간추정 (0) | 2023.08.04 |
---|---|
[ProDS] 10. 통계적 추론 개요, 표본추출법 (0) | 2023.08.04 |
[ProDS] 8. 수치적 기술통계 - 1) 위치, 변이, 모양통계량 (0) | 2023.07.31 |
[ProDS] 7. 그래프에 의한 기술통계 (0) | 2023.07.31 |
[ProDS] 6. 카이제곱분포, t분포 (0) | 2023.07.31 |