본문 바로가기

STUDY/확률과 통계

[ProDS] 9. 수치적 기술통계 - 2) 연관성

본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다.

선형적 연관성

: 두 변수가 비례 혹은 반비례 관계인 경우, 선형적 연관성이 있다고 한다.

 

1) 선형적 연관성의 방향

출처 : https://towardsdatascience.com/correlation-coefficient-clearly-explained-f034d00b66ac

 

2) 선형석 연관성의 강도

출처 : https://www.displayr.com/what-is-correlation/

 

 

선형적 연관성 척도

- 표본 공분산$Sample\; Covariance$

  1) n쌍의 표본자료$(x_1,\, y_1), \cdots , (x_n,\, y_n)$이 주어졌을 때(예시 - 키,몸무게 쌍) $$s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$ 

  2) 선형관계의 방향 : $s_{xy}>0\to$양의 선형관계, $s_{xy}<0\to$음의 선형관계

  3) 성질 : $s_{xy}\to$ 선형관계 없음,  $\lvert s_{xy} \rvert \uparrow \; \to $ 선형관계 강도 커짐.

  4) 선형관계의 강도 : $-s_xs_y\leq s_{xy}\leq s_xs_y\quad by\; Cauchy-Schwartz$ 부등식

  5) 표본 공분산은 $x$와 $y$의 측정 단위에 의존하는 지표다. 

      ex) $x'=ax+b,\, y'=cy+d$인 경우, $s_{x'y'}=ac\cdot s_{xy}$

 

- 표본 상관계수($Pearson\; Correlation\; Coefficient,\; PCC$)

: 공분산을 표준편차의 곱으로 나눈 값이다. $$r_{xy} = \frac{s_{xy}}{s_xs_y},\quad -1\leq r_{xy}\leq 1\,(\because -s_xs_y\leq s_{xy}\leq s_xs_y)$$

  1) 선형관계의 방향 : $r_{xy}>0\to$ 양의 상관관계, $r_{xy}\to$ 음의 상관관계

  2) 선형관계의 강도 : $\lvert r_{xy}\rvert \approx 0\to$ 약함,  $ \lvert r_{xy}\rvert \approx 1\to $ 강함

  3) 측정 단위에 의존하지 않는다.

      ex) $x'=ax+b,\, y'=cy+d,\, ac>0 \quad \to \quad r_{x'y'}=r_{xy}$

 

- 순위를 이용한 상관계수

  1) 서열 척도이거나, 정규분포를 심하게 벗어나는 두 숫자의 연관성을 파악하는 데에 사용된다.

  2) 스피어만 상관계수$Spearman's\; Correlation\; Coefficient$

      : 원래 자료의 순위에 대해 피어슨 상관계수를 구한 것이다. -1 ~ 1 사이 값을 가지며 절대값이 클 수록 상관관계도 크다.

  3) 켄달 상관계수$Kendall\; Rank\; Correlation\; Coefficient$

     : 두 변수 순위의 일치 정도를 측정한다. 한 변수 순위의 변화가 다른 순위 변화와 비례하는 정도가 큰지, 반비례하는 정도가 큰지를 측정함.