Processing math: 100%
본문 바로가기

STUDY/확률과 통계

[ProDS] 9. 수치적 기술통계 - 2) 연관성

본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다.

선형적 연관성

: 두 변수가 비례 혹은 반비례 관계인 경우, 선형적 연관성이 있다고 한다.

 

1) 선형적 연관성의 방향

출처 : https://towardsdatascience.com/correlation-coefficient-clearly-explained-f034d00b66ac

 

2) 선형석 연관성의 강도

출처 : https://www.displayr.com/what-is-correlation/

 

 

선형적 연관성 척도

- 표본 공분산SampleCovariance

  1) n쌍의 표본자료(x1,y1),,(xn,yn)이 주어졌을 때(예시 - 키,몸무게 쌍) sxy=i=1n(xix¯)(yiy¯)n1 

  2) 선형관계의 방향 : sxy>0양의 선형관계, sxy<0음의 선형관계

  3) 성질 : sxy 선형관계 없음,  |sxy| 선형관계 강도 커짐.

  4) 선형관계의 강도 : sxsysxysxsybyCauchySchwartz 부등식

  5) 표본 공분산은 xy의 측정 단위에 의존하는 지표다. 

      ex) x=ax+b,y=cy+d인 경우, sxy=acsxy

 

- 표본 상관계수(PearsonCorrelationCoefficient,PCC)

: 공분산을 표준편차의 곱으로 나눈 값이다. rxy=sxysxsy,1rxy1(sxsysxysxsy)

  1) 선형관계의 방향 : rxy>0 양의 상관관계, rxy 음의 상관관계

  2) 선형관계의 강도 : |rxy|0 약함,  $ \lvert r_{xy}\rvert \approx 1\to $ 강함

  3) 측정 단위에 의존하지 않는다.

      ex) x=ax+b,y=cy+d,ac>0rxy=rxy

 

- 순위를 이용한 상관계수

  1) 서열 척도이거나, 정규분포를 심하게 벗어나는 두 숫자의 연관성을 파악하는 데에 사용된다.

  2) 스피어만 상관계수SpearmansCorrelationCoefficient

      : 원래 자료의 순위에 대해 피어슨 상관계수를 구한 것이다. -1 ~ 1 사이 값을 가지며 절대값이 클 수록 상관관계도 크다.

  3) 켄달 상관계수KendallRankCorrelationCoefficient

     : 두 변수 순위의 일치 정도를 측정한다. 한 변수 순위의 변화가 다른 순위 변화와 비례하는 정도가 큰지, 반비례하는 정도가 큰지를 측정함.