본문 바로가기

STUDY/확률과 통계

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도

내돈내산 강의 내용 정리

 

유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223

 

 

이전 포스팅 보러가기

[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포

 

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포

내돈내산 강의 내용 정리 유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223  이전 포스팅 보러가기[STUDY/확률과 통계] - 비즈

k-wien1589.tistory.com

 

 

 

 

왜도Skewness(=편포도)

 

모든 분포 그래프가 정규분포처럼 중앙을 대칭으로 잘 빠진 것은 아니다.

아래처럼 한 쪽으로 치우친 분포 그래프들이 있다.

이렇게 한 쪽으로 치우친 그래프를 왜도(편포도)라 한다.

 

 

음(Left)의 왜도, 양(Right)의 왜도

 

 

왼 쪽이 음(Left)의 왜도 혹은 좌측 편포, 오른쪽이 양(Right)의 왜도 혹은 우측 편포다.

 

그런데 혹?이 불룩 솟아 있는 곳을 보고 왼쪽을 양의 왜도, 오른쪽을 음의 왜도라고 헷갈려 하는 경우가 많다. 그래프가 왼쪽 오른쪽으로 끌려간 것 처럼 보여서 양의 왜도, 음의 왜도라고 생각하지만 그 반대다.

 

왼쪽 그래프는 꼬리가 왼쪽으로 길게 있어서 음의 왜도(좌측 편포),

오른쪽 그래프는 꼬리가 오른쪽으로 길게 있어서 양의 왜도(우측 편포)라고 부른다.

 

왜 이런 식으로 이름을 붙였을까?

꼬리의 방향과 이름의 방향이 같은 건 맞지만, 그에 따라 이름을 붙인 건 아니고 근본적인 이유는 따로 있다. 

 

 

앞선 포스팅들에서 설명했듯 분포는 변수, 즉 데이터와 관련된다.

 

왼쪽 그래프의 경우, 꼬리가 왼쪽으로 길게 있다

=> 꼬리가 왼쪽으로 길게 있는 이유는, 해당 그래프 우측의 데이터들은 거의 정규 분포에 가까운 반면

=> 좌측의 데이터들은 정규분포라기엔 이상치(Outlier)가 많기 때문이다.

=> 좌측에 이상치가 많아서 음의 왜도(좌측 편포)라 부르는 것이다.

그리고, 이런 분포를 가진 데이터들로 그려진 그래프이니 왼쪽으로 길게 꼬리가 생기는 것이다.

 

정리하자면 이상치가 많은 쪽으로 이름을 붙이게 된 것인데, 이상치가 많은 쪽의 그래프는 정규분포가 아니기 때문에 길게 꼬리처럼 늘어지게 된 것.

 

 

오른쪽 그래프는 오른쪽에 이상치가 많은 데이터일 것이다. 예를 들면 소득 데이터 정도가 있을 수 있겠다.

저~중위 소득이 제일 많고 고소득으로 갈 수록 사람 수가 줄어들게 되니까.