내돈내산 강의 내용 정리
유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223
이전 포스팅 보러가기
[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포
왜도Skewness(=편포도)
모든 분포 그래프가 정규분포처럼 중앙을 대칭으로 잘 빠진 것은 아니다.
아래처럼 한 쪽으로 치우친 분포 그래프들이 있다.
이렇게 한 쪽으로 치우친 그래프를 왜도(편포도)라 한다.
왼 쪽이 음(Left)의 왜도 혹은 좌측 편포, 오른쪽이 양(Right)의 왜도 혹은 우측 편포다.
그런데 혹?이 불룩 솟아 있는 곳을 보고 왼쪽을 양의 왜도, 오른쪽을 음의 왜도라고 헷갈려 하는 경우가 많다. 그래프가 왼쪽 오른쪽으로 끌려간 것 처럼 보여서 양의 왜도, 음의 왜도라고 생각하지만 그 반대다.
왼쪽 그래프는 꼬리가 왼쪽으로 길게 있어서 음의 왜도(좌측 편포),
오른쪽 그래프는 꼬리가 오른쪽으로 길게 있어서 양의 왜도(우측 편포)라고 부른다.
왜 이런 식으로 이름을 붙였을까?
꼬리의 방향과 이름의 방향이 같은 건 맞지만, 그에 따라 이름을 붙인 건 아니고 근본적인 이유는 따로 있다.
앞선 포스팅들에서 설명했듯 분포는 변수, 즉 데이터와 관련된다.
왼쪽 그래프의 경우, 꼬리가 왼쪽으로 길게 있다
=> 꼬리가 왼쪽으로 길게 있는 이유는, 해당 그래프 우측의 데이터들은 거의 정규 분포에 가까운 반면
=> 좌측의 데이터들은 정규분포라기엔 이상치(Outlier)가 많기 때문이다.
=> 좌측에 이상치가 많아서 음의 왜도(좌측 편포)라 부르는 것이다.
그리고, 이런 분포를 가진 데이터들로 그려진 그래프이니 왼쪽으로 길게 꼬리가 생기는 것이다.
정리하자면 이상치가 많은 쪽으로 이름을 붙이게 된 것인데, 이상치가 많은 쪽의 그래프는 정규분포가 아니기 때문에 길게 꼬리처럼 늘어지게 된 것.
오른쪽 그래프는 오른쪽에 이상치가 많은 데이터일 것이다. 예를 들면 소득 데이터 정도가 있을 수 있겠다.
저~중위 소득이 제일 많고 고소득으로 갈 수록 사람 수가 줄어들게 되니까.
'STUDY > 확률과 통계' 카테고리의 다른 글
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (7) 의류회사 Data Analyst의 Ad hoc 분석 (0) | 2024.06.15 |
---|---|
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (6) 평균, 중간값, 최빈값 (0) | 2024.06.15 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (3) 표준편차 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (2) 분포 (0) | 2024.06.14 |