본문 바로가기

STUDY/확률과 통계

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (6) 평균, 중간값, 최빈값

내돈내산 강의 내용 정리

 

유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223

 

 

이전 포스팅 보러가기

[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도

 

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도

내돈내산 강의 내용 정리 유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223  이전 포스팅 보러가기[STUDY/확률과 통계] - 비즈

k-wien1589.tistory.com

 

 

 

평균, 중간값, 최빈값

 

 

우측 왜도를 갖는 그래프의 최빈값, 중간값, 평균값

 

 

용어의 의미는 그리 어렵지 않다.

 

- 평균Mean : 산술평균 값

- 중간값Median : 전체 데이터 중 중간에 있는 값

- 최빈값Mode : 가장 많이 등장하는 값.

 

 

그래프에서 평균, 중간값, 최빈값을 찾을 때 다시 한 번 명심해야 할 것이 있다.

 

분포란, 그래프가 아닌 데이터 그 자체와 관련 있는 것이다.  분포를 알기 위해 분포도가 필요하지 않다.

데이터 자체에 분포가 있다. 그리고 그 분포를 따라 선을 그은 게 분포도이다.

 

최빈값이라고 해서 그래프 중간에 있을 것이라 생각한다거나, 가장 뾰족한 분에 있을 거라고 생각하면 안 된다는 것. 

 

예를 들어 아래와 같은 데이터가 있다고 해 보자.

 

[ 1, 1.5, 2, 3, 4, 5, 5, 5, 5, 7, 10, 10, 13, 17, 21, 25, 30, 37 ]

 

평균은 평균이다.

 

중간값은 전체 데이터 중 중간에 있는 값이라고 했다. 위처럼 데이터를 나열했을 때, 중복 포함해서 정확히 중간에 있는 값이다.

위 데이터셋의 개수는 짝수이므로, 중간에는 5와 7이 온다. 이런 경우엔 5와 7의 평균이 중간값이 되고, 개수가 홀수였다면 정확히 중간에 있는 값이 중간값이 된다.

 

최빈값은, 중복 포함해서 가장 많이 등장하는 값이다. 위 데이터셋에서의 최빈값은 5가 될 것이다.

 

그러므로, 양의 왜도를 가진 데이터셋의 그래프에서 평균, 중간값, 최빈값을 표시하면 대략 위쪽의 그림과 같은 위치에 표시될 것이다.  x축은 데이터고 y축은 데이터 갯수니까, 생각해 보면 저렇게 나온다는 것이 쉽게 이해 될 것이다.

 

* 평균은 이상치의 영향을 크게 받는 반면, 중간값은 이상치의 영향을 별로 받지 않는다. 데이터의 개수로 따지는게 중간값이니까.