내돈내산 강의 내용 정리
유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223
이전 포스팅 보러가기
[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도
평균, 중간값, 최빈값
용어의 의미는 그리 어렵지 않다.
- 평균Mean : 산술평균 값
- 중간값Median : 전체 데이터 중 중간에 있는 값
- 최빈값Mode : 가장 많이 등장하는 값.
그래프에서 평균, 중간값, 최빈값을 찾을 때 다시 한 번 명심해야 할 것이 있다.
분포란, 그래프가 아닌 데이터 그 자체와 관련 있는 것이다. 분포를 알기 위해 분포도가 필요하지 않다.
데이터 자체에 분포가 있다. 그리고 그 분포를 따라 선을 그은 게 분포도이다.
최빈값이라고 해서 그래프 중간에 있을 것이라 생각한다거나, 가장 뾰족한 분에 있을 거라고 생각하면 안 된다는 것.
예를 들어 아래와 같은 데이터가 있다고 해 보자.
[ 1, 1.5, 2, 3, 4, 5, 5, 5, 5, 7, 10, 10, 13, 17, 21, 25, 30, 37 ]
평균은 평균이다.
중간값은 전체 데이터 중 중간에 있는 값이라고 했다. 위처럼 데이터를 나열했을 때, 중복 포함해서 정확히 중간에 있는 값이다.
위 데이터셋의 개수는 짝수이므로, 중간에는 5와 7이 온다. 이런 경우엔 5와 7의 평균이 중간값이 되고, 개수가 홀수였다면 정확히 중간에 있는 값이 중간값이 된다.
최빈값은, 중복 포함해서 가장 많이 등장하는 값이다. 위 데이터셋에서의 최빈값은 5가 될 것이다.
그러므로, 양의 왜도를 가진 데이터셋의 그래프에서 평균, 중간값, 최빈값을 표시하면 대략 위쪽의 그림과 같은 위치에 표시될 것이다. x축은 데이터고 y축은 데이터 갯수니까, 생각해 보면 저렇게 나온다는 것이 쉽게 이해 될 것이다.
* 평균은 이상치의 영향을 크게 받는 반면, 중간값은 이상치의 영향을 별로 받지 않는다. 데이터의 개수로 따지는게 중간값이니까.
'STUDY > 확률과 통계' 카테고리의 다른 글
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (7) 의류회사 Data Analyst의 Ad hoc 분석 (0) | 2024.06.15 |
---|---|
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도 (0) | 2024.06.15 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (3) 표준편차 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (2) 분포 (0) | 2024.06.14 |