본문 바로가기

STUDY/확률과 통계

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (3) 표준편차

내돈내산 강의 내용 정리

 

유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223

 

 

이전 포스팅 보러가기

[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 - 분포

 

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 - 분포

내돈내산 강의 내용 정리 유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223  이전 포스팅 보러가기[분류 전체보기] - 비즈니스

k-wien1589.tistory.com

 

 

 

표준편차Standard Deviation

 

가상의 은행 고객 데이터



여러 번 본 데이터다. 표준 편차를 설명하기 위해 고객 5명만 남겼다.

고객의 키를 살펴보자. 

 

각각 68.7, 62.7, 77.9, 72, 66인치다.

 

자, 이 고객 5명의 키의 평균(Mean)값은?

(여러 평균이 있지만, 일반적으로 평균이라 함은 산술평균을 의미하므로, 산술 평균을 살펴볼 것이다)

 

$$Mean = \frac{68.7+62.7+77.9+72+66}{5} = 69.46$$

 

 

분산도 살펴보자.

분산Variance이 뭔가요?  =>  데이터들이 평균으로부터 흩어져 있는 정도를 나타내는 값이다

 

평균은 이미 구했는데, 평균만으로 분산 정도를 알 수 있을까?

예를 들어 어떤 5개 데이터의 평균이 100이라고 해 보자. 해당 데이터 5개가 전부 100일 수도 있고, 0, 200, 0, 200, 100일 수도 있다.

즉 평균만으로는 분산 정도를 알 수 없다.

 

그럼 어떻게 알 수 있을까?

편차를 이용해야 한다. 편차란, 각 데이터와 평균값의 차이를 말한다.

 

편차의 평균을 알면 분산을 알 수 있지 않을까?

위 데이터의 경우, 편차의 평균을 계산해보면 아래와 같다.

$$\frac{(68.7-69.46)+(62.7-69.46)+(77.9-69.46)+(72-69.46)+(66-69.46)}{5} = 0$$

 

어떤 데이터를 사용하던, 편차의 평균은 항상 0이 나온다.

그럼 어떡하면 좋은가?

 

첫 번째 방법 : 각 편차에 절대값을 씌운다.

 => 이는 미적분 등에 활용될 때 문제가 생길 수 있으므로, 장기적으로 좋은 방법이 아니라고 한다.

 

두 번째 방법 : 각 편차를 제곱한다

 => 이것이 분산의 수학적 정의다. 정리하자면,

 => 분산이라 함은 편차 제곱의 평균이다.

 

$$Variance = \sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}$$

 

 

자, 분산을 이렇게 정의해서 사용한다.

사용하긴 하는데, 불편한 점이 생긴다. 바로 '단위'다.

 

키의 단위는 인치cm다  => 키의 평균의 단위도 cm다  => 그런데 분산의 단위는 cm의 제곱이다??

데이터들이 평균과 얼마나 떨어져있는지를 알고 싶을 뿐인데, 단위가 제곱이 되어 버렸다.

 

이러한 이유로 분산에 제곱근을 취해 준 것이 등장하게 되니, 그것이 표준편차Standard Deviation다.

 

$$Standard_Deviation = \sqrt{\sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}} $$

 

이제 평균과 표준편차는 단위가 다시 동일하게 되어 서로 연산이 가능하게 되었고, 데이터들이 평균으로부터 어느 정도나 떨어졌는지를 나타낼 수 있게 되었다.

 

깔끔하게 정리해보자.

 

$$Mean : \mu=\sum_{i=1}^{N}\frac{x_i}{N}$$

$$Variance : \sigma = \sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}$$

$$Standard_Deviation : \sigma^2 = \sqrt{\sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}} $$