비즈니스 분석 및 DS를 위한 핵심 통계학

내돈내산 강의 내용 정리

유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223

이전 포스팅 보러가기

[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 - 분포

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 - 분포

내돈내산 강의 내용 정리 유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223 이전 포스팅 보러가기[분류 전체보기] - 비즈니스

k-wien1589.tistory.com

표준편차Standard Deviation

여러 번 본 데이터다. 표준 편차를 설명하기 위해 고객 5명만 남겼다.

고객의 키를 살펴보자.

각각 68.7, 62.7, 77.9, 72, 66인치다.

자, 이 고객 5명의 키의 평균(Mean)값은?

(여러 평균이 있지만, 일반적으로 평균이라 함은 산술평균을 의미하므로, 산술 평균을 살펴볼 것이다)

$$Mean = \frac{68.7+62.7+77.9+72+66}{5} = 69.46$$

분산도 살펴보자.

분산Variance이 뭔가요? => 데이터들이 평균으로부터 흩어져 있는 정도를 나타내는 값이다

평균은 이미 구했는데, 평균만으로 분산 정도를 알 수 있을까?

예를 들어 어떤 5개 데이터의 평균이 100이라고 해 보자. 해당 데이터 5개가 전부 100일 수도 있고, 0, 200, 0, 200, 100일 수도 있다.

즉 평균만으로는 분산 정도를 알 수 없다.

그럼 어떻게 알 수 있을까?

편차를 이용해야 한다. 편차란, 각 데이터와 평균값의 차이를 말한다.

편차의 평균을 알면 분산을 알 수 있지 않을까?

위 데이터의 경우, 편차의 평균을 계산해보면 아래와 같다.

$$\frac{(68.7-69.46)+(62.7-69.46)+(77.9-69.46)+(72-69.46)+(66-69.46)}{5} = 0$$

어떤 데이터를 사용하던, 편차의 평균은 항상 0이 나온다.

그럼 어떡하면 좋은가?

첫 번째 방법 : 각 편차에 절대값을 씌운다.

=> 이는 미적분 등에 활용될 때 문제가 생길 수 있으므로, 장기적으로 좋은 방법이 아니~~라고 한~~다.

두 번째 방법 : 각 편차를 제곱한다

=> 이것이 분산의 수학적 정의다. 정리하자면,

=> 분산이라 함은 편차 제곱의 평균이다.

$$Variance = \sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}$$

자, 분산을 이렇게 정의해서 사용한다.

사용하긴 하는데, 불편한 점이 생긴다. 바로 '단위'다.

키의 단위는 인치cm다 => 키의 평균의 단위도 cm다 => 그런데 분산의 단위는 cm의 제곱이다??

데이터들이 평균과 얼마나 떨어져있는지를 알고 싶을 뿐인데, 단위가 제곱이 되어 버렸다.

이러한 이유로 분산에 제곱근을 취해 준 것이 등장하게 되니, 그것이 표준편차Standard Deviation다.

$$Standard_Deviation = \sqrt{\sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}} $$

이제 평균과 표준편차는 단위가 다시 동일하게 되어 서로 연산이 가능하게 되었고, 데이터들이 평균으로부터 어느 정도나 떨어졌는지를 나타낼 수 있게 되었다.

깔끔하게 정리해보자.

$$Mean : \mu=\sum_{i=1}^{N}\frac{x_i}{N}$$

$$Variance : \sigma = \sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}$$

$$Standard_Deviation : \sigma^2 = \sqrt{\sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}} $$

'STUDY > 확률과 통계' 카테고리의 다른 글

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도 (0)	2024.06.15
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포 (0)	2024.06.14
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (2) 분포 (0)	2024.06.14
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (1) 연속 vs 불연속 (0)	2024.06.14
[ProDS] 14. 모평균 비교에 관한 가설검정(independent two sample t-test) (0)	2023.08.08

Wien's 工夫

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (3) 표준편차

표준편차Standard Deviation

'STUDY > 확률과 통계' 카테고리의 다른 글

티스토리툴바

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (3) 표준편차

표준편차Standard Deviation

'STUDY > 확률과 통계' 카테고리의 다른 글

'STUDY/확률과 통계' Related Articles

티스토리툴바