내돈내산 강의 내용 정리
유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223
이전 포스팅 보러가기
[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 - 분포
표준편차Standard Deviation
여러 번 본 데이터다. 표준 편차를 설명하기 위해 고객 5명만 남겼다.
고객의 키를 살펴보자.
각각 68.7, 62.7, 77.9, 72, 66인치다.
자, 이 고객 5명의 키의 평균(Mean)값은?
(여러 평균이 있지만, 일반적으로 평균이라 함은 산술평균을 의미하므로, 산술 평균을 살펴볼 것이다)
$$Mean = \frac{68.7+62.7+77.9+72+66}{5} = 69.46$$
분산도 살펴보자.
분산Variance이 뭔가요? => 데이터들이 평균으로부터 흩어져 있는 정도를 나타내는 값이다
평균은 이미 구했는데, 평균만으로 분산 정도를 알 수 있을까?
예를 들어 어떤 5개 데이터의 평균이 100이라고 해 보자. 해당 데이터 5개가 전부 100일 수도 있고, 0, 200, 0, 200, 100일 수도 있다.
즉 평균만으로는 분산 정도를 알 수 없다.
그럼 어떻게 알 수 있을까?
편차를 이용해야 한다. 편차란, 각 데이터와 평균값의 차이를 말한다.
편차의 평균을 알면 분산을 알 수 있지 않을까?
위 데이터의 경우, 편차의 평균을 계산해보면 아래와 같다.
$$\frac{(68.7-69.46)+(62.7-69.46)+(77.9-69.46)+(72-69.46)+(66-69.46)}{5} = 0$$
어떤 데이터를 사용하던, 편차의 평균은 항상 0이 나온다.
그럼 어떡하면 좋은가?
첫 번째 방법 : 각 편차에 절대값을 씌운다.
=> 이는 미적분 등에 활용될 때 문제가 생길 수 있으므로, 장기적으로 좋은 방법이 아니라고 한다.
두 번째 방법 : 각 편차를 제곱한다
=> 이것이 분산의 수학적 정의다. 정리하자면,
=> 분산이라 함은 편차 제곱의 평균이다.
$$Variance = \sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}$$
자, 분산을 이렇게 정의해서 사용한다.
사용하긴 하는데, 불편한 점이 생긴다. 바로 '단위'다.
키의 단위는 인치cm다 => 키의 평균의 단위도 cm다 => 그런데 분산의 단위는 cm의 제곱이다??
데이터들이 평균과 얼마나 떨어져있는지를 알고 싶을 뿐인데, 단위가 제곱이 되어 버렸다.
이러한 이유로 분산에 제곱근을 취해 준 것이 등장하게 되니, 그것이 표준편차Standard Deviation다.
$$Standard_Deviation = \sqrt{\sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}} $$
이제 평균과 표준편차는 단위가 다시 동일하게 되어 서로 연산이 가능하게 되었고, 데이터들이 평균으로부터 어느 정도나 떨어졌는지를 나타낼 수 있게 되었다.
깔끔하게 정리해보자.
$$Mean : \mu=\sum_{i=1}^{N}\frac{x_i}{N}$$
$$Variance : \sigma = \sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}$$
$$Standard_Deviation : \sigma^2 = \sqrt{\sum_{i=1}^{N} \frac{(x_i-\mu)^2}{N}} $$
'STUDY > 확률과 통계' 카테고리의 다른 글
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도 (0) | 2024.06.15 |
---|---|
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (2) 분포 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (1) 연속 vs 불연속 (0) | 2024.06.14 |
[ProDS] 14. 모평균 비교에 관한 가설검정(independent two sample t-test) (0) | 2023.08.08 |