내돈내산 강의 내용 정리
유데미의 '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z'
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223
이전 포스팅 보러가기
[STUDY/확률과 통계] - 비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (6) 평균, 중간값, 최빈값
Quiz!
퀴즈도 있을 줄 몰랐다.
배운걸 써먹어볼 수 있겠다 싶어 오히려 좋아 라 생각했다.
요새 말로는 럭키비키라고 하던가??
You are an Analyst working for a clothes company.
The company is developing a new line of clothes for tall people.
Your team is analyzing the viability of the project from a sales perspective and your manager has asked you to assist with some input variables to help test the financial forecast.
You need two distributions.
- A normal distributions of 1,000 observations for heights of men / women in the U.S
Also, for each of the two populations you've been asked to ientify the minimum height of 2.2% of the tallest people in that population .
In the U.S, men's μ : 69.1 inches, σ : 2.9 inches / women's heights μ : 63.7 inches, σ : 2.7 inches
..........
해석해보면 이렇다.
의류 회사의 데이터 분석가인 본인은, 회사에서 개발중인 키 큰 사람들을 위한 의류 라인을 위한 ad hoc 분석 요청을 받았다.
첫 번째는, 미국 남성과 여성의 키에 대한, 정규분포를 따르는 1,000개 데이터
두 번째는, 해당 분포에서 남성 여성 키의 상위 2.2% 내에서 가장 작은 키(=> 딱 상위 2.2%의 키를 구하면 될 것이다)
그리고, 주어진 정보가 있다.
미국 남성의 평균 키는 69.1인치고 표준편차는 2.9인치 / 미국 여성의 평균 키는 63.7인치고 표준편차는 2.7인치
이 문제는 어떻게 풀 수 있을까?
엑셀 활용
사람의 키 데이터니까, 그 분포가 정규분포를 따른다고 가정하자. 아마 그럴 것이다.
정규분포 곡선에 대해서 기억하고 계시는지?
본인은 그새 까먹어서, 들고와봤다.
저기, 상위 2.1%가 보이는가? 2.2%와 0.1% 차이밖에 나지 않는다. 그리고 이미 표준편차는 알고 있다.
즉, 정확하게 2.1%는 아니어도, 정규분포도 만으로 상위 2.2%에 해당하는 사람의 키를 알 수 있다. 평균값에서 2시그마 정도만 더해주면 되는 것이다.
남자와 여자 키의 상위 2.2%에 해당하는 사람들의 키는 각각 74.9인치, 69.1인치가 나온다.
이렇게도 구할 수 있지만, 엑셀로도 구할 수 있다.
norm.inv함수를 활용한다.
norm.inv함수의 설명을 보면 이렇게 써 있다. '지정한 평균과 표준편차에 의거하여 정규 누적 분포의 역함수 값을 구합니다'
말이 좀 어렵게 써 있는 것 같은데, 쉽게 말하자면 위에서 정규분포 그래프에서 확인 후 계산했던 값을 반환한다는 얘기다.
단, 확률은 0 ~ 1 사이 값으로 입력해야 한다. 예를 들어 하위 10%는 0.1, 상위 2.2%는 0.987.
좀 더 설명해보자면(사실 본인이 헷갈려서 써놓는 설명이다) 74.9인치가 상위 2.2%라는 것은, 데이터를 무작위로 1000번 뽑았을 때 22개의 데이터만 74.9인치보다 큰 데이터라는 것이다. 혹은, 74.9인치보다 큰 데이터를 뽑을 확률이 2.2%라는 것이다.
이제 이 정보들을 가지고, 남성과 여성 각각 1000개의 데이터를 만들어 볼 것이다.
norm.inv함수를 갖다가 하나의 값을 만들고(확률 부분은 rand()를 넣어준다), 아래로 쭉 내려주면 된다. 1000개가 될 때까지.
이렇게, 남성과 여성 각각의 평균과 표준편차를 갖는, 정규분포를 따르는 1000개의 데이터를 만들었다.
자, 이렇게 ad hoc 요청으로 받은 데이터는 다 구했다. 그런데, 본인은 데이터 분석가가 아니던가?
데이터만 달랑 주면 보고 받는 입장에선 뭐쩌라는 건가 싶을 테니, 당연히 이해하기 쉬운 부가 시각화 자료 또한 제공해야 한다.
엑셀에선 차트나 그래프 등도 간편하게 만들어볼 수 있다.
본인은 구간(bin)을 활용한 히스토그램을 활용해 볼 것이다.
우선 구간을 설정해준다. 본인이 설정한 구간은 남/여 공통으로 사용할 것이고, 50부터 100까지 0.5 간격을 갖는 구간들을 설정했다.
설정해 두고, 이제 남/여 데이터의 히스토그램을 그리면 된다. 엑셀에선 간단하게 그려볼 수 있다.
화면 상단에 데이터 탭을 선택하면, 우측에 데이터 분석이라는 메뉴가 있다. 눌러준다.
거기서 굉장히 많은 분석 방법을 선택할 수 있는데, 히스토그램을 선택해준 후
입력 범위에는 히스토그램에 나타낼 데이터가 입력된 범위를, 계급 구간에는 bin이 입력된 범위를 넣어주자.
출력을 동 시트에 하고 싶다면 바로 출력 범위 옵션을 선택한 후, 결과를 어느 셀에서부터 출력할지 선택해주자.
그리고 마지막으로 차트 출력을 눌러주면, 데이터를 각 bin에 할당한 결과와 그로부터 그려지는 히스토그램이 출력된다.
같은 방식으로 여성 키 데이터에 대한 히스토그램도 그려보자.
이렇게 남/여 데이터를 히스토그램으로 나타내어, 정규분포 그래프를 그렸다.
이렇게 되어 있으니 어느 정도로 차이가 나는지 한 눈에 알기가 어렵다. 겹쳐보자.
남성 히스토그램 차트에서, 차트 필터를 선택하면 하단에 데이터 선택 메뉴가 보인다. 눌러보자.
남성 키의 데이터 범례 이름이 '빈도수'로 되어 있다. 남성 키 정도로 바꿔주자.
바꿔준 후 추가를 선택해서, 여성 키 데이터도 추가하자. 범례 이름은 여성 키 정도면 되겠다.
계열 값에는 이전에 생성한 여성 키 히스토그램 데이터의 빈도 수가 입력되어 있는 범위를 입력해주면 된다.
다 추가해준 후 확인을 누르면.. 아래와 같이 두 히스토그램이 하나로 합쳐지고 범례도 잘 구분되어 있는 것을 볼 수 있다.
자, 이 정도면 됐다 싶지만 한 가지 더 업그레이드 해줄 수 있는 부분이 있다.
norm.inv함수를 이용해 1000개의 정규분포 데이터를 생성할 때, 확률을 rand()로 넣었던 것을 기억하시는가?
그 덕에, 아무 셀이나 누를 때마다 남/녀 각각의 데이터가 바뀌는 것을 볼 수 있을 것이다.
그 때마다 히스토그램도 바뀌는가? 해 보면 알겠지만, 아니다! 히스토그램은 이미 생성되어있어서 바뀌지 않는다.
그런데, 실무에서 분석을 한다고 해 보자.
데이터는 당연히 계속 바뀌거나 업데이트 되어야 할 것이다. 고객이 추가되거나 없어질 수 있으니까.
그렇다면, 역시나 당연하게도 그로부터 만들어지는 그래프도 업데이트 되어야 할 것인데, 지금은 그렇지 못하잖은가.
히스토그램도 같이 업데이트 되도록 만들어 볼 것이다.
그리고, 엑셀 말고 파이썬으로도 동일한 분석을 해 볼 것이다.
지금 당장은 아니고, 다음 포스팅에서!
아니면 여기까지 써 두고 다음에 이 아래부터 추가해서 적을 수도 있고... 뭐 그렇다.
일단 오늘은 여기까지만 포스팅 하겠다는 말이다..ㅎㅎ
'STUDY > 확률과 통계' 카테고리의 다른 글
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (6) 평균, 중간값, 최빈값 (0) | 2024.06.15 |
---|---|
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (5) 왜도 (0) | 2024.06.15 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (4) 정규분포 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (3) 표준편차 (0) | 2024.06.14 |
비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (2) 분포 (0) | 2024.06.14 |