본문 바로가기

STUDY/확률과 통계

비즈니스 분석 및 DS를 위한 핵심 통계학_분포 (1) 연속 vs 불연속

내돈내산 강의 내용 정리

 

유데미에서 아래 강의를 내돈주고 구매해서(할인이길래 냉큼 구매했다) 들으며, 강의 내용을 내 나름 정리해보고자 한다. 나중에 까먹었을 때 읽으면 바로바로 기억날 수 있게끔

 

강의 이름은, '비즈니스 분석 및 Data Science를 위한 핵심 통계학 A - Z' 이다
https://www.udemy.com/course/data-statistics/?couponCode=JUST4U02223

 

통계학 강의는, 이전에 ProDS 관련 통계 강의를 들었던 것 밖에 없는데, 그건 자격증을 위한 통계학 강의여서 깊이가 좀 얕다는 생각이 들었다. 

그리고, 통계학에 대한 필요성도 느끼고 있던 터라, 강의를 찾아보다 알게 되었다.

 

오늘부터 꾸준히 듣고, 정리하려 한다.

 

 

 

첫 번째 섹션 : 분포

 

연속Continuous VS 불연속Discrete

 

연속과 불연속에 대해 알아보자. 아래 데이터를 보자.

Chat GTP로 임의로 생성한 가상의 은행 고객 데이터이다.

(사담이지만, GPT 4o를 결제해서 쓰는 입장에서, 정말 좋다. 비싸긴 하지만..)

가상의 은행 고객 데이터

 

여러 컬럼과 데이터가 보인다.

 

연속은 뭐고 불연속은 뭘까? 말은 쉽지만 개념으로 정리해보는 것은 또 다르기도 하고, 분포를 다룰 때 아주 중요한 개념이므로 정리해보자.

 

연속과 불연속의 차이점은 변수(데이터)이다.

 

 - 연속 : 특정 범위 내에서 모든 값을 가질 수 있는(갖는) 데이터를 연속형 데이터라 한다. 위의 데이터에서는 키, 잔액, 식비 등이 연속변수라 할 수 있겠다. 키는 사람마다 모두 다르므로 누구는 77.4인치일 수 있고, 누구는 62.4852347 인치일 수도 있다. 잔액 또한 누군가는 백만달러일 수 있고, 누군가는 심지어 마이너스 통장을 갖고 있을 수도 있다.

 

 - 불연속 : 특정 값만 가질 수 있는 데이터를 불연속형 데이터라 한다. 위의 데이터에서는 나이, 성별, 지역, 직업 분류 등이 있겠다. 40.65살(물론 개월로 따지면 이렇게 나올 수도 있겠지만..)이란 나이는 있을 수 없고, 지역이나 직업을 0, 1, 2, ...의 숫자에 대응시켰을 때 2.5나 1.78등의 숫자를 가질 수는 없다.