본문 바로가기

분류 전체보기

(184)
[데이터 과학을 위한 파이썬 프로그래밍_2판] 2. 변수와 자료형 이 챕터의 내용은 딱히 정리할 게 없으므로, 연습문제만 풀이하겠습니다. 1. 다음과 같은 코드 작성 시, 빈 칸에 들어갈 수 없는 코드를 고르시오 - 입력 a=20 b='10' print(빈칸) - 출력 True ① a = int(b) - 답 및 해설 ① a a는 int형, b는 str형 데이터이기 때문에 자료형을 서로 일치시키지 않으면 서로 비교할 수 없다. 2. 다음 중 변수를 메모리에서 삭제하기 위해 사용하는 명령어는? ① remove ② clear ③ del ④ pop ⑤ delete - 답 및 해설 ③ del a=3 print(a) del a print(a) 3 Traceback (most recent call last): File "C:\Users\quddu\workspace\a=3.py", ..
[ProDS] 14. 모평균 비교에 관한 가설검정(independent two sample t-test) 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 두 모집단의 모평균의 차이($\mu_1 - \mu_2$) - 두 모집단 $X,\, Y$는 아래 조건들을 만족한다. 1) 서로 독립이고 2) 등분산이며 3) 정규 모집단이다 $$X\sim N[\mu_1,\, {\sigma_1}^2],\quad Y\sim N[\mu_2,\, {\sigma_2}^2],\quad {\sigma_1}^2 = {\sigma_2}^2 = \sigma^2$$ 이 때, $\theta = \mu_1- \mu_2$에 관한 추론은 추정량 $\hat{\theta}=\bar{X_1}- \bar{X_2}$의 표본분포를 이용한다. $\bar{X_1}$ : 모집단 $X$의 표본평균, $\bar{X_2}$ : 모집단 $Y$의 표본평균 ..
[ProDS] 13. 모평균에 관한 가설검정(One sample t-test) 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 모평균에 관한 추론 - 모집단이 정규분포인 경우 표본평균의 표본분포 1) 모집단이 정규분포고 모분산 $\sigma^2$이 알려진 경우 $$\bar{X}\sim N[\mu,\, \frac{\sigma^2}{n}]$$ $$\Rightarrow Normalization \Rightarrow $$ $$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N[0,\, 1]$$ 2) 모집단이 정규분포고 모분산 $\sigma^2$이 알려지지 않은 경우 : $\sigma^2$를 모르므로, 그 값을 표본 표준편차 $S$로, $Z$를 $T$로 대체한다. $$ S = \sqrt{\frac{\sum_{i=1}^n(X_i- \bar{..
[ProDS] 12. 가설검정의 원리 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 통계적 가설검정 : 표본으로부터 주어지는 정보를 가지고 모수에 대한 가설(= 모수에 대한 예상, 주장, 추측 등)이 옳은지 그른지 판정하는 과정, 가설 1) 귀무가설($H_0$) : 사실로 알려져 있는 가설. 별 문제가 없는 한 나타날 것으로 예상되는 현상에 대한 기존의 입장. 2) 대립가설($H_1$) : 표본자료로부터 입증하고자 하는 가설 => 가설 검정은 표본의 정보가 귀무가설 $H_0$에 대한 충분한 반증이 되는가를 확인하는 것. 가설 유형 - 관심 모수가 $\mu$고, 검정하려는 모수의 경계값이 %\mu_0%일 때, 1) 왼꼬리 검정 - $H_0 : \mu = \mu_0,\; H_1 : \mu< \mu_0$ 2) 오른꼬리 검정 ..
[ProDS] 11. 점추정과 구간추정 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 추정$Estimation$ : 어떤 모집단의 모수를, 통계량의 값을 이용해서 맞추는 것을 말한다. - 추정량 : 모수 $\theta$의 추정에 사용되는 통계량을 $\theta$의 추정량이라 하고, $\hat{\theta}$로 표기한다. - 추정치 : 관찰된 표본자료로 추정량의 값을 계산하는 것. - 점추정$point\, estimation$ : 하나의 모수를 한 개의 값으로 추정하는 것. - 구간추정$interval\, estimation$ : 모수가 포함되어있을 것으로 예상되는 구간으로 모수를 추정하는 것. 신뢰구간$Confidence\, Interval$ : $\theta$의 추정량 $\hat{\theta}$을 변형한 $L$과 $U$..
[ProDS] 10. 통계적 추론 개요, 표본추출법 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 모집단의 분포와 확률표본 - 모집단의 변수(확률변수) $X$의 확률분포함수를 $f(x)$로 가정했을 때, $f(x)$로부터의 확률표본 $X_1,\, X_2,\, \cdots ,\, X_n$은 다음의 두 가지 성질을 만족하는 표본을 뜻한다. 1) $X_1,\, X_2,\, \cdots ,\, X_n$은 서로 독립이다. 2) $X_1,\, X_2,\, \cdots ,\, X_n$은 모두 $f(x)$의 분포를 따른다. 통계량과 표본분포 1) 통계량 : 확률표본 $X_1,\, X_2,\, \cdots ,\, X_n$의 함수. ex) 표본평균 $ \bar{X} = \sum_{i=1}^{n} \frac{X_i}{n},\quad E(\bar{X})=..
[ProDS] 9. 수치적 기술통계 - 2) 연관성 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 선형적 연관성 : 두 변수가 비례 혹은 반비례 관계인 경우, 선형적 연관성이 있다고 한다. 1) 선형적 연관성의 방향 2) 선형석 연관성의 강도 선형적 연관성 척도 - 표본 공분산$Sample\; Covariance$ 1) n쌍의 표본자료$(x_1,\, y_1), \cdots , (x_n,\, y_n)$이 주어졌을 때(예시 - 키,몸무게 쌍) $$s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$$ 2) 선형관계의 방향 : $s_{xy}>0\to$양의 선형관계, $s_{xy}0\to$ 양의 상관관계, $r_{xy}\to$ 음의 상관관계 2) 선형관계의 강도 : $\lvert r_{..
[ProDS] 8. 수치적 기술통계 - 1) 위치, 변이, 모양통계량 본 포스팅은 ProDS 필기 강의를 듣고 정리, 요약한 내용입니다. 중심위치척도 1) 평균$Mean$ : 표본자료 $x_1, \cdots , x_n$이 주어졌을 때 표본자료들의 평균은 아래와 같다. $$\bar{x} = \frac{\sum_{i=1}^{n}x_i}{n}$$ 2) 중앙값$Median$ : 표본자료 $x_1, \cdots , x_n$을 오름차순으로 정렬했을 때, 표본자료들의 중앙값은 아래와 같다. $$x_{med} = \begin{cases}(\frac{n+1}{2})_{th}\,x & n\; is\; odd\\Mean\;of\;(\frac{n}{2})_{th}\;x \;and\;(\frac{n}{2}+1)_{th}\;x & n\;is\;even\end{cases}$$ 3) 최빈값$Mode$..