통계학 - 서술형 대비 개념 정리
·
Statistics
신뢰구간(confidence interval) 모수를 추정하는데 이용되는 구간 가설검정(hypotheses testing) 모수에 대한 두 가지 가설 중 어느 가설이 타당한지 판단하는 방법 검정통계량(test statistic) 가설검정에 이용되는 통계량 기각역 귀무가설을 기각하게되는 관측값의 영역 오류 제1종 오류(type I error): 귀무가설이 참일 때, 귀무가설을 기각 제2종 오류(type II error): 대립가설이 참일 때, 귀무가설을 기각하지 못함 =>두 가지 오류를 범할 확률인 𝜶와 𝜷를 최소화하도록 기각역을 결정 유의확률(significance probability): p-value (p-값) 주어진 관측값에 대하여 귀무가설 𝑯𝟎를 기각하게 되는 최소의 유의수준 귀무가설 하에서 주어..
통계학 - 모비율에 대한 통계적 추론
·
Statistics
보호되어 있는 글입니다.
통계학 - 통계적 추론(표본의 크기가 클 때)
·
Statistics
통계적 추론 표본의 정보로부터 모집단의 특성을 추론 모수의 추정(estimation) ex. 점 추정, 구간 추정 모수에 대한 가설검정(hypothesis testing) 점추정(point estimation) 모수를 하나의 값으로 추정 모수: 모집단의 평균 𝝁 자료: 평균 𝝁, 표준편차 𝝈인 모집단에서 임의추출한 표본들 추정량: 모수를 추정하는데 이용하는 통계량 확률 변수이므로 모집단에서 관측된 자료에 따라 그 값이 달라질 수 있다. 추정하는 모수와 일치한다고 확신할 수 없다. 추정치: 표본을 이용하여 계산된 추정량의 값 표준오차: 추정치가 모수에 얼마나 가까운지 정확도를 측정하기 위한 도구 모집단의 표준편차 / 루트 표본의 크기 => 추정치와 그 정확도를 나타내는 표준오차를 함께 제시해야 의미가 있음..
통계학 - 표집분포
·
Statistics
모수 모집단의 특성을 나타내는 값 ex. 모평균, 모비율, 모표준편차... 추론 관측한 자료(표본)를 이용해 모집단(모수)에 대한 정보를 추측하는 과정 ex. 표본평균으로 모평균 추론 통계량 관측한 자료(표본)에 의해 결정되는 양. 추출된 표본에 따라 달라질 수 있음 ex. 표본평균, 표본분산... 표집분포 통계량의 확률분포 모집단의 분포와 표본의 크기에 영향을 받음 임의표본 모집단으로부터 임의추출된 크기가 𝒏인 표본 𝒏개의 표본들이 서로 독립이고 모집단의 분포와 같은 분포를 가지는 표본
통계학
·
Statistics
보호되어 있는 글입니다.
통계학 - 두 변수 자료의 요약
·
Statistics
분할표 두 변수가 모두 범주형인 경우 사용 산점도 두 변수가 모두 연속형인 경우 사용 표준상관계수(Pearson correlation) 산점도에서 점들이 얼마나 직선에 가까운지 나타냄 => 선형관계인가 아닌가 r = 두 변수의 편차들의 곱의 합 / 각각 편차들의 합 = 공분산 / 각각 변수의 표준편차 -1 < r < 1 r의 크기는 직선관계에 가까운 정도를 나타냄 r 값만 보고 선형관계가 무조건 크다 작다를 판별할 수 없음 상관계수가 크다고 해서 인과관계가 있다는 건 아니다! (잠재변수 고려해야 함) 심슨의 역설 각각의 변수를 고려하지 않고 전체 통계 결과만을 이용해 결론을 도출할 경우 발생할 수 있는 오류 평균의 함정: 처음 결과와 반대되는 역설적 상황 발생
통계학 - 수치를 통한 연속형 자료의 요약
·
Statistics
수치를 통한 연속형 자료의 요약 중심위치의 측도(자료가 어떤 값을 중심으로 분포되어 있는가?) - 평균, 중앙값, 최빈값 퍼진 정도의 측도(자료가 중심위치로부터 얼마나 흩어져 있는가?) ‐ 분산, 표준편차, 범위, 사분위수범위, 변동계수 평균 모든 관측값의 합을 자료의 개수로 나눈 것 주의: 극단적으로 크거나 작은 값에 영향 많이 받음 따라서 전체 관측값을 모두 포함하고 싶을 때 적절함 중앙값 자료를 크기 순으로 배열했을 때 가운데 위치하는 값 => 자료 개수가 짝수이면 가운데 두 값의 평균 내기 평균과 달리, 극단적인 값에 영향 받지 않음 최빈값 가장 자주 나오는 값 연속형 자료에서는 쓸 일이 없다 분산과 표준편차 (모집단) 편차의 제곱의 합 / n 표본분산과 표본표준편차 (표본집단) 편차의 제곱의 합..
통계학 - 표와 그림을 통한 자료의 요약 기초
·
Statistics
자료의 요약 방법 수치형(양적 자료): 관측되는 값이 수치로 측정됨. 자료의 크기 중요 => 연속, 이산 범주형(질적 자료): 관측되는 값이 범주로 나타남. 자료의 내용 중요 => 순위, 명목 범주형 자료 몇 개의 범주가 반복해서 나타남 전체 자료 중 각 범주에 속하는 자료의 횟수(도수)를 요약 순위형 자료: 범주 간 순서가 있음 ex. 평점, 선호도 명목형 자료: 순서의 의미가 없음 ex. 혈액형, 성별, 고향 등 범주형 자료의 요약 (1) 도수분포표 범주와 그에 대응하는 도수와 상대도수를 나열한 표 도수: 각 범주에 속하는 관측값의 "개수" 상대도수: 도수를 자료의 전체 개수로 나눈 "비율" 범주형 자료의 요약 (2) 원형그래프 원을 상대도수에 비례하도록 중심각을 나누어 파이 조각처럼 나타낸 것 장점..
통계학 - 결합분포
·
Statistics
결합확률분포 (joint pmf) 결합확률질량함수에 의해 변수가 두 개일 경우 주변확률분포 두 확률변수 중, 한 확률변수의 확률분포 X는 X끼리, Y는 Y끼리 따로 합을 구하기 결합누적분포 두 확률변수 𝑿, 𝒀 가 취하는 값에 대하여 𝑿와 𝒀가 그 값보다 작거나 같게 될 누적확률값을 대응시키는 함수 F(X, Y) 그냥 쉽게 결합확률분포 범위가 정해진 결합확률분포라고 생각하자. 공분산 𝑪𝒐𝒗(𝑿, 𝒀) 𝑪𝒐𝒗(𝑿, 𝒀) = = 𝑬(𝑿𝒀) − 𝑬(𝑿)𝑬(𝒀) 두 확률변수 𝑿와 𝒀가 어떤 관계를 가지며 변화하는지를 나타내는 척도 𝑿와 𝒀의 관계뿐만 아니라 퍼져 있는 정도에도 영향을 받음 𝑿와 𝒀의 단위에 영향을 받음 공분산이 양수: x가 증가할 때 y도 증가할 확률이 큼 공분산이 음수: x가 증가할 때 y는 ..
통계학 - 확률분포
·
Statistics
확률변수 표본공간의 각 결과(근원사건)에 실수 값을 대응시키는 함수 P(X=1), P(X=2)... 이산확률변수: 확률변수가 가질 수 있는 값의 수를 셀 수 있는 경우 연속확률변수: 확률변수가 어느 구간에 속하는 모든 값을 가질 수 있는 경우 확률분포 확률변수가 가질 수 있는 값과 그에 대응하는 확률을 나타낸 것 => 확률분포표로 정리 확률 히스토그램: 확률분포를 막대그래프로 확률질량함수(pmf) 𝒇(𝒙) = 𝑷(𝑿 = 𝒙i) 확률변수 𝑿가 값 𝒙를 갖게 되는 확률 𝑷(𝑿 = 𝒙) 누적분포함수(cdf) 이산확률변수 𝑿가 가질 수 있는 값 𝒙보다 작거나 같은 누적확률값 𝑷(𝑿 ≤ 𝒙) 를 대응시키는 함수 그냥 쉽게 범위가 정해진 확률질량함수라고 생각하자. 누적분포함수를 활용해 확률을 더 쉽게 구할 수 있음..
통계학 - 확률
·
Statistics
확률 어떤 사건이 일어날 가능성을 0~1 사이의 값으로 나타내는 것. ex. 동전을 두 번 던지는 실험에서 앞면이 1번 나올 확률 확률 기본 용어 정리 표본공간: 실험에서 일어날 수 있는 모든 결과들의 집합 ex. {HH, HT, TH, TT} = 1 근원사건: 실험에서 일어날 수 있는 개개의 결과 ex. w1=HH, w2=HT, w3=TH, w4=TT 사건: 어떤 특성에 대한 결과들의 집합 (표본공간의 부분집합) ex. 앞면이 1번 나오는 사건 = {HT, TH} P(A): 사건 A가 발생할 확률 ex. 앞면이 1번 나올 확률 = 0.5 여사건: 사건에 포함되지 않은 근원사건들의 모임 합사건: 두 사건에 모두 포함되는 근원사건들의 모임 곱사건: 두 사건에 동시에 포함되는 근원사건들의 모임 배반사건: 두..