수치를 통한 연속형 자료의 요약
- 중심위치의 측도(자료가 어떤 값을 중심으로 분포되어 있는가?) - 평균, 중앙값, 최빈값
- 퍼진 정도의 측도(자료가 중심위치로부터 얼마나 흩어져 있는가?) ‐ 분산, 표준편차, 범위, 사분위수범위, 변동계수
평균
모든 관측값의 합을 자료의 개수로 나눈 것
주의: 극단적으로 크거나 작은 값에 영향 많이 받음
따라서 전체 관측값을 모두 포함하고 싶을 때 적절함
중앙값
자료를 크기 순으로 배열했을 때 가운데 위치하는 값 => 자료 개수가 짝수이면 가운데 두 값의 평균 내기
평균과 달리, 극단적인 값에 영향 받지 않음
최빈값
가장 자주 나오는 값
연속형 자료에서는 쓸 일이 없다
분산과 표준편차 (모집단)
편차의 제곱의 합 / n

표본분산과 표본표준편차 (표본집단)
편차의 제곱의 합 / n-1 (편차 제곱합의 자유도)

범위
최댓값 – 최솟값
백분위수
관측값을 작은 것부터 크기 순으로 배열하였을 때, 자료의 (𝟏𝟎𝟎×𝒑)%에 위치한 값
𝒏𝒑가 정수이면, 𝒏𝒑번째 값과 (𝒏𝒑 + 𝟏)번째 값의 평균,
만약 𝒏𝒑가 정수가 아니면, [𝒏𝒑 + 𝟏]번째 값
ex. 1, 2, 4, 6, 8,의 제 30분위 수: 𝒏𝒑 = 1.5, 𝒏(𝟏−𝒑) = 3.5 => 2
사분위수
자료를 크기 순으로 배열할 때 전체를 사등분하는 값
사분위수범위(IQR): 제3 사분위수 – 제1 사분위수
제1 사분위수(𝑸𝟏) = 제25 백분위수 (25%)
제2 사분위수(𝑸𝟐) = 제50 백분위수 (50%) = 중앙값
제3 사분위수(𝑸𝟑) = 제75 백분위수 (75%)
변동계수(CV)
표본평균에 대한 상대적인 퍼진 정도를 백분율(%)로 나타낸 값
자료의 단위에 영향을 받지 않고 상대적인 측도가 필요할 경우 사용
𝑪𝑽 = 표준편차/평균 × 100
상자그림
- 사분위수(𝑸𝟏, 𝑸𝟐, 𝑸𝟑)와 사분위수범위(𝑰𝑸𝑹) 계산
- 𝑸𝟏과 𝑸𝟑를 상자로 연결하고, 𝑸𝟐의 위치에 수직선을 그음
- 상자의 양 끝에서 𝟏. 𝟓 × 𝑰𝑸𝑹 크기의 범위를 경계로 하여, 이 범위에 포함되는 최솟값과 최댓값을 𝑸𝟏과 𝑸𝟑로부터 선으로 연결 (𝑸𝟏 − 𝟏. 𝟓 × 𝑰𝑸𝑹 ~ 𝑸𝟑 + 𝟏. 𝟓 × 𝑰𝑸𝑹)
- 양 경계로부터 벗어난 자료의 값을 *로 표시(이상점, outlier)

도수분포표
계급구간의 중간값과 도수를 이용하여 평균과 표준편차 계산
'Statistics' 카테고리의 다른 글
통계학 (0) | 2022.04.16 |
---|---|
통계학 - 두 변수 자료의 요약 (0) | 2022.04.12 |
통계학 - 표와 그림을 통한 자료의 요약 기초 (0) | 2022.04.12 |
통계학 - 결합분포 (0) | 2022.04.12 |
통계학 - 확률분포 (0) | 2022.04.12 |