통계 기초의 모든것
통계
- 데이터의 수집, 분석, 추론, 요약 등의 방법론
- Fields
- Design(설계/ 계획)
- Description(요약): 데이터를 요약 표현하기 위한 시각적(Graphical), 수치적(numerical) 방법
- Inference(추론) : 표본에 기반한 모집단에 대한 추론/예측
- 모집단(Population): 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합
- 모수(Parameter): 모집단에 대한 수치적 요약
- 표본(Sample): 모집단을 적절히 대표하는 모집단의 일부
- 통계량(Statistics): 표본에 대한 수치적 요약
sample statistics를 통해 population parameter을 추론하고 파악하는것이 통계학의 개념!!
자료의 종류
- 범주형 자료: 속성의 범주화, 상대적 서열도 표현
- 명목형 자료: 단순히 속성을 분류하기 위함(혈액형)
- 순서형 자료: 상대적인 크기 비교(만족도, 최종학력)
- 양적 자료: 자료자체가 숫자로 표현됨
- 이산형 자료: 셀 수 있는 자료(빈도수, 불량품의 수), countable
- 연속형 자료: 셀 수 없는 자료(길이, 시간), 범주화 했기 때문에 countable하지만 원래는 불가능
통계량 - 중심
- 최빈값(mode)
- 발생빈도가 가장 높은 값
- 극단값에 영향을 받지 않음
- 주로 범주형 자료에 대한 대표값
- 2개 이상 존재 가능
- 중앙값(mdeian)
- 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
- 관측값 변화에 민감하지 않음
- 극단값에 영향을 받지 않음
극단값: 나머지 데이터와 비교했을 때 눈에 띄게 다른, 비정상적으로 높거나 낮은 값
평균은 극단값에 민감하기 때문에 해당 데이터에선 중앙값을 사용하는 경우가 많다
- 산술 평균(Arithmetic Mean)
- 모든 자료의 값을 더하여 자료의 수로 나누어준 값
- 모든 값을 반영하므로 극단값에 영향을 받음
- 가중평균(Weighted Mean)
- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
평균(Mean) vs 평균값(Average)
통계학에서 “평균(Mean)”과 “평균값(Average)”은 종종 서로 바꿔 사용되지만, 미묘한 차이가 있다:
- 평균(Mean)은 특히 수학적 개념으로, 일반적으로 산술평균을 의미. 산술평균은 모든 값들의 합을 값들의 수로 나눈 것
- 반면에 평균값(Average)은 더 넓은 의미로 사용되며, 평균, 중앙값, 최빈값을 포함한 중심 경향의 모든 척도를 지칭
- “평균”은 평균값의 한 종류지만, 모든 평균값이 평균은 아니다. 예를 들어, 중앙값은 평균이 아닌 평균값이다
- 실제 사용에서, 특히 엄격한 통계적 맥락을 벗어난 경우에는 “평균값”이 일반적으로 산술평균을 가리키는 데 사용되지만, 혼동을 피하기 위해 맥락을 명확히 하는 것이 중요
- 기하 평균(Geometric Mean)
- 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 융용한 통계량
- 음수가 아닌 자료값로만 이루어짐
- ex) 연간 물가 상승률 \(\text{Geometric Mean} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}\) \(\text{Geometric Mean} = \sqrt[n]{x_1 \times x_2 \times \ldots \times x_n}\)
통계량 - 산포
- 분산(Variance)
- 편차 제곱의 합을 자료의 수로 나눈 값
- 표준편차(Standard Deviation)
- 분산을 제곱근한 값
분산과 표준편차 계산 시 분모에 사용되는
n
과n-1
의 차이
- 모집단 분산 (
n
사용):
- 전체 모집단 데이터에 대해 계산
- 실제 평균값(모평균)을 알고 있는 경우 사용
- 공식:
모분산 = Σ(x_i - μ)² / n
- 표본 분산 (
n-1
사용):
- 표본 데이터를 통해 모집단 분산 추정
- 표본 평균을 사용, 모집단 평균과의 차이 보정
- ‘자유도’와 관련, 평균 계산에서 1개 자유도 소비
- 불편 추정량으로 더 정확한 추정 제공
- 공식:
표본분산 = Σ(x_i - x̄)² / (n-1)
요약하면,
n
은 모집단 데이터를 정확히 알 때,n-1
은 표본 데이터로 모집단 추정 시 사용되며, 후자가 보다 정확한 추정을 제공