통계 기초의 모든것

통계

데이터의 수집, 분석, 추론, 요약 등의 방법론
Fields
- Design(설계/ 계획)
- Description(요약): 데이터를 요약 표현하기 위한 시각적(Graphical), 수치적(numerical) 방법
- Inference(추론) : 표본에 기반한 모집단에 대한 추론/예측
모집단(Population): 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합
모수(Parameter): 모집단에 대한 수치적 요약
표본(Sample): 모집단을 적절히 대표하는 모집단의 일부
통계량(Statistics): 표본에 대한 수치적 요약

sample statistics를 통해 population parameter을 추론하고 파악하는것이 통계학의 개념!!

자료의 종류

범주형 자료: 속성의 범주화, 상대적 서열도 표현
- 명목형 자료: 단순히 속성을 분류하기 위함(혈액형)
- 순서형 자료: 상대적인 크기 비교(만족도, 최종학력)
양적 자료: 자료자체가 숫자로 표현됨
- 이산형 자료: 셀 수 있는 자료(빈도수, 불량품의 수), countable
- 연속형 자료: 셀 수 없는 자료(길이, 시간), 범주화 했기 때문에 countable하지만 원래는 불가능

통계량 - 중심

최빈값(mode)
- 발생빈도가 가장 높은 값
- 극단값에 영향을 받지 않음
- 주로 범주형 자료에 대한 대표값
- 2개 이상 존재 가능
중앙값(mdeian)
- 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
- 관측값 변화에 민감하지 않음
- 극단값에 영향을 받지 않음

극단값: 나머지 데이터와 비교했을 때 눈에 띄게 다른, 비정상적으로 높거나 낮은 값

평균은 극단값에 민감하기 때문에 해당 데이터에선 중앙값을 사용하는 경우가 많다

산술 평균(Arithmetic Mean)
- 모든 자료의 값을 더하여 자료의 수로 나누어준 값
- 모든 값을 반영하므로 극단값에 영향을 받음

\[\text{Arithmetic Mean} = \frac{\sum_{i=1}^{n} x_i}{n}\]

가중평균(Weighted Mean)
- 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균

\[\text{Weighted Mean} = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}\]

평균(Mean) vs 평균값(Average)
통계학에서 “평균(Mean)”과 “평균값(Average)”은 종종 서로 바꿔 사용되지만, 미묘한 차이가 있다:
평균(Mean)은 특히 수학적 개념으로, 일반적으로 산술평균을 의미. 산술평균은 모든 값들의 합을 값들의 수로 나눈 것
반면에 평균값(Average)은 더 넓은 의미로 사용되며, 평균, 중앙값, 최빈값을 포함한 중심 경향의 모든 척도를 지칭
“평균”은 평균값의 한 종류지만, 모든 평균값이 평균은 아니다. 예를 들어, 중앙값은 평균이 아닌 평균값이다
실제 사용에서, 특히 엄격한 통계적 맥락을 벗어난 경우에는 “평균값”이 일반적으로 산술평균을 가리키는 데 사용되지만, 혼동을 피하기 위해 맥락을 명확히 하는 것이 중요

기하 평균(Geometric Mean)
- 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 융용한 통계량
- 음수가 아닌 자료값로만 이루어짐
- ex) 연간 물가 상승률 \(\text{Geometric Mean} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}\) \(\text{Geometric Mean} = \sqrt[n]{x_1 \times x_2 \times \ldots \times x_n}\)

통계량 - 산포

분산(Variance)
- 편차 제곱의 합을 자료의 수로 나눈 값

\[\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}\]

표준편차(Standard Deviation)
- 분산을 제곱근한 값

\[\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}\]

분산과 표준편차 계산 시 분모에 사용되는 n과 n-1의 차이
모집단 분산 (n 사용):
전체 모집단 데이터에 대해 계산
실제 평균값(모평균)을 알고 있는 경우 사용
공식: 모분산 = Σ(x_i - μ)² / n
표본 분산 (n-1 사용):
표본 데이터를 통해 모집단 분산 추정
표본 평균을 사용, 모집단 평균과의 차이 보정
‘자유도’와 관련, 평균 계산에서 1개 자유도 소비
불편 추정량으로 더 정확한 추정 제공
공식: 표본분산 = Σ(x_i - x̄)² / (n-1)
요약하면, n은 모집단 데이터를 정확히 알 때, n-1은 표본 데이터로 모집단 추정 시 사용되며, 후자가 보다 정확한 추정을 제공

통계 기초의 모든것

통계 기초의 모든것

통계

자료의 종류

통계량 - 중심

평균(Mean) vs 평균값(Average)

통계량 - 산포

분산과 표준편차 계산 시 분모에 사용되는 n과 n-1의 차이

Further Reading

[ADsP] 데이터준분석가 자격증 _제1과목 데이터 이해

[ADsP] 데이터준분석가 자격증 _제2과목 데이터 분석 기획

ADSP 중요 포인트

분산과 표준편차 계산 시 분모에 사용되는 `n`과 `n-1`의 차이