Home 통계 기초의 모든것
Post
Cancel

통계 기초의 모든것

통계 기초의 모든것

통계

  • 데이터의 수집, 분석, 추론, 요약 등의 방법론
  • Fields
    • Design(설계/ 계획)
    • Description(요약): 데이터를 요약 표현하기 위한 시각적(Graphical), 수치적(numerical) 방법
    • Inference(추론) : 표본에 기반한 모집단에 대한 추론/예측
  • 모집단(Population): 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합
  • 모수(Parameter): 모집단에 대한 수치적 요약
  • 표본(Sample): 모집단을 적절히 대표하는 모집단의 일부
  • 통계량(Statistics): 표본에 대한 수치적 요약

sample statistics를 통해 population parameter을 추론하고 파악하는것이 통계학의 개념!!

자료의 종류

  1. 범주형 자료: 속성의 범주화, 상대적 서열도 표현
    • 명목형 자료: 단순히 속성을 분류하기 위함(혈액형)
    • 순서형 자료: 상대적인 크기 비교(만족도, 최종학력)
  2. 양적 자료: 자료자체가 숫자로 표현됨
    • 이산형 자료: 셀 수 있는 자료(빈도수, 불량품의 수), countable
    • 연속형 자료: 셀 수 없는 자료(길이, 시간), 범주화 했기 때문에 countable하지만 원래는 불가능

통계량 - 중심

  1. 최빈값(mode)
    • 발생빈도가 가장 높은 값
    • 극단값에 영향을 받지 않음
    • 주로 범주형 자료에 대한 대표값
    • 2개 이상 존재 가능
  2. 중앙값(mdeian)
    • 크기 순으로 정렬된 자료에서 가운데에 위치하는 값
    • 관측값 변화에 민감하지 않음
    • 극단값에 영향을 받지 않음

극단값: 나머지 데이터와 비교했을 때 눈에 띄게 다른, 비정상적으로 높거나 낮은 값

평균은 극단값에 민감하기 때문에 해당 데이터에선 중앙값을 사용하는 경우가 많다

  1. 산술 평균(Arithmetic Mean)
    • 모든 자료의 값을 더하여 자료의 수로 나누어준 값
    • 모든 값을 반영하므로 극단값에 영향을 받음
\[\text{Arithmetic Mean} = \frac{\sum_{i=1}^{n} x_i}{n}\]
  1. 가중평균(Weighted Mean)
    • 자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균
\[\text{Weighted Mean} = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i}\]

평균(Mean) vs 평균값(Average)

통계학에서 “평균(Mean)”과 “평균값(Average)”은 종종 서로 바꿔 사용되지만, 미묘한 차이가 있다:

  • 평균(Mean)은 특히 수학적 개념으로, 일반적으로 산술평균을 의미. 산술평균은 모든 값들의 합을 값들의 수로 나눈 것
  • 반면에 평균값(Average)은 더 넓은 의미로 사용되며, 평균, 중앙값, 최빈값을 포함한 중심 경향의 모든 척도를 지칭
  • “평균”은 평균값의 한 종류지만, 모든 평균값이 평균은 아니다. 예를 들어, 중앙값은 평균이 아닌 평균값이다
  • 실제 사용에서, 특히 엄격한 통계적 맥락을 벗어난 경우에는 “평균값”이 일반적으로 산술평균을 가리키는 데 사용되지만, 혼동을 피하기 위해 맥락을 명확히 하는 것이 중요
  1. 기하 평균(Geometric Mean)
    • 자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 융용한 통계량
    • 음수가 아닌 자료값로만 이루어짐
    • ex) 연간 물가 상승률 \(\text{Geometric Mean} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}\) \(\text{Geometric Mean} = \sqrt[n]{x_1 \times x_2 \times \ldots \times x_n}\)

통계량 - 산포

  1. 분산(Variance)
    • 편차 제곱의 합을 자료의 수로 나눈 값
\[\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}\]
  1. 표준편차(Standard Deviation)
    • 분산을 제곱근한 값
\[\text{Standard Deviation} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}\]

분산과 표준편차 계산 시 분모에 사용되는 nn-1의 차이

  1. 모집단 분산 (n 사용):
    • 전체 모집단 데이터에 대해 계산
    • 실제 평균값(모평균)을 알고 있는 경우 사용
    • 공식: 모분산 = Σ(x_i - μ)² / n
  2. 표본 분산 (n-1 사용):
    • 표본 데이터를 통해 모집단 분산 추정
    • 표본 평균을 사용, 모집단 평균과의 차이 보정
    • ‘자유도’와 관련, 평균 계산에서 1개 자유도 소비
    • 불편 추정량으로 더 정확한 추정 제공
    • 공식: 표본분산 = Σ(x_i - x̄)² / (n-1)

요약하면, n은 모집단 데이터를 정확히 알 때, n-1은 표본 데이터로 모집단 추정 시 사용되며, 후자가 보다 정확한 추정을 제공

This post is licensed under CC BY 4.0 by the author.

포트폴리오용 프로젝트 내용 정리

데이스쿨 랭커 특강 정리