반응형

수치형 변수에 대한 분석은 위치, 변이, 모양의 세 가지 주요 통계량을 중심으로 이루어집니다.

수치형 변수 분석

수치형 변수에 대한 분석은 데이터의 대표값과 그 흩어짐 정도를 파악하는 것에서 시작합니다. 이를 통해 데이터의 분포 특성을 이해하고 비교할 수 있습니다.

위치 통계량

위치 통계량은 데이터의 중심 위치를 나타냅니다.
가장 대표적인 위치 통계량은 평균(mean), 중앙값(median), 최빈값(mode)입니다.

  1. 평균 (Mean): 데이터 집합의 합을 데이터의 개수로 나눈 값입니다. 데이터 집합의 '중심'을 나타내는 대표적인 값입니다.
    - 평균 (산술 평균) : 주어진 수의 합을 수의 개수로 나눈 값
      - 특징 : 계산이 쉽다, 수학적으로 활용하기 편리하다, 각 자료에 대해 유일한 값을 가진다.
      - 분산의 계산, 모수 추정, 가설 검증 등 통계 분석의 대표적인 값을 ㅗ널리 사용 됨
      - 모든 자료로 부터 영향을 받기 때문에 극단적인 값에 민감하여, 자료의 수가 적고 극단 값이 여러개인 경우 대푯값의 기능을 상실한다.

    - 기하 평균
      - n개의 양수 값을 모두 곱한것의 n 제곱근 (성장률의 평균)

    - 조화 평균
      - 주어진 수들의 역수의 산술평균에 다시 역수를 취한 것
      - 평균적인 변화율

    - 가중 평균
      - 일률적 평가가 어려운 경우 또는 차지하는 비중이 다른 경우

  2. 중앙값 (Median): 데이터를 크기 순으로 나열했을 때, 가운데에 위치하는 값입니다. 데이터 집합이 홀수 개일 경우 중앙에 위치하는 값이고, 짝수 개일 경우 중앙에 위치한 두 값의 평균입니다. 이상치의 영향을 덜 받는 중심 경향성의 척도입니다.

    중앙값(median) - 데이터 중 가운데 값
     - 데이터를 순서대로 나열할 때 가운데 있는 값
     - 데이터가 홀수 개 (n + 1) / 2
     - 가운데의 왼쪽, 오른쪽 값 두개 더한 후 /2


  3. 최빈값 (Mode): 데이터 집합에서 가장 자주 나타나는 값입니다. 데이터에 동일한 값이 여러 개 있을 경우, 그 중 가장 많이 나타나는 값을 의미합니다.

    최빈값(mode) - 가장 많이 나오는 값
    - 자료에서 가장 자주 나타나는, 빈도가 가장 많은 관측지
    - 평균/중위수와 달리 자료에 따라 존재하지 않을 수 있고 유일한 값이 아닐 수 있음
    - 질적 변수에도 활용 가능

중앙값과 최빈값의 특징
- 자료속에 극단적인 이상치가 있는 경우, 극단적 관찰지에 덜 민감한 중앙값이 대표값으로 사용 될 수 있다.
- 자료의 분포가 비대칭인 경우 평균의 보조자료로 이용할 수 있다.
- 개방 구간을 갖는 도수분포표의 경우 중앙값 혹은 최빈값을 대표값으로 사용한다.
(즉, 잦은 이상치가 발생하면 중앙값 혹은 최빈값을 대표값으로 사용할 수 있다.)
- 명목자료와 서열자료의 경우 평균과 중앙값을 계산할 수 없으므로 최빈값을 대표 자료로 사용한다.

 

변이 통계량

변이 통계량은 데이터가 얼마나 퍼져 있는지, 즉 분산성을 나타냅니다.
대표적인 변이 통계량으로는 범위(range), 분산(variance), 표준편차(standard deviation)가 있습니다.

  1. 범위 (Range): 데이터 집합에서 가장 큰 값과 가장 작은 값을 뺀 값입니다. 데이터의 분포 범위를 나타내며, 분포의 크기를 파악하는 데 사용됩니다.
  2. 분산 (Variance): 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도입니다. 데이터의 변동성을 측정합니다.
  3. 표준편차 (Standard Deviation): 분산의 제곱근으로, 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 값입니다. 분산과 마찬가지로 데이터의 변동성을 나타냅니다.

 

 

모양 통계량

모양 통계량은 데이터 분포의 비대칭성(asymmetry)과 뾰족함(kurtosis)을 설명합니다.
왜도(skewness)와 첨도(kurtosis)가 이에 해당합니다.

  1. 왜도 (Skewness): 데이터 분포의 비대칭도를 나타내는 척도입니다. 정규분포와 같이 대칭인 분포의 왜도는 0입니다. 왜도가 양수이면 오른쪽으로 치우친 분포, 음수이면 왼쪽으로 치우친 분포를 나타냅니다.
      - 오른쪽 꼬리가 긴 (right-skewed) 분포
      - 좌우대칭(symmetric)
      - 왼쪽으로 꼬리가 긴 (left-skewed)분포
  2. 첨도 (Kurtosis): 데이터 분포의 뾰족한 정도와 꼬리의 두께를 나타내는 척도입니다. 정규분포의 첨도는 3으로, 이를 기준으로 더 뾰족하거나 더 평평한 분포의 첨도를 비교합니다.
import numpy as np
from scipy import stats

# 예시 데이터 생성
data = np.random.normal(0, 1, 1000)

# 위치 통계량 계산
mean = np.mean(data)
median = np.median(data)
mode = stats.mode(data)

# 변이 통계량 계산
range = np.ptp(data)
variance = np.var(data)
std_dev = np.std(data)

# 모양 통계량 계산
skewness = stats.skew(data)
kurtosis = stats.kurtosis(data)

print("위치 통계량:", mean, median, mode)
print("변이 통계량:", range, variance, std_dev)
print("모양 통계량:", skewness, kurtosis)
위치 통계량: 0.0023710476623076673 0.011309990916100434 ModeResult(mode=array([-3.52358769]), count=array([1]))
변이 통계량: 7.228827207472641 0.9812557513822652 0.9905835408395726
모양 통계량: -0.046464605384467235 0.18530045310359133
반응형