반응형

통계 분석에서 데이터를 이해하고 해석하는 데 필수적인 도구로 도수분포표, 상대도수, 히스토그램이 있습니다.
이 글에서는 이 세 가지를 자세히 설명하고, 각각에 대한 파이썬 코드를 통해 실습해 보고자 합니다.

 

도수분포표란?

도수분포표는 데이터를 여러 구간으로 나누어 각 구간에 해당하는 데이터의 개수(도수)를 표시하는 표입니다.
이를 통해 데이터가 어떻게 분포되어 있는지 쉽게 파악할 수 있습니다.

import pandas as pd

# 예시 데이터 생성
data = [23, 25, 28, 29, 22, 24, 25, 27, 28, 30]

# 도수분포표 생성
df = pd.DataFrame(data, columns=['점수'])
frequency = df['점수'].value_counts().sort_index()
print(frequency)

 

상대도수의 중요성

상대도수는 각 데이터가 전체 데이터에서 차지하는 비율을 나타냅니다.
이를 통해 전체 데이터 내에서 각 데이터의 중요성을 파악할 수 있습니다.

# 상대도수 계산
relative_frequency = frequency / frequency.sum()
print(relative_frequency)

 

히스토그램이란?

히스토그램은 도수분포표를 기반으로 한 그래픽 표현 방법입니다.
데이터의 분포를 직관적으로 이해할 수 있도록 도와줍니다.

import matplotlib.pyplot as plt

data = [23, 25, 28, 29, 22, 24, 25, 27, 28, 30]

# 히스토그램 생성
plt.hist(data, bins=5)
plt.xlabel('점수')
plt.ylabel('도수')
plt.title('점수 히스토그램')
plt.show()

 

반응형