반응형
통계 분석에서 데이터를 이해하고 해석하는 데 필수적인 도구로 도수분포표, 상대도수, 히스토그램이 있습니다.
이 글에서는 이 세 가지를 자세히 설명하고, 각각에 대한 파이썬 코드를 통해 실습해 보고자 합니다.
도수분포표란?
도수분포표는 데이터를 여러 구간으로 나누어 각 구간에 해당하는 데이터의 개수(도수)를 표시하는 표입니다.
이를 통해 데이터가 어떻게 분포되어 있는지 쉽게 파악할 수 있습니다.
import pandas as pd
# 예시 데이터 생성
data = [23, 25, 28, 29, 22, 24, 25, 27, 28, 30]
# 도수분포표 생성
df = pd.DataFrame(data, columns=['점수'])
frequency = df['점수'].value_counts().sort_index()
print(frequency)
상대도수의 중요성
상대도수는 각 데이터가 전체 데이터에서 차지하는 비율을 나타냅니다.
이를 통해 전체 데이터 내에서 각 데이터의 중요성을 파악할 수 있습니다.
# 상대도수 계산
relative_frequency = frequency / frequency.sum()
print(relative_frequency)
히스토그램이란?
히스토그램은 도수분포표를 기반으로 한 그래픽 표현 방법입니다.
데이터의 분포를 직관적으로 이해할 수 있도록 도와줍니다.
import matplotlib.pyplot as plt
data = [23, 25, 28, 29, 22, 24, 25, 27, 28, 30]
# 히스토그램 생성
plt.hist(data, bins=5)
plt.xlabel('점수')
plt.ylabel('도수')
plt.title('점수 히스토그램')
plt.show()
반응형
'Applied > DataScience' 카테고리의 다른 글
확률실험과 사건의 기본 개념 (0) | 2024.02.13 |
---|---|
위치 통계량, 변이 통계량, 모양 통계량 (0) | 2024.02.10 |
일변량 및 다변량 차트 이해 (0) | 2024.02.08 |
범주형, 연속형 데이터 (2) | 2024.02.03 |
모집단, 모수, 표본, 통계량의 이해 (0) | 2024.02.01 |