기술 통계
NumPy는 데이터 집합에 대한 통계를 계산하는 함수를 제공하는데, 이를 기술 통계(descriptive statistics)라고 한다.
- 데이터의 개수(count)
- 평균(mean, average)
- 분산(variance)
- 표준 편차(standard deviation)
- 최댓값(maximum)
- 최솟값(minimum)
- 중앙값(median)
- 사분위수(quartile)
데이터의 수
데이터의 수는 데이터의 길이를 반환하는 len 함수로 구한다.
x = np.array([18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8,
2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13])
len(x)
# 실행 결과
26
표본 평균
일반적으로 의미하는 평균을 뜻한다. N이 데이터 개수를 의미할 때, 표본 평균(sample average, sample mean)은 다음과 같이 계산한다.
$$ \bar{x} = \dfrac{1}{N}\sum_{i=1}^N x_i $$
np.mean(x)
# 실행 결과
4.8076923076923075
표본 분산
표본 분산은 데이터와 표본 평균 간의 거리 제곱의 편균이다. 표본 분산이 작은 데이터가 모여있는 상태이고, 크면 흩어져있는 상태이다. 수학 기호로는 \(s^2\)로 표시한다.
$$ s^2 = \dfrac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2 $$
np.var(x)
# 실행 결과
115.23224852071006
표본 표준편차
표본 표준 편차는 표본 분산의 양의 제곱근이다. \(s\)로 표시한다.
$$ s = \sqrt{s^2} $$
np.std(x)
# 실행 결과
10.734628476137871
참고 문서