Python/NumPy | Pandas

[Python] NumPy - 기술 통계 1

비번변경 2022. 11. 25. 20:52

기술 통계

NumPy는 데이터 집합에 대한 통계를 계산하는 함수를 제공하는데, 이를 기술 통계(descriptive statistics)라고 한다.

  • 데이터의 개수(count)
  • 평균(mean, average)
  • 분산(variance)
  • 표준 편차(standard deviation)
  • 최댓값(maximum)
  • 최솟값(minimum)
  • 중앙값(median)
  • 사분위수(quartile)

 

 

데이터의 수

데이터의 수는 데이터의 길이를 반환하는 len 함수로 구한다.

x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])
len(x)

# 실행 결과
26

 

 

표본 평균

일반적으로 의미하는 평균을 뜻한다. N이 데이터 개수를 의미할 때, 표본 평균(sample average, sample mean)은 다음과 같이 계산한다.

$$ \bar{x} = \dfrac{1}{N}\sum_{i=1}^N x_i $$
np.mean(x)

# 실행 결과
4.8076923076923075

 

 

표본 분산

표본 분산은 데이터와 표본 평균 간의 거리 제곱의 편균이다. 표본 분산이 작은 데이터가 모여있는 상태이고, 크면 흩어져있는 상태이다. 수학 기호로는 \(s^2\)로 표시한다.

$$ s^2 = \dfrac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2 $$

np.var(x)

# 실행 결과
115.23224852071006

 

 

표본 표준편차

표본 표준 편차는 표본 분산의 양의 제곱근이다. \(s\)로 표시한다.

$$ s = \sqrt{s^2} $$

np.std(x)

# 실행 결과
10.734628476137871

 

 

참고 문서

데이터 사이언스 스쿨 3.4 기술 통계