데이터 분석 확률&통계

Updated:

위치추정

데이터를 살펴보는 가장 기초적인 단계로서 각 feature의 대푯값을 구하는 것

대푯값 typical Value

대부분의 갑이 어디쯤 위치하는지 중심경향성을 나타내는 추정값.

중간값

데이터를 일렬로 정렬했을 때 , 한가운데 위치하는 값 만약 데이터가 짝수라면 한가운데 위치한 두개의 값의 평균값 결과를 왜곡할 수도 있는 특잇값(극단값)들의 영향을 받지않아서 로버스트(robust)한 위치 추정

변이추정

  • 변이는 데이터 값이 얼마나 밀집해 있는지 혹은 펴져 있는지를 나타내는 산포도(dispersion)
  • 가장 유병한 방법은 분산 , 표준편차이고 그외 평균절대편차 , 범위 , 백분위수 , 사분위수 등 있음.

표준편차와 관련 추정 값들

평균 절대 편차

\(AD =\frac{\sum\left\vert X_i - \bar{x} \right\vert}{n}\)

예제

</br>

중위 절대 편차

\(MAD =\frac{\sum\left\vert X_i - 중간값 \right\vert}{n}\)

분산

\(S^2 =\frac{\sum (X_i - \bar{X})^2}{n - 1}\)

표준 편차

\(S = \sqrt{S^2} = \sqrt\frac{\sum(X_i - \bar{X})^2}{n - 1}\)

정리

Leave a comment