데이터 분석 확률&통계
Updated:
위치추정
데이터를 살펴보는 가장 기초적인 단계로서 각 feature의 대푯값을 구하는 것
대푯값 typical Value
대부분의 갑이 어디쯤 위치하는지 중심경향성을 나타내는 추정값.
중간값
데이터를 일렬로 정렬했을 때 , 한가운데 위치하는 값 만약 데이터가 짝수라면 한가운데 위치한 두개의 값의 평균값 결과를 왜곡할 수도 있는 특잇값(극단값)들의 영향을 받지않아서 로버스트(robust)한 위치 추정
변이추정
- 변이는 데이터 값이 얼마나 밀집해 있는지 혹은 펴져 있는지를 나타내는 산포도(dispersion)
- 가장 유병한 방법은 분산 , 표준편차이고 그외 평균절대편차 , 범위 , 백분위수 , 사분위수 등 있음.
표준편차와 관련 추정 값들
평균 절대 편차
\(AD =\frac{\sum\left\vert X_i - \bar{x} \right\vert}{n}\)
예제
</br>
중위 절대 편차
\(MAD =\frac{\sum\left\vert X_i - 중간값 \right\vert}{n}\)
분산
\(S^2 =\frac{\sum (X_i - \bar{X})^2}{n - 1}\)
표준 편차
\(S = \sqrt{S^2} = \sqrt\frac{\sum(X_i - \bar{X})^2}{n - 1}\)
Leave a comment