Sample variaton(S^2) : 분산

우선 위의 이름과 같이 샘플에서의 분산에 대한 설명입니다.

데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 통계적 지표입니다.

즉, 각 데이터 포인트가 평균값에서 얼마나 떨어져 있는지의 평균을 계산한 값입니다.

 

Sample Standard Deviation : 표준편차

표준편차는 평균값에 대해서 얼마나 떨어져 있는지에 대한 정도를 평균화 한 것입니다. 위의 분산의 설명과 같습니다.

하지만 표준 편차와 분산의 차이점은 명확합니다.

 

차이점

분산 : 제곱된 거리의 평균입니다.

표준 편차 : 분산에 루트를 씌워 원래 데이터와 동일한 단위를 가지도록 만든 값입니다.

 

표준편차 식과 설명

위의 그림에서의 공식은 표준편차의 공식입니다. 여기서 제가 써놓은 것을 설명해보겠습니다.

우선 키를 통해 예시를 들어보겠습니다. 

샘플링을 한 데이터에서의 키 들이 많이 수집이 됬습니다. 여기서 평균을 구한결과 171cm로 측정되었습니다. 그럼 이제 분산을 구해보았습니다. 분산은 루트를 씌우지않고 제곱을 합니다. 그럼 키의 단위인 cm는 사용할 수 없게됩니다...

이 때 처음 데이터의 단위인 cm를 맞추기 위해서 루트를 사용(표준 편차)하는 것입니다.

그리고 정규분포표에서 분산을 사용하지 않고 표준편차를 사용하는 이유이기도 합니다!!


중심 극한 정리

우선 저희는 Population의 분포 모습을 알 수 없습니다.(온 세상의 모든 데이터를 가지고 있지 않기 때문!!)

 

그렇다면, 어떻게 Population을 구할 수 있을까?

 

그 방법은 위의 그림과 같이 많은 샘플들의 통계치를 얻은 값을 통해 다시 분포를 그리면 해당 분포의 모습은 정규분포 모습을 가지게 됩니다.

-> 이 것을 중심극한정리라고 합니다.

즉, 샘플링 하는 횟수가 많아지면 통계치의 평균값을 Population(모집단)의 평균과 비슷해집니다.

(비슷하다 예측할 뿐 Population 분포와 같은 것은 아닙니다!)


해당 내용은 Data Scientist 이지영님의 영상을 보고 공부한 내용입니다.

이상입니다.

728x90
hmm06