중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

623 121.***.103.160

센스님의 4 경우는 모두 내가 앞에서 말한 Case B 에 속한 카테고리입니다.

Case B 에서 센스님의 1,2 경우에 해당하는 경우는 앞에서 설명에 포함시킨 예들이고,
Case B 에 여전히 속하는 센스님의 3,4 경우는 내가 언급을 하지 않았었습니다.

Case B 는 표본집단에 표본의 평균이 샘플로 포함된 경우니 일단 표본집단은 클로즈드 시스템으로 정의가 되었습니다.
이중에 센스님의 1과 2의 경우는 우리가 모집단의 파라미터들을 무조건 모르는 경우로 취급합니다. 모집단의 파라미터를 모르는 경우는 무조건 표본평균이나 표본의 분산과 모수가 다른 걸로 취급합니다.
이 경우는 우리가 말하고 있는 자유도 n-1, 즉 2 를 언바이어스드 에스티메이터로 적용해줍니다. 왜냐하면 표본의 분산과 모집단의 분산이 다르기 때문이죠.

그럼, 내가 언급하지 않았던 센스님의 3과 4의 경우는 어떨까요?
Case B 으 경우처럼 클로즈드 시스템인데, 센스님의 3,4 의 경우처럼 모평균을 이미 알고 있고, 모평균이 표본평균과 같아져 버리면,
그냥 (n-1) 를 고려한 언바이어스드 에스티메이터를 생각할 이유가 없어집니다.
그냥 원래 우리가 알던 방식대로 표본평균도 n 으로 나누고, 분산도 n 으로 나누면, 그게 모집단의 평균과 모집단의 분산의 에스티메이터로 바로 쓰이게 되는것이니 이 경우는 (n-1) 을 고려하지 않아도 됩니다. 우리가 (n-1) 을 고려해야 하는경우는 모집단의 평균을 몰라서 표본집단의 평균과 같지 않기 때문에 그런 겁니다. 그래서 3,4의 경우는 언급할 가치가 없어서 Case B 에 포함시키지 않았던 거에요.

아마 다시 정리하면,
우리가 n-1 로 표본분산을 구할때 나누어주는 이유는,
샘플이 너무 작아서 모집단의 통계치와 표본의 통계치가 괴리가 생기는걸 너무나 잘알고 있기 때문에 보정이 필요한것이지,
샘플이 너무 작아도 표본의 통계치가 (특히 표본의 분산을 n-1 이 아니라 n으로 나눌때) 모집단의 통계치와 차이가 나지 않는 경우라면 자유도를 고려할 필요가 없었던 거죠. 근데 일반적으로 샘플을 구할때 전자의 경우가 너무 많이 생길테니 보정이 거의 항상 필요한거죠. 아마 다시 정리하면 이 n-1 보정은 현실의 적용에서처럼, 모집단이나 샘플이나 개체수가 너무 작아서 정규분포를 따르지 않는 경우 때문에 고려되야 하는거 같아요. 특히 샘플의 경우는 거의 항상 개체수가 작을수밖에 없으므로. 손으로 계산해서 분산계산할때나 생각할 문제지 머신러닝시대에는 전혀 쓰잘데기 없는 고려사항들입니다.