중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

623 121.***.103.160

>> 경우1과 경우2가 똑같다는 사실을 이해하면 자유도를 거의 다 이해한 것입니다. 경우 1에서 표본이 4개 주어졌는데, 자꾸 4가 아니라 3으로 값을 나누라고 통계책에서 가르칩니다.

1. 우선 용어부터 구분을 하고 시작하죠. 표본은 영어로 샘플이라하고 모집단은 파퓰레이션이라고 하는거라, 모집단의 평균과 표본집단의 평균은 다릅니다. 사실은 표본집단의 평균값은 측정으로 알수 있지만 모집단의 평균은 알수 있는 방법이 없고 (왜냐하면 보통 모집단은 워낙많아서 그걸 세월아 네월아 개체를 다 측정하고 셀수가 없으니까..그래서 사실 무한대 갯수로 생각하는거나 마찬가지.) 그냥 표본집단의 평균값을 가져다 씁니다.
여기서 주의해야 할것은 표본집단의 평균값은 표본집단의 개체수로 n으로 나눕니다. n-1 이 아니라. n개의 표본평균은 그냥 n으로 나누니 평균값 구할때는 모든 개체를 독립변수로 취급한다는 이야기죠. 그런데 표본의 분산을 계산 할때는 n-1 로 계산 해야 하는데, 이건 분산구하는 식에 표본 평균식이 들어가기 때문에 이게 하나의 제한조건이 되기 때문에 그래요. 즉 표본 평균을 구할때는 제한조건식이 하나도 없었는데 분산을 구할때는 표본평균식이라는 제한조건이 한개가 생긴거죠. 보통 물리학이나 수학에서 쓰는 자유도라는것은 독립변수갯들에서 제한조건의 갯수를 빼주면 자유도가 되는데, 여기서는 n개의 독립변수가 있었는데 표준평균이라는 제한식이 한개가 있어서 자유도가 n-1 이 된겁니다. 그래서 표본 분산을 구할때 (n-1)로 나누어주는거에요. 표준평균은 n 으로 나눠주고요.
그런데 모집단의 경우는 어차피 처음부터 모집단의 평균은 모른다고 했으니 제한식이 하나도 없는 겁니다. 그래서 모집단의 분산을 구할때는 그냥 독립변수 N 으로 나누어주는거에요. 모집단의 자유도는 여전히 N 이니까. 사실 이부분을 더 일리가 있도록 이해가게 쉽게 설명하기 위헤 위에 열린시스템과 닫힌 시스템이라는 개념을 도입한겁니다.

그림을 아래처럼 한번 그려보죠.

o —- o —– o ——- o —— o


         o
          |
o    -- -  o  ---      o
          |
         o 

위에 노드들을 샘플이라고 하면 5개의 노드가 있으니 5개의 샘플이 되는것인데, 평균값을 구할때는 이 노드값들을 이용하는데, 표준분산을 구할때에는 노드값들을 이용하는것이 아니라 각 노드들과 평균노드와의 차이를 가지고 구하는거죠. 이걸 레지듀얼이라고 정의하기도 하는데, 이 차이가 바로 그림에서 노드들을 연결해주는 라인들이 의미하는 겁니다. 그런데 라인의 갯수는 4개가 되죠. 5개중의 하나가 평균노드인데, 그 노드와 나머지 4개의 노드가 연결되는 라인이 4개라는 겁니다. 그래서 표본분산에서는 5가 아니라 4로 나누어 주는거죠. 근데 모집단에서는 그럼 왜 여전히 5로 나누어 주는 것이냐? 이걸 설명하기 위해 모집단에서는 열린시스템이라는 개념을 설명해준겁니다. 즉 모집단의 평균 노드는 저 5개중에 하나가 아니거든요. 나머지 가상적인 노드 하나를 생각하면 그 노드와 위에 5개의 노드들을 라인으로 연결하면 여전히 연결하는 라인들이 5개가 생기는 거죠. 그래서 모집단의 분산은 5로 나누는 거에요. 다시말하면 모집단의 분산을 구할때는 제한식이 1개도 없어서 자유도가 모집단의 갯수 N 과 같은 겁니다.

>> 표본 분산의 경우 n이 아니라 위의 이유로 자유도 n-1로 나누어서 계산 결과값이 약간 더 커지도록 보정합니다. 어? 왜 커지게 하죠? 작아지는 게 더 정확한 거 아닌가요? 표본의 분산은 실제 모분산보다 더 작게 관측되더라는 게 경험치이고요.

이건 대부분의 사람들이 설명하기를 우리가 표본을 선택할때 평균값 주위의 표본을 선택하는 경향이 있기 때문에. 그런데 그게 당연하죠, 평균값 주위에 분포된 표본들이 더 많으니 우리가 선택할때 평균값 가까이 있는걸 표본으로 선택할 확률이 더 많이지니까. 결국 이런 경향성 때문에, 표본의 분산은 원래 가우스 곡선의 분산값보다 더 작은값을 갖는 경향이 생기겠죠. 그런데 우리는 이런 경향(즉 원래 모집단의 분산보다 표준분산값이 더 작아지는 경향. 이걸 수식적으로는 https://en.wikipedia.org/wiki/Bessel%27s_correction 에서 보이고 있음.)을 이미 알고 있으니까 원래 n 으로 나누기보다는 n-1 로 나누어서 분산을 의도적으로 더 큰 값으로 만들어주는거죠. 그런데 이런 설명으로는 왜 그럼 n-2, n-3, ….n-k 가 아니라 하필 그럼 n-1 을 선택했냐라는 질문이 생기게 되는거죠. 사실 n-1 로 나눈경우에 기대값의 수식을 이용해서 모집단의 분산이 표본집단의 분산과 같다는걸 보일수는 있는데….이게 n-1 로 나누는것에 대한 증명이라고 하기엔 좀 …. 그렇네요. 너무 증명이라고 하기엔 논거가 너무 약해요.