중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

sense 96.***.233.115

열린 시스템, 닫힌 시스템… 비유가 더 어렵게 만드는 듯 합니다.

중딩 수준으로 다시 해봅니다.

경우 1: 아래 표본으로 모분산을 추정하시오

표본 개수: 4개
표본값: 1, 2, 3, 4
표본평균: 2.5

경우 2: 아래 표본으로 모분산을 추정하시오

표본 개수: 4개
표본값: 1, 2, x, 4
표본평균: 2.5

경우1과 경우2가 똑같다는 사실을 이해하면 자유도를 거의 다 이해한 것입니다. 경우 1에서 표본이 4개 주어졌는데, 자유도가 4가 아니라 3이므로 4대신 3으로 나누라고 통계책에서 가르칩니다. 왜 그런가 봤더니 어라? 경우2를 보니까 진짜 표본이 3개만 주어졌는데 어쩐지 x가 뭔지 알 것만 같네요? ㅎㅎㅎ

그렇습니다. 경우 1에서도 이 표본분산을 계산하는데 독립적으로 기여한 파라미터의 개수가 사실은 3개 뿐이었던 것입니다. x는 1, 2, 4와 연결돼 있는 저 가짜 평균 2.5로부터 도출되는 정보고요. 경우2에서 2.5가 표본평균이 아니라 예를 들어 모평균이라면, x가 꼭 3이어야 할 이유가 없고 x가 7일수도 8일수도 있습니다, 하지만 2.5가 표본평균일 때는 x는 반드시 3이 되어야 합니다.

경우1과 같이 샘플링을 한 후에, 그 표분분산을 계산하는 식을 유심히 보면 표본의 평균 (위의 경우 2.5)이 사용됩니다. 즉 표본 4개 중에 표본 3개만이 독립적으로 통계량 계산에 기여하고, 마지막 1개가 쓸모없는 이중 정보가 됩니다. 경우 2와 비교해보면 확실하죠.

이렇게 통계량에 독립적으로 기여하지 못하는 파라미터 개수를 k라고 할 때, n-k를 자유도라고 부릅니다. 거꾸로 읽어도 됩니다. 자유도는 독립적으로 통계량에 기여하는 파라미터의 개수.

자유도가 높아지면 통계량의 신뢰성이 높아지고, 자유도가 낮아지면 신뢰성이 낮아집니다.

표본 분산의 경우 n이 아니라 위의 이유로 자유도 n-1로 나누어서 계산 결과값이 약간 더 커지도록 보정합니다. 어? 왜 커지게 하죠? 작아지는 게 더 정확한 거 아닌가요? 표본의 분산은 실제 모분산보다 더 작게 관측되더라는 게 경험치이고요. 그래서 보정은 계산값을 키우는 쪽으로 합니다.

이렇게 보정된 표본분산은 unbiased estimator이다 라고 통계책이 말합니다. 개별 표본분산은 오류가 있는 추정치이지만, 이 방식으로 표본분산을 1차, 2차, … m차 계속 계산해나가면 그평균값이 모분산에 수렴한다는 것이, 증명되어 있나봐요. 결국 처음에는 모른다고 생각되었던 모분산이 나오기 때문에 unbiased 라고 부릅니다.

어떻게 증명하는 건지는 나도 모름. 주사위를 누군가 1백만번 던지든지 했겠죠.

Edit:

찾아보니 증명은 실험없이 수식 전개로 하는군요. n과 n-1의 미묘한 차이를 다루는 것이라서, n-1을 쓰는 게 더 맞다라는 주장을 받아들이는 건 직관적으로는 어렵다는 거 공감합니다. 표본분산의 기대값이 모분산과 일치한다는 수학적 증명이 있으니, 그게 맞겠거니 하고 써야 하는 건가 봅니다.