Home Talk Free Talk 중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도 중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도 Name * Password * Email 열린 시스템, 닫힌 시스템... 비유가 더 어렵게 만드는 듯 합니다. 중딩 수준으로 다시 해봅니다. 경우 1: 아래 표본으로 모분산을 추정하시오 표본 개수: 4개 표본값: 1, 2, 3, 4 표본평균: 2.5 경우 2: 아래 표본으로 모분산을 추정하시오 표본 개수: 4개 표본값: 1, 2, x, 4 표본평균: 2.5 경우1과 경우2가 똑같다는 사실을 이해하면 자유도를 거의 다 이해한 것입니다. 경우 1에서 표본이 4개 주어졌는데, 자유도가 4가 아니라 3이므로 4대신 3으로 나누라고 통계책에서 가르칩니다. 왜 그런가 봤더니 어라? 경우2를 보니까 진짜 표본이 3개만 주어졌는데 어쩐지 x가 뭔지 알 것만 같네요? ㅎㅎㅎ 그렇습니다. 경우 1에서도 이 표본분산을 계산하는데 독립적으로 기여한 파라미터의 개수가 사실은 3개 뿐이었던 것입니다. x는 1, 2, 4와 연결돼 있는 저 가짜 평균 2.5로부터 도출되는 정보고요. 경우2에서 2.5가 표본평균이 아니라 예를 들어 모평균이라면, x가 꼭 3이어야 할 이유가 없고 x가 7일수도 8일수도 있습니다, 하지만 2.5가 표본평균일 때는 x는 반드시 3이 되어야 합니다. 경우1과 같이 샘플링을 한 후에, 그 표분분산을 계산하는 식을 유심히 보면 표본의 평균 (위의 경우 2.5)이 사용됩니다. 즉 표본 4개 중에 표본 3개만이 독립적으로 통계량 계산에 기여하고, 마지막 1개가 쓸모없는 이중 정보가 됩니다. 경우 2와 비교해보면 확실하죠. 이렇게 통계량에 독립적으로 기여하지 못하는 파라미터 개수를 k라고 할 때, n-k를 자유도라고 부릅니다. 거꾸로 읽어도 됩니다. 자유도는 독립적으로 통계량에 기여하는 파라미터의 개수. 자유도가 높아지면 통계량의 신뢰성이 높아지고, 자유도가 낮아지면 신뢰성이 낮아집니다. 표본 분산의 경우 n이 아니라 위의 이유로 자유도 n-1로 나누어서 계산 결과값이 약간 더 커지도록 보정합니다. 어? 왜 커지게 하죠? 작아지는 게 더 정확한 거 아닌가요? 표본의 분산은 실제 모분산보다 더 작게 관측되더라는 게 경험치이고요. 그래서 보정은 계산값을 키우는 쪽으로 합니다. 이렇게 보정된 표본분산은 unbiased estimator이다 라고 통계책이 말합니다. 개별 표본분산은 오류가 있는 추정치이지만, 이 방식으로 표본분산을 1차, 2차, ... m차 계속 계산해나가면 그평균값이 모분산에 수렴한다는 것이, 증명되어 있나봐요. 결국 처음에는 모른다고 생각되었던 모분산이 나오기 때문에 unbiased 라고 부릅니다. 어떻게 증명하는 건지는 나도 모름. 주사위를 누군가 1백만번 던지든지 했겠죠. Edit: 찾아보니 증명은 실험없이 수식 전개로 하는군요. n과 n-1의 미묘한 차이를 다루는 것이라서, n-1을 쓰는 게 더 맞다라는 주장을 받아들이는 건 직관적으로는 어렵다는 거 공감합니다. 표본분산의 기대값이 모분산과 일치한다는 수학적 증명이 있으니, 그게 맞겠거니 하고 써야 하는 건가 봅니다. I agree to the terms of service Comment