중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

sense 96.***.233.115 2024-07-1709:54:19

이 n-1에 관해서, 자유도라는 단어를 정의하고 그것만으로 설명을 끝내면 두 가지 폐단이 있는 것 같아요.

첫째는, 자유도라는 단어가 물리학에서 가지는 정의와 효과에 얽매이는 겁니다. 물리학에서는 예컨대, “손목 관절 자유도 2, 팔꿈치 자유도 1, 만일 자유도를 하나 잃으면 회전 방향 하나를 잃음”, 이렇게 실생활에서 직관적으로 결과가 이해가 돼요. 통계에서 자유도의 경우에는 왜 “분산의 크기를 늘이는” 방향으로 그 효과가 나타나느냐 하는 걸 본질적으로 설명이 어렵습니다. “평균 구할 때는 n 그대로 썼잖아? 분산에서는 왜 안 돼? 될 거 같은데? 증거 있어?” 하는 질문 나오면 답하기 힘듭니다. 뭐 직관적으로 약간 그럴 거 같기도 한데? 정도의 답에서 그치는 거죠. 결국 기대값 증명으로 되돌아가야 합니다.

두번째는, “왜 그게 꼭 n-1 이냐, 표본평균이 모평균과 같은 값은 아닐 테니까 표본평균을 수식에 쓰면 부정확성이 있다는 것을 감안한다 쳐도, 그 보정 팩터가 게 왜 꼭 n-1이냐” 하는 질문을 할 수 있습니다. “사실은 n-0.9999나 n-1.0001 이 더 정확한 값인데, 당시에는 컴퓨터가 없어서 계산의 편의성을 위해 n-1로 퉁친 거 아니냐? 그게 혹시 0.9999n 과 같은 값이면 더 정확해지기도 하나?” 하는 질문도 할 수 있어요. 이것도 결국 기대값 증명으로 되돌아가야 합니다.

n-1의 유래에 대해 얘기하지 않은 채, 물리학에서 기능적으로 비슷하게 정의됐지만 그 효과가 다른 단어를 통계에 도입해서 마치 비슷한 양 설명을 하는 것의 한계라고 봅니다.