중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

sense 96.***.233.115

(내용이 잘못되어 수정합니다. 늘이고 줄이고의 방향을 거꾸로 썼어요. 용어도 ‘표본의 분산’과 ‘표본분산’을 구분해서 써야 했는데 그것도 혼동을 주고 있고요. 표본의 분산은 관측값의 분산이고, 표본분산은 s^2으로 표현되는, n-1로 나눈 값입니다)

그것은 통계학이 학문으로 성립되기도 전에 수십년 이상에 걸쳐 발견된 경험치이기 때문에 설명을 하지 않고 n대신 n-1을 사용합니다.

질문은 “왜 표본의 분산을 구한 후 그것을 n/n-1 만큼 더 확대한 값이 진짜 모분산에 가깝다고 믿는가” 인데요.

모분산은 truth이지만 모르는 값이고, 표본의 분산은 관측값입니다. 통계학이 학문이 되기도 한참 전부터 사람들은 표본의 분산을 구해보면 거의 항상 모분산보다 약간 작게 측정된다는 것을 경험적으로 알고 있었습니다. 그리고 왜 작아지는가에 대해서는 ‘샘플링에 오류가 있으니까 그렇지’ 로 직관적으로 이해도 했어요.

그럼 표본의 분산을 구한 후 그 오차를 반영하기 위해 값을 약간 늘려주어야 모분산에 더 가깝게 간다면 얼마를 늘여야 하는가? 라는 질문이 자연스럽게 따라오는데, 그 값은 수십년에 걸친 시행착오를 통해 표본의 분산값을 n/n-1 만큼의 비율로 늘려주니 경험적으로 모분산에 약간 더 가까와지고, 실용적으로도 더 좋더라 하는 것을 발견했습니다. 이것은 20세기 초 통계가 학문으로 정립되기도 전에 일어난 일입니다.

어차피 모분산을 모르는 상태에서, 표본의 분산보다는 표본분산이 더 잘 맞더라 하는 게 경험으로 확인이 됐기 때문에, 그 후 통계학이 학문으로 성립된 이후에도 계속 n-1을 쓰던 관례가 이어져 내려온 겁니다.

자유도로 설명하는 건 그 후 아주 한참 후에 갖다 붙인 설명입니다.