중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

623 121.***.103.160 2024-07-1317:09:23

>> 샘플이 1 2 2 3 이라면 설명할 수 있지만 샘플이 1 2 3 4이면 설명을 못 한다니 그게 뭔 말입니까.

맞는 말인데요. 자유도를 설명하기 위한 방법으로는 저게 아주 좋은 방법이라서요.

그런데 사실 언바이어스드 에스티메이터(불편량 추정치)를 자유도를 이용해서 정의한건 원래 이론적으로 맞지 않아요. 이론과 경험치의 괴리를 껴맞추기위한 억지로 생각해낸 보정치일뿐이에요. (그러니 어떤 경우는 자유도가 정수이냐 프랙션 넘버도 가능하냐란 질문도 보이네요. 자유도가 무슨 프랙션 넘거가 있나?) 모집단의 통계치가 모두 측정불가능한데 측정가능한 표본의 통계치로 추정을 하려다 보니 그런 괴리가 생긴거고 그걸 보정하려고 억지로 자유도라는 개념을 강요하고 있는거에요. 그래서 보정을 계속 해주어야 하고요. 이론적으로는 모집단의 통계를 공식으로 다루는건 가능한데 측정을 할수는 없으니까. 그래서 나도 자유도를 더 알기쉽게 설명하기 위해 열린 시스템 과 닫힌 시스템을 이야기한거에요. 자유도라는건 닫힌 시스템(시스템에 대한 컨스트레인트)이 존재해야 n에서 1을 뺄수 있는것이니까. 표본집단을 이미 닫힌 시스템으로 가정한거에요. (평균을 구할때 컨스트레인트를 주겠다는. 이건 사실 일반적 집단의 분산의 정의가 아니라 닫힌 시스템 집단이라고 가정을 해버린거죠. )

그럼 왜 하필 n-2, n-17, n-100 이 아니고 n-1 이냐?
이것도 그냥 이론적 모집단 통계치에 맞추다 보니까 n-1 이 가장 적당한 거에요. 자유도로 이론적인 공식으로 유도 된것이 아니고. 자유도는 그냥 편의상 n-1 을 억지로 설명하기 위한 핑계에 불과한것이고. 사실은 표본갯수가 작아질수록 보정값을 더 크게 만들어 주어야 해요. 모집단에서 노동자들을 표본으로 추출할때 할당량(전체 노동자수가 할수있는 하루노동량)이 항상 일정하게 정해져 있는데(모집단의 분산) 그걸 적은 수의 노동자들이 할려면 일일 할당량에 훨씬 못미치니 그 부족한 만큼을 억지로 채워주기 위해서 나누어주는 수가 저 수인데, (n-1) 로만 나누어주는게 아니라 노동자수가 작을수록 더 작은 수로 나누어주어야 노동량을 더 크게 보정해줄수 있는거죠. 그러니 (n-1) 로 나누어 준다는건 역시 이론적 공식이 아니라 그냥 억지로 보정해주기 위해 나누어 주려다 보니, 그리고 그걸 자꾸 샘플수에 따라 다르게 나누어주면 복잡하니까 (n-1) 로 고정시켜 나누어주기로 한것 뿐입니다.

근데 기대값이란 개념이 고등학교때엔 별생각없었는데 보기엔 아주 간단한 정의처럼 보이는데 사실 보통 간단한 정의가 아니네. 제대로 정의하려면 엄청 복잡할듯. 앙상블 갯수를 모두 고려해야 하는거니…