중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

we 121.***.103.160 2024-07-1119:22:27

간단한 이해법: (표본의 시스템은 닫힌 시스템으로 생각하고 모집단은 열린 시스템으로 가정하는 전제조건이 있어야 한다. 그렇게 생각하면 자유도 개념없이도 간단하게 설명된다.)
1. 닫힌 시스템이란 무엇인가? 주어진 표본을 고를때 고른 표본집단안에 평균값을 가진 표본이 존재하면 닫힌 시스템이라 정의하고 표본집단안에 평균값을 가진 표본이 존재하지 않으면 열린 시스템이라 정의한다.

2. 그럼 표본을 일단 모집단에서 10개를 고르자.
1,2,3,4,5,6,7,8,9,10 의 열개를 골랐는데 평균을 구해보니, 5.5 가 된다. 그런데 5.5 는 고른 표본집단에 존재하지 않는다. 그러므로 이 표본은 닫힌 시스템에 존재하지 않으니, 우리가 원하는 닫힌 시스템의 표본집단이 아니다. 즉 이 표본집단은 우리의 통계적 목적에 부합하는 표본집단이 되지 못하고 차라리 모집단에 가깝다.

다시 이번에는 표본 10개를 골라보자,
1,2,3,4,5,5, 6,7,8,9
이것의 평균은 5가 된다. 5라는 표본이 2개가 뽑힌거다. 같은 값을 가진 표본이 당연히 존재할것이므로 이것은 아무런 문제가 되지 않는다. 이 경우는 5를 가진 표본이 표본집단안에 존재하므로 우리가 원하는 닫힌 시스템이고, 이 집단은 우리의 표본집단으로 정의 가능해진다.

3. 모집단의 갯수를 N이라하고 표본의 갯수는 n이라고 구분을 하자. 평균을 구할때는 모집단이나 표본집단이나 전체의 합을 전체 갯수로 나눈다. 즉, 위의 표본의 정의를 따를때, 표본의 평균값을 구할때에도 전체갯수 n 으로 나누지 (n-1) 로 나누지는 않는다.

4. 그러나 분산을 정의할때는 달라진다. 이때는 굳이 자유도 개념을 이용할 필요는 없지만, 자유도라는 개념을 더 잘 이해할수 있게는 된다.
표본에서 분산은 각 표본이 평균값을 가진 표본값으로부터 얼마나 거리가 떨어져있는지, 그 거리의 제곱들의 합을 일단 더해서 분자로 이용한다. 그 후 이 거리의 총 갯수들을 분모로 사용하여 나누어서 분산이 정의 되는것이다. 자, 그러면 이때 10개의 표본중에 한개는 평균값을 가진다.(이 경우는 두개 표본이 평균값을 가지지만 5값을 가진 두개의 표본중에, 1개만 평균값으로 지정해주자. 그러면 각 9개의 표본값으로부터 평균값을 가진 표본까지의 거리를 생각할수 있으므로, 9개의 거리가 정의가 되는것이다. 즉, 거리의 갯수는 (n-1) 이 생긴것이고 이것으로 거리의 제곱을 합한것을 나누어준다. 즉, 왜 표본집단에서는 n으로 나누는것이 아니라 (n-1) 로 나누어야 하는지가 설명이 된것이다.

5. 모집단에서는 여전히 분산을 구할때 (N-1) 이 아니라 N 으로 나누어주어야 한다. 왜냐고? 1 의 전제 조건을 다시 곱씹어 보면 바로 답이 나온다. 그래도 이해못하면 개인적으로 유료과외 받아야 하니 연락해라.

6. 5번의 이 설명은 사실 자유도의 기본 개념을 포함하고 있다. 즉, 10개의 점들이 1차원 공간에 분포되어있을때 이 점들을 1차원으로 연결하는 방법으로 모두 연결해준다고 할때 점들의 갯수가 n 개면 연결해주는 라인은 (n-1)개가 되는것이다. 즉 자유도가 하나 사라졌다. 표본집단에서는 연결하는 막대기 갯수들을 세지만, 모집단에서는 1번에서 오픈 시스템으로 정의했으므로, 멤버들이 굳이 막대기들이 자유도가 줄어들지 않는다.

7. 이 방법으로 생각하면 중학생도, 분산공식에서 표본에서는 분모가 (n-1)과 모집단에서는 분모가 N의 차이를 이해가능해진다. 가장 간단한 자유도라는 개념(표본갯수와 연결라인의 갯수 차이)도 덤으로 쉽게 이해할수 있다.