중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도

3 121.***.103.160 2024-07-1919:21:35

-1의 차이의 근본적 이유: 위에서 이야기한 샘플의 일차원적 속성 이외에,
1) 모집단은 열린 집단으로 처음부터 정의됨: 즉 모집단의 평균의 자유도는 n 이고 모집단의 분산도 자유도가 n 으로 처음부터 정의됨. 이건 사실 정규분포가 마이너스 무한대에서 플러스 무한대까지 분포하기 때문에 근본적으로 열린 시스템. 그런데 모집단이 유한한 샘플을 가진경우에도 분산의 자유도를 항상 n 으로 정의한것은 모집단은 항상 열린 시스템으로 정의했기 때문. 분산분석(ANOVA)를 보면 전체 집단에 해당하는 그랜드 평균과 그랜드 분산에 대해서 모두 자유도를 n 으로 나누게 됨. 이건 전체집단을 모집단으로 규정하기 때문에 그렇게 함. 모집단은 항상 열린 시스템이므로 분산을 정의하기를 자유도 n으로 나누도록 정의됨. ANOVA 의 경우에도 칼럼들 사이의 데이타와 한 칼럼안에서의 데이타의 분산을 계산할때 자유도가 결국은 n-1 의 원리를 따름. n-k 도 사실은 이 원리에서 칼럼의 갯수 k 를 빼준거고.

2) 이에 반해서 표본집단은 표본의 수가 유한함, 그리고 표본의 평균은 자유도가 n 이지만, 썸오브 스퀘어의 평균은 (n-1) 로 정의해서 모집단의 분산을 구하는것을 지향하지 표본집단 자체의 분산을 구하는 목적이 아님.

3) 그러고 보니 여기 통계는 주로 헬쓰캐어쪽이나 바이오텤쪽에서 주로 쓰는데(그래서 유튜브에 이 쪽으로 여자들이 꽤 많이 보이는듯), 그게 데이타의 콜렉션에 한계가 존재하기 때문에 소량의 데이타로 의미있는 통계치를 얻는게 아주 중요한 분야이기 때문에 이런 통계가 발달하게 된듯. 예를 들어 환자의 블러드 테스트를 할때, 데이타 사이언스처럼 무한정 많은 양의 데이타를 콜렉션 할수가 없음. 그래서 이쪽 통계는 다 손으로 직접 계산(잘해야 엑셀울 쓸 정도의 계산)할 수 있을 정도의 데이타 량을 다루는듯.