Home Forums Talk Free Talk 중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도
좀더 생각을 해봤는데,
생각할수록,
저 증명을 통한 언바이어스드 에스티메이터를 구하는 방법과 인디펜던트하게, 자유도를 이용한 방법도 다른 하나의 방법으로 인정해야 할것 같은 생각이 듦.
자유도 해석방법으로 다시 돌아가서, 클로즈드 시스템과 오픈 시스템을 다시 가져와서 해석을 다시 하면,
Case A. 표본 집단의 표본평균을 구했더니 평균값이 표본 집단에 존재하지 않으면(즉, 표본집단이 오픈시스템) (n-1)이 아니라 n으로 나누어주는 그 표본 집단의 분산이 바로 언바이어스드 에스티메이터가 됨. 즉 표본 분산의 기대값이 바로 모집단의 분산이 됨. 이 경우는 표본평균이 바로 모집단의 평균이 됨.
에) 표본집단: {1,2}이고 , 모평균이 1.5인 경우에 해당.
Case B. 표본 집단의 표본평균을 구했더니 평균값이 표본 집단안에 존재하는 표본중에 하나면(즉, 표본집단이 클로즈드 시스템), 이 경우에는 표본분산이 모집단의 분산과 서로 다름. 표본평균도 모집단의 평균과 서로 다름. 이 경우는 (n-1)로 나누어준 표본의 언바이어스드 바이어스 에스티메이터의 기대값이 모집단의 분산이 됨. 예: 표본집단이 {1, 1.5, 2} 이고 모평균이 1.5인 경우에 해당. 이경우에는 아래와 같은 해석법으로 자유도와 연관해서 이해할수 있음.
즉, 분모의 샘플의 분산에서는 (n-1) 을 나누어주고 샘플의 평균에서는 그냥 n 으로 나누어주는걸( 원래의 표본갯수로 나누어주는 평균이나 분산의 정의를) 어떻게 컴프라마이즈하지 않으면서 설명해줄수 있느냐인데, 사실 표본 평균을 n 으로 나누어서 구하는건 우리의 알제브라 상식과 부합하는 당연한 것이므로 문제가 없고, 샘플의 분산은 어떻게 -1 이 된 자유도를 해석해야 하는 문제인데, 샘플자체를 원래의 샘플스페이스에서 다른 샘플 스페이스로 보내버리는것임. 무슨 말이냐면, 원래의 평균(샘플들의 평균위치)을 구할때의 샘플 집단이 (공간이든 2차원이든 또는 1차원이든. 1차원 수직선상의 점들로 상상하는게 가장 간편한 경우) 점으로 이루어진 샘플이라고 했을때 (즉, 주어진 좌표계에서 위치를 나타내는 포인트의 샘플들), 분산을 구할때는 더이상 샘플들이 위치를 나타내는 점들이 아니라, 샘플들의 평균점과 샘플 포인트들과의 거리(또는 길이가 다른 막대기들. 표본집단이 오픈시스템이면 평균점 위치가 표본집단에 없으므로 막대기들을 만들수 없음.)로 이루어진 샘플스페이스에서 통계를 생각해주는 것임. 원래의 평균을 구하는 통계는 위치를 가진 점들의 통계치가 샘플스페이스였는데, 샘플들과 샘플의 평균위치와의 분산을 구할때는 위치로서 통계치를 구하는것이 아니라 평균위치까지의 거리(길이가 다른 막대기들)의 제곱을 가진 샘플들의 분산을 구해주는 것임. 결국 분산을 구할때 표본개체가 (n-1) 개로 줄어든것임. 그래서 자유도가 -1 이 된 분산을 우리가 알던 원래의 알제브라의 상식적인 정의대로 (막대기들의 표본 갯수자체가 n-1 이므로) 계산할수가 있게 됨.
이 해석법은 샘플스페이스가 위치를 가진 포인트로 된 샘플이든 아니면, 이제 변형되어서 두점사이의 거리(길이가 다른 막대기들)로 이루어진 샘플들이든 샘플의 물리적인 형태에 의미에는 아무런 관심을 두지 않고 오로지 통계치 ‘스칼라 숫자’ 에만 관심을 가지는 것임. 즉, 모집단에서의 분산은 여전히 위치를 가진 점들의 분산을 다루는것인데 샘플집단에서 분산을 구할때는 점들이 아니라 막대기들을 가지고 다루는 것임. 그런데 어차피 거리라는 샘플갯수가 무수히 많아져서 모집단의 점들의 갯수와 근접하면 두 분산은 일치하게 됨. 하나는 거리에 대한 분산이고 하나는 위치에 대한 분산을 의미하는 것이더라도 분산은 서로 근접하게 됨. 아래 글도 참조하면 도움이 될듯.