Home Talk Free Talk 중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도 중학교 통계중에 지금 생각하니 분산인가 구하는것중에 N 인지 N-1 인지 헷갈리는게 있었는데…그때야 그냥 암기하면 됬는데…내가 이나이에도 Name * Password * Email >> 물리학에서는 예컨대, “손목 관절 자유도 2, 팔꿈치 자유도 1, 만일 자유도를 하나 잃으면 회전 방향 하나를 잃음”, 이렇게 실생활에서 직관적으로 결과가 이해가 돼요. 물리학이든 수학이든 여기 통계에서 쓰는 자유도든, 결국 같은 수학적 의미를 담고는 있는듯합니다. 즉 우리가 쓰는 파라미터가 n 개일때, 이 파라미터를 제한하는 수식의 갯수가 k개면 자유도가 n-k 라는 원리는 같은거 같아요. 문제는 수학의 문제는 이상화 추상화 시킨것이라서 현실에 비해서는 간단한 추상화를 시킨거라 현실에 적용이 어렵다는 거죠. 예를 들어 여기서 우리가 말하는 샘플을 보면, 샘플들의 측정치를 다 수학적으로 마치 포인트인거처럼 추상화 시킨거에요. 포인트는 트랜슬레이션에 대한 자유도만 생각할수 있지, 로테이션에 대해서는 생각할수가 없죠. 그래서 물리학으로 더 한단계 구체적으로 스텝업하면 말씀하신 로보트 팔들은 일단 막대기이지 점이 아니니 이제 회전을 고려할수 있게 된것이고, 회전에도 방향이 한방향이 아니니 회전의 자유도도 이제는 고려가 가능하게 된것이죠. 만약에 우리가 생각하고 있는 샘플이 n차원의 포인트가 아니라 n차원의 오브젝트라면 이제 자유도가 점차로 점점 복잡해지는 거에요. 고려사항이 점점 늘어나고 그래서 생각해야 할 파라미터는 점점 늘어나고 공간에 대한 제한 방정식이 점점 늘어나서 자유도 갯수가 점점 복잡해지는거죠. 우리가 n-1 로만 제한해서 지금 이 통계에서 생각하는 것은 우리가 다루는 문제가 지금 샘플이 포인트로 추상화가 가능한 문제라서 그런거 뿐이지, 꼭 분산의 언바이어스드 에스티메이터가 n-1 로만 나누어져야 한다는 보장은 없는거 같아요. 샘플의 오브젝트가 점점 더 점으로는 더이상 추상화되지 못하고 복잡한 경우를 고려해야 하는 문제라면 분산의 분모가 n-k 가 될수 있다는 거에요. 물론 n-k 의 자유도를 이해하기 위해서는 이건 기하학적인 해석이 더 필요하고요. 로봇팔이 여러개 연결된 회전동작에 대한 어떤 많은 측정치의 데이타를 다루는 통계에서는 분명히 회전의 자유도의 숫자가 언바이어스드 에스티메이터에 n-1 이나 다른 숫자로 나누어져야 하는 경우의 문제가 아마 있을거에요. 우리가 지금 모를 뿐이지. 어쨌든 통계책에서 다루는 통계는 대부분 샘플의 개체를 그냥 포인트로 다루고 있는 거에요. 그것만으로도 이해하기에 너무 벅차고 문제를 다루는데 충분하다고 느끼니까. >> 통계에서 자유도의 경우에는 왜 “분산의 크기를 늘이는” 방향으로 그 효과가 나타나느냐 하는 걸 본질적으로 설명이 어렵습니다 아래에서도 언급했지만, 모집단의 평균이 표본집단의 평균과 다를때, 바이어스드 에스티메이터를 쓰면 표본집단의 분산이 거의 100프로 모집단의 분산보다 작거나 같습니다. 같은경우는 두 평균이 일치할때고요. 이건 아마 수식으로 증명한것이 어딘가에 있어요. >> “왜 그게 꼭 n-1 이냐, 표본평균이 모평균과 같은 값은 아닐 테니까 표본평균을 수식에 쓰면 부정확성이 있다는 것을 감안한다 쳐도, 그 보정 팩터가 게 왜 꼭 n-1이냐” 하는 질문을 할 수 있습니다. “ 여기에 대한 답도 결국 샘플이 포인트로 추상화되었기 때문이다라고 대답할수 있을거 같네요. 기대값을 통한 증명도 1차원상에서 정규분포를 이루는 샘플들로 추상화 되어서 n-1 로 나타나는 거 같아요. 정규분포를 보면 그냥 x 축은 일차원이쟎아요. 그게 1차원이니 -1 이 된거라는 겁니다. 왜 1차원이냐? 지금 샘플들이 가지는 특성값들이 모두 숫자로 나열되어 있쟎아요. 이 숫자들이 뭐죠? 그냥 수직선상에 일열로 나타낼수 있는 1차원에 나열되는 스칼라값들이쟎아요. 그래서 -1 이 나타난 것일뿐이에요. 이게 만약 샘플들이 벡터값을 가지는 더 복잡한 샘플들이라면 자유도가 -1 이 아니라 더 복잡한 숫자를 빼주어야 할거에요. 유명하다는 어떤 여자통걔학자가 쓴 자유도에 대한 아티클을 읽어보았는데 이 여자도 뭔가를 혼동하고 있는 느낌을 받았는데 많은 사람들이 이 개념에 대해서 많이 혼동하고 있는거 같아요. 쉬운 개념은 아닌거 같네요. 근데 이 문제가 가만보니 머신러닝에서 노말라이제이션과도 관계가 있는거 같네요. 레이어 노말라이제이션, 배치 노말라이제이션, 등등등 다만 머신 러닝쪽에서는 워낙 큰 데이타를 다루다보니 이런 자잘한 n-1 이냐 n 이냐 고 따지는게 의미없는 문제가 되어 버리는듯. ㅋㅋㅋ 솔직히 말해서 이 문제를 잡고 씨름할 가치가 없는 문제라는 생각이 결국엔 듭니다. 겨우 샘플이 30개 이하인 경우를 고려하기 위해서 이런 문제를 가지고 시간낭비하고 있다니... 에이고 나도 이 문제 고만 생각해야 겠어. 피시 디스트리뷰션도 그렇고 결과의 유용성에 비해 너무 지저분한거 같은 문제야. I agree to the terms of service Comment