-
2024-07-1005:25:36 #3878168ㅈㄷ 121.***.103.160 522
이 걸 왜 차이를 두는지 지대로 이해못하고 그냥 암기해야 쓰것나? 이건 두뇌를 달고 살아가는 나라는 존재에 대한 자존심에 문제지.
그러니 지금보니 이거 보통문제가 아니네요.
파퓰레이션과 샘플의 차이. 그리고 N 으로 나눌지 (n-1)로 나눌지….이거 제대로 이해한분 있나요? 이거 왜 차이를 두는 건지 명확하게 이해한분?
-
-
“통계 자유도 n-1” 으로 검색해보세요.
-
n-2 은 뭐고 n-17 은 또 뭔가요?
-
-
(내용이 잘못되어 수정합니다. 늘이고 줄이고의 방향을 거꾸로 썼어요. 용어도 ‘표본의 분산’과 ‘표본분산’을 구분해서 써야 했는데 그것도 혼동을 주고 있고요. 표본의 분산은 관측값의 분산이고, 표본분산은 s^2으로 표현되는, n-1로 나눈 값입니다)
그것은 통계학이 학문으로 성립되기도 전에 수십년 이상에 걸쳐 발견된 경험치이기 때문에 설명을 하지 않고 n대신 n-1을 사용합니다.
질문은 “왜 표본의 분산을 구한 후 그것을 n/n-1 만큼 더 확대한 값이 진짜 모분산에 가깝다고 믿는가” 인데요.
모분산은 truth이지만 모르는 값이고, 표본의 분산은 관측값입니다. 통계학이 학문이 되기도 한참 전부터 사람들은 표본의 분산을 구해보면 거의 항상 모분산보다 약간 작게 측정된다는 것을 경험적으로 알고 있었습니다. 그리고 왜 작아지는가에 대해서는 ‘샘플링에 오류가 있으니까 그렇지’ 로 직관적으로 이해도 했어요.
그럼 표본의 분산을 구한 후 그 오차를 반영하기 위해 값을 약간 늘려주어야 모분산에 더 가깝게 간다면 얼마를 늘여야 하는가? 라는 질문이 자연스럽게 따라오는데, 그 값은 수십년에 걸친 시행착오를 통해 표본의 분산값을 n/n-1 만큼의 비율로 늘려주니 경험적으로 모분산에 약간 더 가까와지고, 실용적으로도 더 좋더라 하는 것을 발견했습니다. 이것은 20세기 초 통계가 학문으로 정립되기도 전에 일어난 일입니다.
어차피 모분산을 모르는 상태에서, 표본의 분산보다는 표본분산이 더 잘 맞더라 하는 게 경험으로 확인이 됐기 때문에, 그 후 통계학이 학문으로 성립된 이후에도 계속 n-1을 쓰던 관례가 이어져 내려온 겁니다.
자유도로 설명하는 건 그 후 아주 한참 후에 갖다 붙인 설명입니다.
-
엠피리컬 값이라면 그냥 받아들여야 하나요 ㅠㅠ 이거참 좀 황당하네요…자유도로 해석 하면 이론적으로 유도가능하고 설명가능한가요?
-
-
https://stats.stackexchange.com/questions/100041/how-exactly-did-statisticians-agree-to-using-n-1-as-the-unbiased-estimator-for
https://en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviationn-1 yield unbiased estimator. (subtract 1 because we estimate one parameter or sample mean is fixed)
vs
n yield maximum likelihood estmator. -
어째 하는 소리가 우리 76.***.204.204 이랑 똑같냐. 아이피 바꿨나?
-
한국서 수십년전 분산을 배울때 n-1 으로 나누었었는데,
이제 미국서 n 로 나누니 저 또한 혼란이 왔었죠. -
자유도 설명으로도 여전히 이해 안됨.
아마 모평균 구하는거 자체가 뜬구름 집는거란 전제가 있는듯. 모집단의 구성원이 n개라는것도 사실 확실한게 아니쟎아. 가정일뿐. 문제는 모집단의 구성원을 무한데라고 해놓고 모든 통계를 구하고서는 그걸 파이나이트한 갯수 n으로 놓고 설명을 하는데서 모순적 개념의 차이가 시작된듯. 확실한건 샘플의 갯수와 샘플의 평균이고 그 이외에 분산 표준편차는 다 바이어스가 개입되는듯. n을 파이나이트로 보지말고 미적분처럼 인피니트로 다루고 통계이론 공식을 다시 재정립해야 할듯.
-
간단한 이해법: (표본의 시스템은 닫힌 시스템으로 생각하고 모집단은 열린 시스템으로 가정하는 전제조건이 있어야 한다. 그렇게 생각하면 자유도 개념없이도 간단하게 설명된다.)
1. 닫힌 시스템이란 무엇인가? 주어진 표본을 고를때 고른 표본집단안에 평균값을 가진 표본이 존재하면 닫힌 시스템이라 정의하고 표본집단안에 평균값을 가진 표본이 존재하지 않으면 열린 시스템이라 정의한다.2. 그럼 표본을 일단 모집단에서 10개를 고르자.
1,2,3,4,5,6,7,8,9,10 의 열개를 골랐는데 평균을 구해보니, 5.5 가 된다. 그런데 5.5 는 고른 표본집단에 존재하지 않는다. 그러므로 이 표본은 닫힌 시스템에 존재하지 않으니, 우리가 원하는 닫힌 시스템의 표본집단이 아니다. 즉 이 표본집단은 우리의 통계적 목적에 부합하는 표본집단이 되지 못하고 차라리 모집단에 가깝다.다시 이번에는 표본 10개를 골라보자,
1,2,3,4,5,5, 6,7,8,9
이것의 평균은 5가 된다. 5라는 표본이 2개가 뽑힌거다. 같은 값을 가진 표본이 당연히 존재할것이므로 이것은 아무런 문제가 되지 않는다. 이 경우는 5를 가진 표본이 표본집단안에 존재하므로 우리가 원하는 닫힌 시스템이고, 이 집단은 우리의 표본집단으로 정의 가능해진다.3. 모집단의 갯수를 N이라하고 표본의 갯수는 n이라고 구분을 하자. 평균을 구할때는 모집단이나 표본집단이나 전체의 합을 전체 갯수로 나눈다. 즉, 위의 표본의 정의를 따를때, 표본의 평균값을 구할때에도 전체갯수 n 으로 나누지 (n-1) 로 나누지는 않는다.
4. 그러나 분산을 정의할때는 달라진다. 이때는 굳이 자유도 개념을 이용할 필요는 없지만, 자유도라는 개념을 더 잘 이해할수 있게는 된다.
표본에서 분산은 각 표본이 평균값을 가진 표본값으로부터 얼마나 거리가 떨어져있는지, 그 거리의 제곱들의 합을 일단 더해서 분자로 이용한다. 그 후 이 거리의 총 갯수들을 분모로 사용하여 나누어서 분산이 정의 되는것이다. 자, 그러면 이때 10개의 표본중에 한개는 평균값을 가진다.(이 경우는 두개 표본이 평균값을 가지지만 5값을 가진 두개의 표본중에, 1개만 평균값으로 지정해주자. 그러면 각 9개의 표본값으로부터 평균값을 가진 표본까지의 거리를 생각할수 있으므로, 9개의 거리가 정의가 되는것이다. 즉, 거리의 갯수는 (n-1) 이 생긴것이고 이것으로 거리의 제곱을 합한것을 나누어준다. 즉, 왜 표본집단에서는 n으로 나누는것이 아니라 (n-1) 로 나누어야 하는지가 설명이 된것이다.5. 모집단에서는 여전히 분산을 구할때 (N-1) 이 아니라 N 으로 나누어주어야 한다. 왜냐고? 1 의 전제 조건을 다시 곱씹어 보면 바로 답이 나온다. 그래도 이해못하면 개인적으로 유료과외 받아야 하니 연락해라.
6. 5번의 이 설명은 사실 자유도의 기본 개념을 포함하고 있다. 즉, 10개의 점들이 1차원 공간에 분포되어있을때 이 점들을 1차원으로 연결하는 방법으로 모두 연결해준다고 할때 점들의 갯수가 n 개면 연결해주는 라인은 (n-1)개가 되는것이다. 즉 자유도가 하나 사라졌다. 표본집단에서는 연결하는 막대기 갯수들을 세지만, 모집단에서는 1번에서 오픈 시스템으로 정의했으므로, 멤버들이 굳이 막대기들이 자유도가 줄어들지 않는다.
7. 이 방법으로 생각하면 중학생도, 분산공식에서 표본에서는 분모가 (n-1)과 모집단에서는 분모가 N의 차이를 이해가능해진다. 가장 간단한 자유도라는 개념(표본갯수와 연결라인의 갯수 차이)도 덤으로 쉽게 이해할수 있다.
-
열린 시스템, 닫힌 시스템… 비유가 더 어렵게 만드는 듯 합니다.
중딩 수준으로 다시 해봅니다.
경우 1: 아래 표본으로 모분산을 추정하시오
표본 개수: 4개
표본값: 1, 2, 3, 4
표본평균: 2.5경우 2: 아래 표본으로 모분산을 추정하시오
표본 개수: 4개
표본값: 1, 2, x, 4
표본평균: 2.5경우1과 경우2가 똑같다는 사실을 이해하면 자유도를 거의 다 이해한 것입니다. 경우 1에서 표본이 4개 주어졌는데, 자유도가 4가 아니라 3이므로 4대신 3으로 나누라고 통계책에서 가르칩니다. 왜 그런가 봤더니 어라? 경우2를 보니까 진짜 표본이 3개만 주어졌는데 어쩐지 x가 뭔지 알 것만 같네요? ㅎㅎㅎ
그렇습니다. 경우 1에서도 이 표본분산을 계산하는데 독립적으로 기여한 파라미터의 개수가 사실은 3개 뿐이었던 것입니다. x는 1, 2, 4와 연결돼 있는 저 가짜 평균 2.5로부터 도출되는 정보고요. 경우2에서 2.5가 표본평균이 아니라 예를 들어 모평균이라면, x가 꼭 3이어야 할 이유가 없고 x가 7일수도 8일수도 있습니다, 하지만 2.5가 표본평균일 때는 x는 반드시 3이 되어야 합니다.
경우1과 같이 샘플링을 한 후에, 그 표분분산을 계산하는 식을 유심히 보면 표본의 평균 (위의 경우 2.5)이 사용됩니다. 즉 표본 4개 중에 표본 3개만이 독립적으로 통계량 계산에 기여하고, 마지막 1개가 쓸모없는 이중 정보가 됩니다. 경우 2와 비교해보면 확실하죠.
이렇게 통계량에 독립적으로 기여하지 못하는 파라미터 개수를 k라고 할 때, n-k를 자유도라고 부릅니다. 거꾸로 읽어도 됩니다. 자유도는 독립적으로 통계량에 기여하는 파라미터의 개수.
자유도가 높아지면 통계량의 신뢰성이 높아지고, 자유도가 낮아지면 신뢰성이 낮아집니다.
표본 분산의 경우 n이 아니라 위의 이유로 자유도 n-1로 나누어서 계산 결과값이 약간 더 커지도록 보정합니다. 어? 왜 커지게 하죠? 작아지는 게 더 정확한 거 아닌가요? 표본의 분산은 실제 모분산보다 더 작게 관측되더라는 게 경험치이고요. 그래서 보정은 계산값을 키우는 쪽으로 합니다.
이렇게 보정된 표본분산은 unbiased estimator이다 라고 통계책이 말합니다. 개별 표본분산은 오류가 있는 추정치이지만, 이 방식으로 표본분산을 1차, 2차, … m차 계속 계산해나가면 그평균값이 모분산에 수렴한다는 것이, 증명되어 있나봐요. 결국 처음에는 모른다고 생각되었던 모분산이 나오기 때문에 unbiased 라고 부릅니다.
어떻게 증명하는 건지는 나도 모름. 주사위를 누군가 1백만번 던지든지 했겠죠.
Edit:
찾아보니 증명은 실험없이 수식 전개로 하는군요. n과 n-1의 미묘한 차이를 다루는 것이라서, n-1을 쓰는 게 더 맞다라는 주장을 받아들이는 건 직관적으로는 어렵다는 거 공감합니다. 표본분산의 기대값이 모분산과 일치한다는 수학적 증명이 있으니, 그게 맞겠거니 하고 써야 하는 건가 봅니다.
-
>> 경우1과 경우2가 똑같다는 사실을 이해하면 자유도를 거의 다 이해한 것입니다. 경우 1에서 표본이 4개 주어졌는데, 자꾸 4가 아니라 3으로 값을 나누라고 통계책에서 가르칩니다.
1. 우선 용어부터 구분을 하고 시작하죠. 표본은 영어로 샘플이라하고 모집단은 파퓰레이션이라고 하는거라, 모집단의 평균과 표본집단의 평균은 다릅니다. 사실은 표본집단의 평균값은 측정으로 알수 있지만 모집단의 평균은 알수 있는 방법이 없고 (왜냐하면 보통 모집단은 워낙많아서 그걸 세월아 네월아 개체를 다 측정하고 셀수가 없으니까..그래서 사실 무한대 갯수로 생각하는거나 마찬가지.) 그냥 표본집단의 평균값을 가져다 씁니다.
여기서 주의해야 할것은 표본집단의 평균값은 표본집단의 개체수로 n으로 나눕니다. n-1 이 아니라. n개의 표본평균은 그냥 n으로 나누니 평균값 구할때는 모든 개체를 독립변수로 취급한다는 이야기죠. 그런데 표본의 분산을 계산 할때는 n-1 로 계산 해야 하는데, 이건 분산구하는 식에 표본 평균식이 들어가기 때문에 이게 하나의 제한조건이 되기 때문에 그래요. 즉 표본 평균을 구할때는 제한조건식이 하나도 없었는데 분산을 구할때는 표본평균식이라는 제한조건이 한개가 생긴거죠. 보통 물리학이나 수학에서 쓰는 자유도라는것은 독립변수갯들에서 제한조건의 갯수를 빼주면 자유도가 되는데, 여기서는 n개의 독립변수가 있었는데 표준평균이라는 제한식이 한개가 있어서 자유도가 n-1 이 된겁니다. 그래서 표본 분산을 구할때 (n-1)로 나누어주는거에요. 표준평균은 n 으로 나눠주고요.
그런데 모집단의 경우는 어차피 처음부터 모집단의 평균은 모른다고 했으니 제한식이 하나도 없는 겁니다. 그래서 모집단의 분산을 구할때는 그냥 독립변수 N 으로 나누어주는거에요. 모집단의 자유도는 여전히 N 이니까. 사실 이부분을 더 일리가 있도록 이해가게 쉽게 설명하기 위헤 위에 열린시스템과 닫힌 시스템이라는 개념을 도입한겁니다.그림을 아래처럼 한번 그려보죠.
o —- o —– o ——- o —— o
o | o -- - o --- o | o
위에 노드들을 샘플이라고 하면 5개의 노드가 있으니 5개의 샘플이 되는것인데, 평균값을 구할때는 이 노드값들을 이용하는데, 표준분산을 구할때에는 노드값들을 이용하는것이 아니라 각 노드들과 평균노드와의 차이를 가지고 구하는거죠. 이걸 레지듀얼이라고 정의하기도 하는데, 이 차이가 바로 그림에서 노드들을 연결해주는 라인들이 의미하는 겁니다. 그런데 라인의 갯수는 4개가 되죠. 5개중의 하나가 평균노드인데, 그 노드와 나머지 4개의 노드가 연결되는 라인이 4개라는 겁니다. 그래서 표본분산에서는 5가 아니라 4로 나누어 주는거죠. 근데 모집단에서는 그럼 왜 여전히 5로 나누어 주는 것이냐? 이걸 설명하기 위해 모집단에서는 열린시스템이라는 개념을 설명해준겁니다. 즉 모집단의 평균 노드는 저 5개중에 하나가 아니거든요. 나머지 가상적인 노드 하나를 생각하면 그 노드와 위에 5개의 노드들을 라인으로 연결하면 여전히 연결하는 라인들이 5개가 생기는 거죠. 그래서 모집단의 분산은 5로 나누는 거에요. 다시말하면 모집단의 분산을 구할때는 제한식이 1개도 없어서 자유도가 모집단의 갯수 N 과 같은 겁니다.
>> 표본 분산의 경우 n이 아니라 위의 이유로 자유도 n-1로 나누어서 계산 결과값이 약간 더 커지도록 보정합니다. 어? 왜 커지게 하죠? 작아지는 게 더 정확한 거 아닌가요? 표본의 분산은 실제 모분산보다 더 작게 관측되더라는 게 경험치이고요.
이건 대부분의 사람들이 설명하기를 우리가 표본을 선택할때 평균값 주위의 표본을 선택하는 경향이 있기 때문에. 그런데 그게 당연하죠, 평균값 주위에 분포된 표본들이 더 많으니 우리가 선택할때 평균값 가까이 있는걸 표본으로 선택할 확률이 더 많이지니까. 결국 이런 경향성 때문에, 표본의 분산은 원래 가우스 곡선의 분산값보다 더 작은값을 갖는 경향이 생기겠죠. 그런데 우리는 이런 경향(즉 원래 모집단의 분산보다 표준분산값이 더 작아지는 경향. 이걸 수식적으로는 https://en.wikipedia.org/wiki/Bessel%27s_correction 에서 보이고 있음.)을 이미 알고 있으니까 원래 n 으로 나누기보다는 n-1 로 나누어서 분산을 의도적으로 더 큰 값으로 만들어주는거죠. 그런데 이런 설명으로는 왜 그럼 n-2, n-3, ….n-k 가 아니라 하필 그럼 n-1 을 선택했냐라는 질문이 생기게 되는거죠. 사실 n-1 로 나눈경우에 기대값의 수식을 이용해서 모집단의 분산이 표본집단의 분산과 같다는걸 보일수는 있는데….이게 n-1 로 나누는것에 대한 증명이라고 하기엔 좀 …. 그렇네요. 너무 증명이라고 하기엔 논거가 너무 약해요.
-
-
증명을 읽어봤는데 음 그렇군그렇군 하는 정도로 읽을 수 있을 만큼 짧기도 하고 거기에 필요한 추가 가정도 간단해서, 수학자들이 이 정도 검증/증명해놨으면 n-1을 쓰는 게 수학적으로도 정답이군 하고 받아들이면 된다고 생각합니다. 수학적 증명은 끝난 문제고요.
님이 설명하신 것 거의 다 동의합니다. 그림 빼고요.
그 독창적인 그림 설명은 어디에서 온 건지 궁금하네요. 저는 그걸 비유라고 생각했는데 재차 설명하시는 걸 보면 그걸로 표본분산의 자유도를 설명하는 게 있나봐요?
통계량을 다루는데 평균값이 표본에서 발견이 되냐 안 되냐, 즉 if 조건이 알고리즘에 쓰이는 경우를 본 기억이 없는데요. 샘플이 1 2 2 3 이라면 설명할 수 있지만 샘플이 1 2 3 4이면 설명을 못 한다니 그게 뭔 말입니까.
-
>> 샘플이 1 2 2 3 이라면 설명할 수 있지만 샘플이 1 2 3 4이면 설명을 못 한다니 그게 뭔 말입니까.
맞는 말인데요. 자유도를 설명하기 위한 방법으로는 저게 아주 좋은 방법이라서요.
그런데 사실 언바이어스드 에스티메이터(불편량 추정치)를 자유도를 이용해서 정의한건 원래 이론적으로 맞지 않아요. 이론과 경험치의 괴리를 껴맞추기위한 억지로 생각해낸 보정치일뿐이에요. (그러니 어떤 경우는 자유도가 정수이냐 프랙션 넘버도 가능하냐란 질문도 보이네요. 자유도가 무슨 프랙션 넘거가 있나?) 모집단의 통계치가 모두 측정불가능한데 측정가능한 표본의 통계치로 추정을 하려다 보니 그런 괴리가 생긴거고 그걸 보정하려고 억지로 자유도라는 개념을 강요하고 있는거에요. 그래서 보정을 계속 해주어야 하고요. 이론적으로는 모집단의 통계를 공식으로 다루는건 가능한데 측정을 할수는 없으니까. 그래서 나도 자유도를 더 알기쉽게 설명하기 위해 열린 시스템 과 닫힌 시스템을 이야기한거에요. 자유도라는건 닫힌 시스템(시스템에 대한 컨스트레인트)이 존재해야 n에서 1을 뺄수 있는것이니까. 표본집단을 이미 닫힌 시스템으로 가정한거에요. (평균을 구할때 컨스트레인트를 주겠다는. 이건 사실 일반적 집단의 분산의 정의가 아니라 닫힌 시스템 집단이라고 가정을 해버린거죠. )
그럼 왜 하필 n-2, n-17, n-100 이 아니고 n-1 이냐?
이것도 그냥 이론적 모집단 통계치에 맞추다 보니까 n-1 이 가장 적당한 거에요. 자유도로 이론적인 공식으로 유도 된것이 아니고. 자유도는 그냥 편의상 n-1 을 억지로 설명하기 위한 핑계에 불과한것이고. 사실은 표본갯수가 작아질수록 보정값을 더 크게 만들어 주어야 해요. 모집단에서 노동자들을 표본으로 추출할때 할당량(전체 노동자수가 할수있는 하루노동량)이 항상 일정하게 정해져 있는데(모집단의 분산) 그걸 적은 수의 노동자들이 할려면 일일 할당량에 훨씬 못미치니 그 부족한 만큼을 억지로 채워주기 위해서 나누어주는 수가 저 수인데, (n-1) 로만 나누어주는게 아니라 노동자수가 작을수록 더 작은 수로 나누어주어야 노동량을 더 크게 보정해줄수 있는거죠. 그러니 (n-1) 로 나누어 준다는건 역시 이론적 공식이 아니라 그냥 억지로 보정해주기 위해 나누어 주려다 보니, 그리고 그걸 자꾸 샘플수에 따라 다르게 나누어주면 복잡하니까 (n-1) 로 고정시켜 나누어주기로 한것 뿐입니다.근데 기대값이란 개념이 고등학교때엔 별생각없었는데 보기엔 아주 간단한 정의처럼 보이는데 사실 보통 간단한 정의가 아니네. 제대로 정의하려면 엄청 복잡할듯. 앙상블 갯수를 모두 고려해야 하는거니…
-
(n-1) 로 나누어주는 이론적인 증명으로 다음과 같은 증명을 말하는데, 사실은 이 증명에는 마술같은 속임수가 숨겨져 있어요. 제대로 된 일반적인 경우에 대한 증명이 아니고 아주 중요한 마술같은 전제가 하나 숨겨져 있습니다. 그 경우에만 이 증명이 성립하는거에요.(다시 말하면 그경우에만 자유도 n에서 1을 빼는게 성립하는 경우. 즉 제한조건이 딱 한개인 경우를 이용했는데 그걸 숨겨버린것에 사람들이 감쪽같이 넘어간것임. 결과적으로 이 증명이란게 마치 이론적 증명처럼 보여져서 많은 사람들을 혹세무민에 빠트리는 원흉중에 하나가 됨.) 다만 구글 검색을 좀 해봤는데 아래 동영상이 그나마 마술적으로 잘 속임수를 감추며 스무드하게 유도를 보여주고 있네요. 나머지 검색들은 그나마도 버벅거리는게 많네요. 속임수가 뭔지 한번 찾아보세요.
-
어디가 속임수인가요? 별 문제 안 보이는데요. 그리고 일반적인 증명 맞는데요.
가장 큰 전제는, 모집단이 정규분포를 따른다는 거고요. 그건 명시적으로 얘기 안 했지만 정규분포 가정은 일반적인 거잖아요.
뭘 숨겼다는 겁니까.
-
정규분포를 이야기하고 있다는거 자체가 지금 쇄뇌가 되어 있어서 속고 있어서 그런거에요. 저 증명은 사실은 정규분포까지도 갈 이유가 없거든요. 근데 교묘하게 사람들이 어려운 개념들을 믹스해서 혼동해서 알다보니까 속아버리고 만거에요. 자세한건 이야기할것 없고, 기대값의 정의에 대해서 기본부터 곰곰히 생각해보세요. 기대값의 정의도 레이어가 양파껍질처럼 여러겹인데….자유도로 설명할때의 그 n-1 은 사실은 초보적 개념의 기대값만 가지고 정의된건데 자꾸 정규분포니 확률분포를 가져와서 완전 마술로 속임수를 써서 어디서 혼동되는지조차 모르게 스무드하게 넘어가 버린거에요. 사실은 (n-1) 을 쓸때의 n 은 원래는 표본만의 크기를 말해야 하는데, 이 혼동속에서 교묘하게 모집단의 갯수마저도 n 으로 속임수를 써버린거지요. n 과 모집단의 갯수는 엄연히 다른건데, 독자들은 마술에 홀려서 그걸 망각하고 넘어가 버리는 거죠. 저걸 제대로 증명하려면 기대값 E(.) 오퍼레이터부터 정규분포함수를 쓰든 뭐든 제대로 정의하고 증명을 시작해야 겠죠. 일단 저 증명에서는 기대값 오퍼레이터부터 제대로 정의가 안되어 있어요.
-
모집단의 개수가 n이라는 말은 어느 누구도 한 적이 없는데 왜 다른 사람들이 그렇게 말했다고 주장하죠? 제가 읽은 모든 곳에서 n은 표본의 크기라고 말하고 있어요.
저기에 어려운 개념이 뭐가 있다고 속았다고 자꾸 그러죠? 뭐가 속았다는 거에요?
지금 산수 얘기를 하고 있는데 뭔 종교/주술식 전개를 하고 있나요. n=3이다 를 반박하려면 n이 3인 아닌 이유는 이러이러하다, 또는 이러이러해서 n=4이다 이렇게 말씀하시면 됩니다. 니가 모르는 매직이 있는데 n=3이라는 건 사실 니가 속고 있는 거야, 뭡니까 이게 산수 얘기 쓰레드에.
님의 설명에서 형용사 (교묘하게, 어려운, …) 들과 마술, 망각, 속임수, … 등과 같은 수학 얘기에 나오면 안 되는 단어들을 제거하고 다시 설명해보세요.
-
지금은 이야기 안할래요.
-
저 증명을 이론적인 증명으로 받아들이는데 거부감이 들어 계속 거부했는데, 보면 볼수록 나도 쇄뇌된 느낌. 틀린예를 찾기가 힘드네.
이 증명을 받아들인다면, 저 위에 내가 단 댓글들의 관점이 많이 틀리게 되네요.
자유도 해석법이 이론적인 근거가 되는거 같아요. 경험적인 보정치로서의 의미뿐만아니라.
n-2, n-1.5 등등이 아니고 분산에대한 언바이어스드 에스티메이터로는 (n-1) 로 나누어주는것만 이론적으로도 유일한 솔루션이 되는것으로 받아들여야 하는듯. A C 이 알수없는 거부감…여전히 찝찝해.다만,
해석방법을 다음과 같이 보정계수(CorrCoeff) 를 구해봤더니 우연히도 n/(n-1) 이 되더라라는 아래와 같은 관점을 취할수는 있을듯.즉,
Sb^2 : Biased Estimator
S^2: Unbiased Estimator,
라고 할때, CorrCoeff(n) 을 구해보니S^2 = CorrCoeff(n)* Sb^2
CorrCoeff(n) = S^2 / Sb^2
= n/(n – 1) = 1/ (1 – 1/n )우연히 CorrCoeff(n) = 1/(1 – 1/n) 이 된것일뿐이 라고 해석. 보정계수는 항상 1 보다 큰 수이다.
위식을 기대값을 취해서 다시 표현해보면
E[ S^2 = CorrCoeff(n)* Sb^2 ]
E( S^2 ) = E( CorrCoeff(n)* Sb^2 )
E( S^2 ) = CorrCoeff(n)* E(Sb^2)
sigma^2 = n/(n-1)* E(Sb^2)E(Sb^2) = (n-1)/n * sigma^2
-
위에서
1. Biased Estimator 는 우리가 이미 알고 있고 언바이어스드 에스티메이터의 기대값이 시그마제곱임도 알고 있으므로
2. 먼저 보정계수를, 기대값을 이용해서, 구하고,
3. 구해진 보정계수를 이용해서, 우리가 알고싶은 최종 목적인 언바이어스드 에스티메이터가 구해진다.즉, 유도과정에서 자유도라는 개념을 전혀 도입할 필요나 상관없이 n대신 (n-1) 로 나누어지는 언바이어스드 에스티메이터 가 구해지는 것이다. 후…이제 좀 찝찝함이 없어졌네.
그럼 다시 자유도 해석접근법으로 돌아가서…..자유도로 접근하는 방법은 이 문제에 또 다른 근본적인 해석 접근 방법을 진짜로 제시해주는걸까? 아니면 겉으로 보기에만 관련있는것처럼 보이는걸까?
-
-
-
-
-
> 그럼 다시 자유도 해석접근법으로 돌아가서…..자유도로 접근하는 방법은 이 문제에 또 다른 근본적인 해석 접근 방법을 진짜로 제시해주는걸까? 아니면 겉으로 보기에만 관련있는것처럼 보이는걸까?
님 생각하고 제 생각하고 이제 같습니다. 그리고 저도 어느 정도 후자처럼 추측합니다. 자유도라는 용어와 개념은 꽤 괜찮은 비유 아니냐 하는 거죠.
그 통계량의 자유도가 본질적으로도 직관적으로도 n-1이어서 거기에 n-1이라는 팩터가 나오는 게 아니고, 수학적으로 n-1이 유도된 후 그것을 비수학자에게 설명하기 위한 비유로 거기에 자유도라는 물리학 용어를 가져다 쓰는데 우연히 그게 참 잘 맞았었던 게 아니냐 하는 정도.
이게 표본분산 딱 하나에서만 n-1 얘기가 나오면 여기에 굳이 자유도라는 말을 가져다 붙일 이유가 그다지 없다고 봅니다. 그런데 Fisher의 또다른 연구인 분산분석에 n-k의 팩터가 또 나온다고 합니다 (분산분석 몰라요). Fisher는 물론 자기가 만든 방법이니까 수학적 증명을 했겠지만, 수식에 나오는 n-k 이라는 팩터의 본질에 대해 좀 더 잘 이해시키는 방법이 필요했겠죠.
그리고 나서 표본분산을 되돌아보니 거기에 나타나는 n-1과 분산분석에 나타나는 n-k의 공통점에 대해 고찰을 하고 난 후, 이건 물리학에서 사용되는 자유도 개념에 비유하면 거의 비슷하다는 것을 발견하고 그 n-1, n-k 라는 팩터에 자유도라는 이름을 붙인 게 아니냐 하는 생각이 듭니다.
통계학에서 자유도라는 말을 교과서에 남긴 첫 사례가 Fisher라고 합니다. 이리저리 찾아보니 그래요.
Fisher가 쓴 통계책인 Statistical Methods for Research Workers라는 책이 4판까지 나오느데 이게 거의 현대 통계 교과서와 비슷합니다. 그런데 Fisher가 밝힌 이 책의 주요 audience가 생물학자들입니다. 생물학자들 대상의 책이므로 수학적 증명으로 이해시키는 것보다는 비유를 들어 “이해한 것과 같은 착각”을 들게 하는 방법을 동원하는 것은 유효하다고 생각합니다.
그래서 제 의견을 요약하면 님 의견과 같은데요.
비유는 비유일 뿐이다.
“자유도가 n-1이므로 그 수식에 n-1을 사용한다”라고 설명하는 건 사실 이해하지 못 했지만 이해한 것과 같은 착각을 일으켜 수식에 대한 거부감을 줄여 수용 정도를 높이는 용도인 것이고 (‘그렇군’ 하고 일단 넘어가는 사람들이 많을 테니),
“수학적으로 샘플의 분산이 모분산보다 (n-1)/n 만큼 평균적으로 작기 때문에 그 역수 n/(n-1)을 곱하여 보정하는 과정에서 n-1이 수식에 나타난다”라고 이해하면 본질을 이해한 것이다 라고 생각합니다.
-
좀더 생각을 해봤는데,
생각할수록,
저 증명을 통한 언바이어스드 에스티메이터를 구하는 방법과 인디펜던트하게, 자유도를 이용한 방법도 다른 하나의 방법으로 인정해야 할것 같은 생각이 듦.자유도 해석방법으로 다시 돌아가서, 클로즈드 시스템과 오픈 시스템을 다시 가져와서 해석을 다시 하면,
Case A. 표본 집단의 표본평균을 구했더니 평균값이 표본 집단에 존재하지 않으면(즉, 표본집단이 오픈시스템) (n-1)이 아니라 n으로 나누어주는 그 표본 집단의 분산이 바로 언바이어스드 에스티메이터가 됨.즉 표본 분산의 기대값이 바로 모집단의 분산이 됨. 이 경우는 표본평균이 바로 모집단의 평균이 됨.
에) 표본집단: {1,2}이고 ,모평균이 1.5인 경우에 해당.Case B. 표본 집단의 표본평균을 구했더니 평균값이 표본 집단안에 존재하는 표본중에 하나면(즉, 표본집단이 클로즈드 시스템), 이 경우에는 표본분산이 모집단의 분산과 서로 다름. 표본평균도 모집단의 평균과 서로 다름. 이 경우는 (n-1)로 나누어준 표본의 언바이어스드 바이어스 에스티메이터의 기대값이 모집단의 분산이 됨. 예: 표본집단이 {1, 1.5, 2} 이고 모평균이 1.5인 경우에 해당. 이경우에는 아래와 같은 해석법으로 자유도와 연관해서 이해할수 있음.
즉, 분모의 샘플의 분산에서는 (n-1) 을 나누어주고 샘플의 평균에서는 그냥 n 으로 나누어주는걸( 원래의 표본갯수로 나누어주는 평균이나 분산의 정의를) 어떻게 컴프라마이즈하지 않으면서 설명해줄수 있느냐인데, 사실 표본 평균을 n 으로 나누어서 구하는건 우리의 알제브라 상식과 부합하는 당연한 것이므로 문제가 없고, 샘플의 분산은 어떻게 -1 이 된 자유도를 해석해야 하는 문제인데, 샘플자체를 원래의 샘플스페이스에서 다른 샘플 스페이스로 보내버리는것임. 무슨 말이냐면, 원래의 평균(샘플들의 평균위치)을 구할때의 샘플 집단이 (공간이든 2차원이든 또는 1차원이든. 1차원 수직선상의 점들로 상상하는게 가장 간편한 경우) 점으로 이루어진 샘플이라고 했을때 (즉, 주어진 좌표계에서 위치를 나타내는 포인트의 샘플들), 분산을 구할때는 더이상 샘플들이 위치를 나타내는 점들이 아니라, 샘플들의 평균점과 샘플 포인트들과의 거리(또는 길이가 다른 막대기들. 표본집단이 오픈시스템이면 평균점 위치가 표본집단에 없으므로 막대기들을 만들수 없음.)로 이루어진 샘플스페이스에서 통계를 생각해주는 것임. 원래의 평균을 구하는 통계는 위치를 가진 점들의 통계치가 샘플스페이스였는데, 샘플들과 샘플의 평균위치와의 분산을 구할때는 위치로서 통계치를 구하는것이 아니라 평균위치까지의 거리(길이가 다른 막대기들)의 제곱을 가진 샘플들의 분산을 구해주는 것임. 결국 분산을 구할때 표본개체가 (n-1) 개로 줄어든것임. 그래서 자유도가 -1 이 된 분산을 우리가 알던 원래의 알제브라의 상식적인 정의대로 (막대기들의 표본 갯수자체가 n-1 이므로) 계산할수가 있게 됨.
이 해석법은 샘플스페이스가 위치를 가진 포인트로 된 샘플이든 아니면, 이제 변형되어서 두점사이의 거리(길이가 다른 막대기들)로 이루어진 샘플들이든 샘플의 물리적인 형태에 의미에는 아무런 관심을 두지 않고 오로지 통계치 ‘스칼라 숫자’ 에만 관심을 가지는 것임. 즉, 모집단에서의 분산은 여전히 위치를 가진 점들의 분산을 다루는것인데 샘플집단에서 분산을 구할때는 점들이 아니라 막대기들을 가지고 다루는 것임. 그런데 어차피 거리라는 샘플갯수가 무수히 많아져서 모집단의 점들의 갯수와 근접하면 두 분산은 일치하게 됨. 하나는 거리에 대한 분산이고 하나는 위치에 대한 분산을 의미하는 것이더라도 분산은 서로 근접하게 됨. 아래 글도 참조하면 도움이 될듯.
-
그러고보니,
위에서 표본의 피지컬 형태를 포인트와 막대기로 비유를 했는데, 점은 n-(n-0) 차원의 오브젝트이고 막대기는 n-(n-1)차원의 오브젝트임. 스칼라 숫자의 통계치에만 관심을 가지는게 아니라, 이 피지컬 차원의 형태에 관심을 더 가지면, 사실은 n-1 은 머신러닝의 디멘션 리덕션과도 관련이 있고, n-1 뿐 아니라 n-2, n-17, n-k…. 등으로 나누는 경우도 해석이 가능해질듯. ( n-k 는 표본이 k 차원의 오브젝트들의 분산을 다루는것으로 해석 됨.)
보통 머신 러닝에서는 n차원의 피처를 가지는 표본들에 대해서 문제를 접근해 가지만, 이 경우는 그 반대의 경우로 문제를 접근해 가는것. 아이고 머리 아파. 이젠 배를 끌고 산으로 올라가네. 조난당하기 전에 내려가야 할듯.
-
-
-
F- test 라는게 피쉬 하고 상관있나보군요?
구글해보니
Z-test, T-test…..F-test 이런게 다 그런거군요. T-test 가 위에서 이야기한 통계치들과 직접적으로 연관되고 표준편차의 에스티메이터인 s 를 바로 이용하고 있고. F-test 도 한번 들여다 봐야 겠네. 근데 T-test 도 혹시 고등학교에서 다루었었나? z 로만 다루면 실제적으로 별 의미가 없으니 고등학교교과과정에도 있었을거 같네요. 흠…그냥 기계적으로 이해하고 이용한다고 생각하면 고등학생들도 충분히 풀수있는 문제들인데… -
이 n-1에 관해서, 자유도라는 단어를 정의하고 그것만으로 설명을 끝내면 두 가지 폐단이 있는 것 같아요.
첫째는, 자유도라는 단어가 물리학에서 가지는 정의와 효과에 얽매이는 겁니다. 물리학에서는 예컨대, “손목 관절 자유도 2, 팔꿈치 자유도 1, 만일 자유도를 하나 잃으면 회전 방향 하나를 잃음”, 이렇게 실생활에서 직관적으로 결과가 이해가 돼요. 통계에서 자유도의 경우에는 왜 “분산의 크기를 늘이는” 방향으로 그 효과가 나타나느냐 하는 걸 본질적으로 설명이 어렵습니다. “평균 구할 때는 n 그대로 썼잖아? 분산에서는 왜 안 돼? 될 거 같은데? 증거 있어?” 하는 질문 나오면 답하기 힘듭니다. 뭐 직관적으로 약간 그럴 거 같기도 한데? 정도의 답에서 그치는 거죠. 결국 기대값 증명으로 되돌아가야 합니다.
두번째는, “왜 그게 꼭 n-1 이냐, 표본평균이 모평균과 같은 값은 아닐 테니까 표본평균을 수식에 쓰면 부정확성이 있다는 것을 감안한다 쳐도, 그 보정 팩터가 게 왜 꼭 n-1이냐” 하는 질문을 할 수 있습니다. “사실은 n-0.9999나 n-1.0001 이 더 정확한 값인데, 당시에는 컴퓨터가 없어서 계산의 편의성을 위해 n-1로 퉁친 거 아니냐? 그게 혹시 0.9999n 과 같은 값이면 더 정확해지기도 하나?” 하는 질문도 할 수 있어요. 이것도 결국 기대값 증명으로 되돌아가야 합니다.
n-1의 유래에 대해 얘기하지 않은 채, 물리학에서 기능적으로 비슷하게 정의됐지만 그 효과가 다른 단어를 통계에 도입해서 마치 비슷한 양 설명을 하는 것의 한계라고 봅니다.
-
>> 물리학에서는 예컨대, “손목 관절 자유도 2, 팔꿈치 자유도 1, 만일 자유도를 하나 잃으면 회전 방향 하나를 잃음”, 이렇게 실생활에서 직관적으로 결과가 이해가 돼요.
물리학이든 수학이든 여기 통계에서 쓰는 자유도든, 결국 같은 수학적 의미를 담고는 있는듯합니다. 즉 우리가 쓰는 파라미터가 n 개일때, 이 파라미터를 제한하는 수식의 갯수가 k개면 자유도가 n-k 라는 원리는 같은거 같아요. 문제는 수학의 문제는 이상화 추상화 시킨것이라서 현실에 비해서는 간단한 추상화를 시킨거라 현실에 적용이 어렵다는 거죠. 예를 들어 여기서 우리가 말하는 샘플을 보면, 샘플들의 측정치를 다 수학적으로 마치 포인트인거처럼 추상화 시킨거에요. 포인트는 트랜슬레이션에 대한 자유도만 생각할수 있지, 로테이션에 대해서는 생각할수가 없죠. 그래서 물리학으로 더 한단계 구체적으로 스텝업하면 말씀하신 로보트 팔들은 일단 막대기이지 점이 아니니 이제 회전을 고려할수 있게 된것이고, 회전에도 방향이 한방향이 아니니 회전의 자유도도 이제는 고려가 가능하게 된것이죠. 만약에 우리가 생각하고 있는 샘플이 n차원의 포인트가 아니라 n차원의 오브젝트라면 이제 자유도가 점차로 점점 복잡해지는 거에요. 고려사항이 점점 늘어나고 그래서 생각해야 할 파라미터는 점점 늘어나고 공간에 대한 제한 방정식이 점점 늘어나서 자유도 갯수가 점점 복잡해지는거죠. 우리가 n-1 로만 제한해서 지금 이 통계에서 생각하는 것은 우리가 다루는 문제가 지금 샘플이 포인트로 추상화가 가능한 문제라서 그런거 뿐이지, 꼭 분산의 언바이어스드 에스티메이터가 n-1 로만 나누어져야 한다는 보장은 없는거 같아요. 샘플의 오브젝트가 점점 더 점으로는 더이상 추상화되지 못하고 복잡한 경우를 고려해야 하는 문제라면 분산의 분모가 n-k 가 될수 있다는 거에요. 물론 n-k 의 자유도를 이해하기 위해서는 이건 기하학적인 해석이 더 필요하고요. 로봇팔이 여러개 연결된 회전동작에 대한 어떤 많은 측정치의 데이타를 다루는 통계에서는 분명히 회전의 자유도의 숫자가 언바이어스드 에스티메이터에 n-1 이나 다른 숫자로 나누어져야 하는 경우의 문제가 아마 있을거에요. 우리가 지금 모를 뿐이지. 어쨌든 통계책에서 다루는 통계는 대부분 샘플의 개체를 그냥 포인트로 다루고 있는 거에요. 그것만으로도 이해하기에 너무 벅차고 문제를 다루는데 충분하다고 느끼니까.
>> 통계에서 자유도의 경우에는 왜 “분산의 크기를 늘이는” 방향으로 그 효과가 나타나느냐 하는 걸 본질적으로 설명이 어렵습니다
아래에서도 언급했지만, 모집단의 평균이 표본집단의 평균과 다를때, 바이어스드 에스티메이터를 쓰면 표본집단의 분산이 거의 100프로 모집단의 분산보다 작거나 같습니다. 같은경우는 두 평균이 일치할때고요. 이건 아마 수식으로 증명한것이 어딘가에 있어요.
>> “왜 그게 꼭 n-1 이냐, 표본평균이 모평균과 같은 값은 아닐 테니까 표본평균을 수식에 쓰면 부정확성이 있다는 것을 감안한다 쳐도, 그 보정 팩터가 게 왜 꼭 n-1이냐” 하는 질문을 할 수 있습니다. “
여기에 대한 답도 결국 샘플이 포인트로 추상화되었기 때문이다라고 대답할수 있을거 같네요. 기대값을 통한 증명도 1차원상에서 정규분포를 이루는 샘플들로 추상화 되어서 n-1 로 나타나는 거 같아요. 정규분포를 보면 그냥 x 축은 일차원이쟎아요. 그게 1차원이니 -1 이 된거라는 겁니다. 왜 1차원이냐? 지금 샘플들이 가지는 특성값들이 모두 숫자로 나열되어 있쟎아요. 이 숫자들이 뭐죠? 그냥 수직선상에 일열로 나타낼수 있는 1차원에 나열되는 스칼라값들이쟎아요. 그래서 -1 이 나타난 것일뿐이에요. 이게 만약 샘플들이 벡터값을 가지는 더 복잡한 샘플들이라면 자유도가 -1 이 아니라 더 복잡한 숫자를 빼주어야 할거에요.
유명하다는 어떤 여자통걔학자가 쓴 자유도에 대한 아티클을 읽어보았는데 이 여자도 뭔가를 혼동하고 있는 느낌을 받았는데 많은 사람들이 이 개념에 대해서 많이 혼동하고 있는거 같아요. 쉬운 개념은 아닌거 같네요. 근데 이 문제가 가만보니 머신러닝에서 노말라이제이션과도 관계가 있는거 같네요. 레이어 노말라이제이션, 배치 노말라이제이션, 등등등 다만 머신 러닝쪽에서는 워낙 큰 데이타를 다루다보니 이런 자잘한 n-1 이냐 n 이냐 고 따지는게 의미없는 문제가 되어 버리는듯. ㅋㅋㅋ 솔직히 말해서 이 문제를 잡고 씨름할 가치가 없는 문제라는 생각이 결국엔 듭니다. 겨우 샘플이 30개 이하인 경우를 고려하기 위해서 이런 문제를 가지고 시간낭비하고 있다니… 에이고 나도 이 문제 고만 생각해야 겠어. 피시 디스트리뷰션도 그렇고 결과의 유용성에 비해 너무 지저분한거 같은 문제야.
-
-
그림에 관해서는 주화입마에 빠지신 듯.
아래 1~4번을 보세요. 1번 ~ 4번의 표본분산 계산 시 자유도는 각각 얼마입니까? 답: 1번, 2번은 2이고, 3번, 4번은 3입니다.
—
1번표본 개수: 3
표본값: 4, 5, 6
표본평균: 5자유도 얼마입니까? 3인가요? 2번과 비교해보세요. 2번과 같은 문제입니다. 답은 2죠.
—
2번표본 개수: 3
표본값: 4, 5, x
표본평균: 5표본평균이 주어졌기 때문에 x를 뽑을 필요조차 없죠, x가 뭐가 되어야 하는지 이미 아니까요. 6이잖아요. 표본분산 계산에 기여하는 독립 변수 개수가 2개입니다. 자유도 2.
—
3번표본 개수: 3
표본값: 4, 5, 6
모평균: 5자유도 얼마입니까? 헷갈리면 4번을 보세요. 4번과 같은 문제입니다. 답은 3이죠.
—
4번표본 개수: 3
표본값: 4, 5, x
모평균: 5표본 개수가 3인데 아직 2개밖에 안 뽑았어요. 모평균이 5라는 사실에서 x를 유추할 수 없습니다. x는 독립적인 아무 값이나 될 수 있어요. 예를 들면 7 이나 8 이더라도 모평균=5라는 사실과 여전히 조화를 이룹니다. 3번에서 세번째 값이 6이 나온 건 우연히 랜덤하게 나온 값이 하필 6이었던 것이죠. 자유도 3입니다.
—
설명을 점과 막대기의 개수에 연관시키려고 하면 1번과 3번에서 차이를 둘 수 없게 됩니다. 1번과 3번에서 둘 다 평균이 샘플에서 발견됩니다. 둘 다 edge의 개수가 n-1이고요. 그런데 자유도는 차이가 납니다. 어떻게 설명할 거에요?-
센스님의 4 경우는 모두 내가 앞에서 말한 Case B 에 속한 카테고리입니다.
Case B 에서 센스님의 1,2 경우에 해당하는 경우는 앞에서 설명에 포함시킨 예들이고,
Case B 에 여전히 속하는 센스님의 3,4 경우는 내가 언급을 하지 않았었습니다.Case B 는 표본집단에 표본의 평균이 샘플로 포함된 경우니 일단 표본집단은 클로즈드 시스템으로 정의가 되었습니다.
이중에 센스님의 1과 2의 경우는 우리가 모집단의 파라미터들을 무조건 모르는 경우로 취급합니다. 모집단의 파라미터를 모르는 경우는 무조건 표본평균이나 표본의 분산과 모수가 다른 걸로 취급합니다.
이 경우는 우리가 말하고 있는 자유도 n-1, 즉 2 를 언바이어스드 에스티메이터로 적용해줍니다. 왜냐하면 표본의 분산과 모집단의 분산이 다르기 때문이죠.그럼, 내가 언급하지 않았던 센스님의 3과 4의 경우는 어떨까요?
Case B 으 경우처럼 클로즈드 시스템인데, 센스님의 3,4 의 경우처럼 모평균을 이미 알고 있고, 모평균이 표본평균과 같아져 버리면,
그냥 (n-1) 를 고려한 언바이어스드 에스티메이터를 생각할 이유가 없어집니다.
그냥 원래 우리가 알던 방식대로 표본평균도 n 으로 나누고, 분산도 n 으로 나누면, 그게 모집단의 평균과 모집단의 분산의 에스티메이터로 바로 쓰이게 되는것이니 이 경우는 (n-1) 을 고려하지 않아도 됩니다. 우리가 (n-1) 을 고려해야 하는경우는 모집단의 평균을 몰라서 표본집단의 평균과 같지 않기 때문에 그런 겁니다. 그래서 3,4의 경우는 언급할 가치가 없어서 Case B 에 포함시키지 않았던 거에요.아마 다시 정리하면,
우리가 n-1 로 표본분산을 구할때 나누어주는 이유는,
샘플이 너무 작아서 모집단의 통계치와 표본의 통계치가 괴리가 생기는걸 너무나 잘알고 있기 때문에 보정이 필요한것이지,
샘플이 너무 작아도 표본의 통계치가 (특히 표본의 분산을 n-1 이 아니라 n으로 나눌때) 모집단의 통계치와 차이가 나지 않는 경우라면 자유도를 고려할 필요가 없었던 거죠. 근데 일반적으로 샘플을 구할때 전자의 경우가 너무 많이 생길테니 보정이 거의 항상 필요한거죠. 아마 다시 정리하면 이 n-1 보정은 현실의 적용에서처럼, 모집단이나 샘플이나 개체수가 너무 작아서 정규분포를 따르지 않는 경우 때문에 고려되야 하는거 같아요. 특히 샘플의 경우는 거의 항상 개체수가 작을수밖에 없으므로. 손으로 계산해서 분산계산할때나 생각할 문제지 머신러닝시대에는 전혀 쓰잘데기 없는 고려사항들입니다.-
>> Case B 으 경우처럼 클로즈드 시스템인데, 센스님의 3,4 의 경우처럼 모평균이 표본평균과 같아져 버리면,
그냥 (n-1) 를 고려한 언바이어스드 에스티메이터를 생각할 이유가 없어집니다.그런데 솔직히 이야기 하자면, 자유도만 가지고서는 이 논리의 근거를 설명할 방법은 아직 찾지 못했음. 그러니 자유도만을 가지고 수식을 유도할수 있는지는 나도 모르겠음. 그런데 이 논리의 근거는 사실은 E(X_bar – mu) 를 이용하면 쉽게 설명됨.
다만 한가지 주의 할점은, 현제 센스님은 평균에 대한 자유도와 분산에 대한 자유도가 같은것으로 착각하고 있음.
3,4 번의 일반적인 문제에서는 표본평균을 모른다고 생각하기 때문에 그 인과관계로 인하여 어차피 자유도가 3 이 되는게 맞는다고 생각할수 있음. 그래서 표본평균구할때 그 자유도 3로 나눈것임. 그런데 분산을 구할때는 자유도가 어떨까요? 어떤 경우는 평균과 분산에 같은 자유도를 나누어주고, 또 어떤 경우에는 평균에는 n을 나누어주고 분산에는 n-1 로 나누어주는데, 1,2번은 이미 표본평균값이 구해졌으니 2라는 자유도는 분산에 적용되는거고요. 3,4번은 아직 표본평균이 구해지지 않은 상태니 3이라는 그 자유도는 평균구하는데 나누어지는거에요. 그럼 분산에 나누어지는 자유도는 같을까요? 그런데 내 정의대로 적용 하자면, 5가 뽑혀 {3,4,5} 가 되었으면 표본평균이(여기서는 자유도 3을 이용해서 나누어줌) 4이므로 (모평균은 모르는걸로 가정) 클로즈드 시스템이 되었으므로 자유도를 2로 취급해야 하고, 2로 나누어주어서 분산을 구해 주어야 함. 만약 모평균도 4라는걸 이미 알고 있었다고 한다면, 그 경우는 그냥 3으로 나누어주어 분산을 구해주는것임. (이경우는 여전히 자유도를 2라고 할수도 있지만, 언바이어스드 에스티메이터를 쓰지 않고 그냥 상식적인 표본갯수로 나누는 분산을 이용함.)
4번의 경우를 보면,
이 문제를 자유도로 접근을 이론적으로 제대로 하기 위해서는 모집단의 평균을 어프라이어리로 이용해서 베이지안 씨어렘을 고려하는 다른 어떤 방법이 있을거 같기도 함.-
-1의 차이의 근본적 이유: 위에서 이야기한 샘플의 일차원적 속성 이외에,
1) 모집단은 열린 집단으로 처음부터 정의됨: 즉 모집단의 평균의 자유도는 n 이고 모집단의 분산도 자유도가 n 으로 처음부터 정의됨. 이건 사실 정규분포가 마이너스 무한대에서 플러스 무한대까지 분포하기 때문에 근본적으로 열린 시스템. 그런데 모집단이 유한한 샘플을 가진경우에도 분산의 자유도를 항상 n 으로 정의한것은 모집단은 항상 열린 시스템으로 정의했기 때문. 분산분석(ANOVA)를 보면 전체 집단에 해당하는 그랜드 평균과 그랜드 분산에 대해서 모두 자유도를 n 으로 나누게 됨. 이건 전체집단을 모집단으로 규정하기 때문에 그렇게 함. 모집단은 항상 열린 시스템이므로 분산을 정의하기를 자유도 n으로 나누도록 정의됨. ANOVA 의 경우에도 칼럼들 사이의 데이타와 한 칼럼안에서의 데이타의 분산을 계산할때 자유도가 결국은 n-1 의 원리를 따름. n-k 도 사실은 이 원리에서 칼럼의 갯수 k 를 빼준거고.2) 이에 반해서 표본집단은 표본의 수가 유한함, 그리고 표본의 평균은 자유도가 n 이지만, 썸오브 스퀘어의 평균은 (n-1) 로 정의해서 모집단의 분산을 구하는것을 지향하지 표본집단 자체의 분산을 구하는 목적이 아님.
3) 그러고 보니 여기 통계는 주로 헬쓰캐어쪽이나 바이오텤쪽에서 주로 쓰는데(그래서 유튜브에 이 쪽으로 여자들이 꽤 많이 보이는듯), 그게 데이타의 콜렉션에 한계가 존재하기 때문에 소량의 데이타로 의미있는 통계치를 얻는게 아주 중요한 분야이기 때문에 이런 통계가 발달하게 된듯. 예를 들어 환자의 블러드 테스트를 할때, 데이타 사이언스처럼 무한정 많은 양의 데이타를 콜렉션 할수가 없음. 그래서 이쪽 통계는 다 손으로 직접 계산(잘해야 엑셀울 쓸 정도의 계산)할 수 있을 정도의 데이타 량을 다루는듯.
-
-
-
-