-
랭귀지 모델에서 단어들을 벡터로 생각해주는것도 왜 그게 그렇게 모델링이 성공적인지 수학적 해석으로 설명하기 쉽지 않다고 하던데. 어텐션의 q,k,v 도 왜 그 모델이 챗지피티를 비롯해서 그렇게 성공적인지 수학적으로 해석해서 이해하기가 쉽지 않은듯. 그렇다고 저자들이 순전히 통찰력이나 직관만으로 가져다 쓰거나 한건 아닐텐데…
수학적 근거로 연결해서 설명하는 문헌 아는거 있으면 소개좀 바랍니다. 모든게 다 당연히 내적이니 물리학의 메트릭 텐서와 밀접하게 연관되어 잇는데…
그나마 이 유튜버 설명이 가장 많이 근접한건가