트랜스포머 어텐션 q,k,v 의 수학적 근거?

90 76.***.204.204

직관이 많은 경우에 수학적인 리고러스한 논리를 빛의 속도로 앞서 가는거 같아요. 저것도 직관적으로 따라가면 “어? 그렇게 한번 해볼수도 있겠네?” 라고 수긍하게 되지만, 수학적으로 왜 저런게 가능하냐 해석하는것은 또 다른 문제같습니다. 근데 수학적으로 해석할 줄 알면 그걸 응용하는데 체계를 갖출수 있으니까 다른 데에도 응용하기도 훨씬 쉬워질수도 있겠다는 생각이 듭니다. 내가볼때 저것의 수학적 뒷밭침은 메트릭 텐서에요. 원글의 유튜버도 어느정도 모호하게 그걸 이해하고 있어요. 중력이론에서 가장 유명한 텐서. 이 텐서를 다른 텐서로 바꾸어보면 저 저자들의 아이디어가 확장될수도 있고 좀더 효율적으로 계산하는 방법도 찾을 가능성이 있겠죠. 메트릭 텐서는 아주 많은 텐서들중에 가장 유명한 텐서중 하나죠. 재밌는건 원 저자들이 쓴 논문은 보니까 전혀 텐서에 대한 언급은 없고 어텐션에 대한 웨이팅 매트릭스로만 접근해서 논문이 기술되어있는거 보니까 거의 직관에 의존해서 저 트랜스포머 공식이 나온거 같군요. 저자중에 한사람이 직관에 크게 기여했겠져