-
어텐션 is all you need 라는 논문 참 이해하기 힘들다.
이 논문중 이해하기 힘든게 두가지 인데,
하나는 어텐션이고
나머지 하나는 포지셔닝 인코딩 인것 같다.다른 하나를 든다면 기본 개념인 워드 임베딩인데 이건 선형대수를 안다면 그다지 개념 자체는 어렵지는 않을것이다. 하지만 벡터 베이시스의 게수들이 왜 그런 값들을 갖고 그런 레인지의 값들을 갖는지 기하학적인 의미로 이해하려면 좀 생각이 필요한듯하다.
이중 단연코 어려운게 포지셔닝 인코딩인듯한데, 저자들은 이걸 어떤식으로 사인/코사인 함수를 적용할 생각을 한것일까. 이걸 또 임베딩 매트릭스처럼 같은 사이즈의 매트릭스로 만들생각은 왜 했을까. 시행착오로 경험적으로 구하기에는 너무 티디어스한 테스트가 많이 필요했을텐데….이론적으로 접근하면 저걸 어떻게 설명해야 하나? 왜 하필 매트릭스를 인코딩해서 워드 임패딩 매트릭스에 더해줄 생각을 한걸까. 왜 애디션이나 컨커티네이팅이 둘다 그런데로 그럴듯한 결과를 내놓는것일까. 포지셔닝 인코딩에 대한건 아마 더 연구가 필요할듯싶다. 다른 더 이론적으로 클리어한 방법이 있지 않을까 하는 생각도 든다. 몇개 유튜브 동영상을 찾아보는데 만족스럽게 설명하는 유튜버를 아직 보지 못했다.
이 논문이 혁신적인 논문인건 맞긴한데….상을 받을 만한 논문인가? 그건 모르겠네. 어텐션도 이 사람들이 처음 생각한게 아니었고 포지셔널 인코딩도 뭔가 아직은 어설퍼 보여서… 근데 이 분야에도 상이 있긴 있나? 투링?
정국이 한국말 가사도 근데 한 마디도 뭐라는지 못알아 먹겠다.