为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


20年蛋壳公寓暴雷,所有住户被赶出了租房,腾讯的微众银行要求...
这么喜欢看露点的 那推荐一部俄罗斯的片子《契卡》 从头到尾都...
一个社区语言能泛起多大浪花?PHP30周年线上活动PHPve...
其实有点不想吐槽…… 飞不到。 哥们,我们造的是歼击机,又...
J20有且只有一个对手,就是F22。 苏57和F35就别来碰...
先叠个甲:不是讨论取消启动台是不是狗屎更新,也不是为了吹ma...
福州有家公司据说有点小名气,叫网龙。 在毕业季的时候看到我的...
Vercel 的初衷是「任何人都可以便利的拥有自己的应用」....
说个发小的事, 他前年换车了后那辆n手马自达就闲置了,被他一...
更新一下,发现dart3的模式匹配,一定程度能缓解 最近因为...
