不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
{dede:pagebreak/}
如何看待英伟达新推出的显卡5090dd?
为什么国人普遍不接受月付的订阅制而喜欢一口价买断制呢?
如何评价DuckDB?
如何看待 Rust 的应用前景?
如何优雅地给妹子优化电脑(Windows)?
20届设计系,我的设计水平很差吗,找不到合适的工作?
现在是2025年6月,现在的房价是阴跌还是暴跌?还会继续跌多久?是否已经开始分化?
如何评价苹果 3 月 5 日发布的 MacBook Air M4,相比前代有哪些提升?
能分享一下你写过的rust项目吗?
写CUDA到底难在哪?
obsidian用一两年后会有多大?全文搜索还快吗?
独立开发***能盈利吗?感觉好累...
大模型 Agent 是不是就是各种 Prompt 的堆叠?
为什么民众更关注华为对5nm芯片的突破,而不是关注小米已经自研的3nm芯片?
洲际导弹能打到任何地方,为什么还需要轰炸机?
有哪些让你目瞪口呆的 Bug ?