『NLG学习』（二）教你搭建自己的Transformer - 心愿游戏

位置：首页 > 新闻资讯 > 『NLG学习』（二）教你搭建自己的Transformer

『NLG学习』（二）教你搭建自己的Transformer

时间：2025-07-25 | 作者： | 阅读：0

本文围绕Transformer展开，先介绍其相较CNN与RNN的优势，如并行计算、自注意力机制等。接着讲解构建Transformer的五个零件及算法，包括嵌入、位置编码、掩码等。还给出了数据预处理、各组件实现及组装训练的代码，展示了结果，提及进步与不足，指出位置编码处理欠佳。

Abstract（摘要）

在transformer出现之前，主要的序列转导模型是基于复杂的递归或卷积神经网络，其中包括一个编码器和一个解码器。性能最好的模型也通过一个注意力机制来连接编码器和解码器。然而，好景不长，谷歌的大佬们提出了transformer，一来可以进行并行计算，提高训练推理速度；二来可以加入了自注意力机制，可以更好的关注序列间的时间维度上的关系。transformer同时兼备了CNN与RNN的优点，既实现了参数局部共享，降低了参数量（CNN最大的特点），同时又可以关注序列中的任意两个单词间的依赖关系，彻底解决了RNN对于长期依赖关系的无力感，真可谓万物皆可联。但很遗憾的是，谷歌大佬们的这篇attention is all you need写的太过晦涩，很难读懂，因此笔者查阅了各种资料，才将transformer略微搞懂。下面让我们开始transformer的学习吧~

Introduction（介绍）

transformer摒弃了原先的CNN与RNN的架构，仅仅使用了全连接层与自注意力机制，因此训练速度很快。同时在encoder部分，我们对src进行并行计算，与使用RNN相比，速度也有了大大的提升。那么，要搭建一个我们自己的transformer，需要五个零件，分别是

下面让我们一步步地开始学习吧

Algorithm（算法）

1）Embedding

嵌入单词目前已成为主流的做法，嵌入向量蕴含的信息量远比one-hot向量大的多。而且实作也很简单，直接调用API即可。当每个单词输入网络时，此代码将执行查找并检索其嵌入向量。然后，这些向量将被模型作为参数学习，并随梯度下降的每次迭代进行调整。

2）position-encoding

刚才的embedding是为了让机器理解单词的意思，这一步是为了让机器理解各个单词的位置。当然，其实这一步本论文处理得不是很好，只是使用了三角函数进行了映射，当然这只是权宜之计，下面让我们看看作者的做法。

? ? ? ?

这是该trick的示意图，行为pos，列为i

? ? ? ?

来源:https://www.php.cn/faq/1426690.html
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

nef 格式图片降噪处理用什么工具效果如何

时间：2025-07-29
邮箱长时间未登录被注销了能恢复吗？

时间：2025-07-29
Outlook收件箱邮件不同步怎么办？

时间：2025-07-29
为什么客户端收邮件总是延迟？

时间：2025-07-29
一英寸在磁带宽度中是多少老式设备规格

时间：2025-07-29
大卡和年龄的关系不同年龄段热量需求

时间：2025-07-29
jif 格式是 gif 的变体吗现在还常用吗

时间：2025-07-29
hdr 格式图片在显示器上能完全显示吗普通显示器有局限吗

时间：2025-07-29

精选合集

更多

火柴人赏金猎人闲置集市大亨大学模拟器超级快递大亨酒仙网死亡决斗最强钓鱼人外来者幻想生存天音 coreldraw 游戏存档学院

大家都在玩

热门话题

大家都在看

更多

苍翼：混沌效应X什么时候出公测上线时间预告

时间：2025-11-23
网易lofter如何推广 LOFTER开启专题推送功能方法

时间：2025-11-23
2025必玩的换装小游戏推荐

时间：2025-11-23
穿越火线手游怎么跳墙

时间：2025-11-23
lofter怎么发作品 lofter编辑已发布作品教程

时间：2025-11-23
2025高人气飞行模拟游戏推荐

时间：2025-11-23
《割草英雄》玩法攻略初探割草英雄世界

时间：2025-11-23
lofter如何复制文章 LOFTER复制文章的链接教程

时间：2025-11-23