100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 深入理解深度学习——Transformer:整合编码器(Encoder)和解码器Decoder)

深入理解深度学习——Transformer:整合编码器(Encoder)和解码器Decoder)

时间:2020-08-26 14:09:29

相关推荐

深入理解深度学习——Transformer:整合编码器(Encoder)和解码器Decoder)

分类目录:《深入理解深度学习》总目录

相关文章:

·注意力机制(Attention Mechanism):基础知识

·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归

·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)

·注意力机制(Attention Mechanism):Bahdanau注意力

·注意力机制(Attention Mechanism):自注意力(Self-attention)

·注意力机制(Attention Mechanism):多头注意力(Multi-head Attention)

· 注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)

·注意力机制(Attention Mechanism):位置编码(Positional Encoding)

· Transformer:编码器(Encoder)部分

· Transformer:解码器(Decoder)的多头注意力层(Multi-headAttention)

· Transformer:解码器(Decoder)部分

在文章《深入理解深度学习——Transformer:编码器(Encoder)部分》、《深入理解深度学习——Transformer:解码器(Decoder)的多头注意力层(Multi-headAttention)》和《深入理解深度学习——Transformer:解码器(Decoder)部分》中我们了解了Transformer架构的各个细节,现在我们把Transformer的各个结构组合起来,如下图所示:

在上图中, N × N\times N×表示可以堆叠 N N N个编码器和解码器。我们可以看到,一旦输入句子(原句),编码器就会学习其特征并将特征发送给解码器,而解码器又会生成输出句(目标句)。

我们可以通过最小化损失函数来训练Transformer网络。我们已经知道,解码器预测的是词汇的概率分布,并选择概率最高的词作为输出。所以,我们需要让预测的概率分布和实际的概率分布之间的差异最小化。要做到这一点,可以将损失函数定义为交叉熵损失函数。我们通过最小化损失函数来训练网络,并使用Adam算法来优化训练过程。另外需要注意,为了防止过拟合,我们可以将Dropout方法应用于每个子层的输出以及嵌入和位置编码的总和。

参考文献:

[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature,

[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, .

[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, .

[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, .

[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社,

[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社,

[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, .

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。