100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 树状结构搜索功能_ICLR 高分论文!利用稀疏多层次Transformer结构获取语法树!...

树状结构搜索功能_ICLR 高分论文!利用稀疏多层次Transformer结构获取语法树!...

时间:2022-05-19 12:48:02

相关推荐

树状结构搜索功能_ICLR  高分论文!利用稀疏多层次Transformer结构获取语法树!...

一、背景介绍

自从Tansformer结构提出以来,以BERT以代表的模型横扫NLP领域的各个任务。然而,Transformer中密集的注意力机制无法利用自然语言中的内在结构。这篇文章提出了一种新的Transfomer架构—Combiner模型,可以从自然语言中学习树状结构的注意力模式,从而增强了模型的可解释性。

二、方法介绍

传统的Transfomer中使用Self-attention机制对词向量进行了融合,获取了更多的上下文信息。例如:给定输入词向量为H,将词向量H映射到三个空间Q,K,V,并通过如下公式1来计算注意力分值。

公式(1)

为了克服传统Transfomer中的密集输出,该文章提出了一种稀疏多层次的Transformer结构。它包含两个模块Sparse attention gate以及Hierarchical attention block。其中,Sparse attentiongate用来产生稀疏注意力,Hierarchical attentionblock使用类似Skip connection的方式来构建树状结构。

图1

Sparse attention gate的结构如图1(a)所示,它通过构建一个1D CNN网络来进行计算输入向量H中的注意力分值,通过最大池化操作获得注意力分值较高的结果,并由此计算出当前输入向量H中的阈值τM,具体过程如公式2所示:

公式(2)

并通过公式3来进行产生稀疏注意力:

公式 (3)

由此在输入向量H中,产生了更加准确的注意力机制,例如“my cat sits down”,“my”与“cat”的注意力更为密切。

Hierarchical attention block的结构如图1(b)所示,它通过将高层次的特征与低层次的特征相加,从而获得了不同感受野的输入特征。

公式 (4)

其中,等号左边为公式3(sparse attentiongate)的输出。

整体来看,文章提出Combiner与标准Transformer结构类似,最大的区别在于使用稀疏的注意力完全替代掉密集的注意力。以Combiner的L层为例,它将上一层的输出,结合本层所产生的的Q,K,V进行了融合:

公式 (5)

之后,为当前层的所有节点转化为二进制进行表示。

公式(6)

L1范数起到了归一化的作用,再通过全连接层以及LayerNormalization。Combiner将上述过程堆叠多次。从输入向量开始,每个Combiner层都会学习稀疏注意力连接并将这种稀疏注意力与深层网络相加,从而使神经网络从数据中自动学习树状结构的注意力模式。

三、实验结果

文章进行了两个实验,首先对Search SessionUnderstanding领域中的两个子任务Masked Query Prediction和Generative QuerySuggestion进行了实验。实验使用美国市场搜索引擎数据进行,并与BERT模型进行了比较。其中BERTBASE是一个标准的BERT模型,是由《Bert: Pre-training of deep bidirectional transformers for language understanding》所提出的使用双向transformer训练的BERT模型,BERTWINE和BERTHIER都是本文提出的模型,其中前者同样使用两种注意力机制,但是区别与本文的方法它所使用的是普通的密集注意力,这种方法与本文的稀疏注意力形成对比实验,以此来说明稀疏注意力的性能。BERTHIRE是由《Hierarchical transformers for multi-document summarization》所提出的一种多层次Transformer的方法。实验结果如下:

然后,文章在Penn Tree Bank(PTB)公开数据集上进行了无监督的实验,用来分析和评估Combiner模型学习到的树结构的质量。实验首先在Wikitext-103数据集上进行训练,之后使用PTB未标记的文本进行微调。文章与多个基线进行了对比,实验结果如下:

四、总结

本篇文章通过将稀疏注意力与层次模块相结合提升了Transfomer模型的归纳总结能力,使得Transformer模型可以利用自然语言中的结构化信息。与BERT模型相比,Combiner模型可以利用自然语言中的固有结构获得更好的预测精度,并且参数量更小。这种方法证明了深度学习在归纳学习中的潜力,是十分值得学习的方法。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。