本文为Transformer经典论文《Attention Is All You Need》的中文翻译https://arxiv.org/pdf/1706.03762.pdf
注意力满足一切
Ashish Vaswani Google Brain avaswani@google.com
Noam Shazeer Google Brain noam@google.com
Niki Parmar Google Research nikip@google.com
Jakob Uszkoreit Google Research usz@google.com
Llion Jones Google Research llion@google.com
Aidan N. Gomez University of Toronto aidan@cs.toronto.edu
Łukasz Kaiser Google Brain lukaszkaiser@google.com
Illia Polosukhin illia.polosukhin@gmail.com
摘要
主流序列转换模型都是基于复杂的包含一个编码器和一个解码器的循环或卷积神经网络。最佳的性能模型也是借助注意力机制将编码器和解码器连接一起做到的。本文提出一种新型简单网络架构Transformer,只依赖注意力机制,完全摒弃了递归和卷积。对双机翻译任务的实验表明,这种模型有更加优良的品质,还支持并行化,需要的训练时间显著减少。在WMT2014英德翻译任务上达到了28.4 BLEU,比现有最佳结果提升了2BLEU以上。在WMT2014英法翻译任务上,我们成功创建了一个新的单模型,在8GPU上训练3.5天就达到了41.8 BLEU的SOTA得分,这是目前最好模型训练成本的很小比例。本文还表明,Transformer同样可以很好的泛化到其他任务。
Read more