Attention Is All You Need

Attention Is All You Need

这是一篇 2017 年的经典论文,首次系统提出 Transformer 架构。它的核心结论是:在序列转换任务中,可以完全抛弃循环(RNN)和卷积(CNN),仅依靠注意力机制完成建模。

核心贡献

关键结果

  • WMT 2014 英德翻译:Transformer (big) 达到 28.4 BLEU
  • WMT 2014 英法翻译:Transformer (big) 达到 41.8 BLEU
  • 训练速度显著快于当时主流的 RNN / CNN 方案
  • 在英语成分句法分析任务中也展现了良好泛化能力

中文机翻校对记录

源文章中的中文对照存在明显机器翻译问题,录入时已按英文原文进行校正理解。典型错误包括:

  • 把 “Abstract” 译成“抽象的”,正确应为“摘要”
  • 把 “Transformer” 误写成“变形金刚”或“变压器”,在本 wiki 中统一保留 Transformer
  • 把 “Self-Attention” 误写成“自我关注”,应为“自注意力”
  • 把 “stack” 误写成“协议栈”,这里应理解为“层堆叠”
  • 表格和说明中的 “operations / train / discriminative” 出现了“运营 / 火车 / 歧视性报道”等明显误译

这些错误不影响英文原文作为知识来源,但会影响中文检索和理解,因此相关 wiki 页面全部采用修正后的术语。

关联页面