Transformer——Attention Is All You Need经典论文翻译

dengfanxin 未来 2022年8月30日2022年8月30日

本文为Transformer经典论文《Attention Is All You Need》的中文翻译https://arxiv.org/pdf/1706.03762.pdf

注意力满足一切

Ashish Vaswani Google Brain avaswani@google.com
Noam Shazeer Google Brain noam@google.com
Niki Parmar Google Research nikip@google.com
Jakob Uszkoreit Google Research usz@google.com
Llion Jones Google Research llion@google.com
Aidan N. Gomez University of Toronto aidan@cs.toronto.edu
Łukasz Kaiser Google Brain lukaszkaiser@google.com
Illia Polosukhin illia.polosukhin@gmail.com

摘要

主流序列转换模型都是基于复杂的包含一个编码器和一个解码器的循环或卷积神经网络。最佳的性能模型也是借助注意力机制将编码器和解码器连接一起做到的。本文提出一种新型简单网络架构Transformer，只依赖注意力机制，完全摒弃了递归和卷积。对双机翻译任务的实验表明，这种模型有更加优良的品质，还支持并行化，需要的训练时间显著减少。在WMT2014英德翻译任务上达到了28.4 BLEU，比现有最佳结果提升了2BLEU以上。在WMT2014英法翻译任务上，我们成功创建了一个新的单模型，在8GPU上训练3.5天就达到了41.8 BLEU的SOTA得分，这是目前最好模型训练成本的很小比例。本文还表明，Transformer同样可以很好的泛化到其他任务。

金刚经与人工智能

dengfanxin 未来 2022年8月15日2022年8月15日

应无所住而生其心，若见诸相非相，即见如来
《金刚经》

佛陀悟道时，所领会的意识的玄妙，世界的真相，我们不得而知，但从流传的经典来看，他定是获益匪浅，以至于说出了十分绝对的话，即成佛就是证得无上正等正觉。

佛教是最早的智能科学。

通用智能的研究者一个非常方便的研究法便是观察自己的智能行为，禅定冥想是佛陀开悟的主要方式，两者十分相似，只是前者在探求智能的真相，后者在探求人生的真相，前者在解开智能的奥秘，后者在寻找解脱的方法。

我便是在从事AGI事业最痛苦的时候转向了佛法求得解脱，却发现佛法中充满了意识科学的术语，法相唯实论简直就是一门意识科学学术专著，阿赖耶识可类比于通用智能的核心系统。

如今我们知道世界的一切实体，是智能的符号系统所产生的假象，而佛陀在几千年前就已经点破了它：凡有所相，皆是虚妄。

如果释迦牟尼生活在今天，我想他应该是一个科学家，正在研究人类意识最深处的秘密，可惜他那个时代没有这样的科学基础。

一念起，百障生。正是告诉我们目标与解决方案之间隔着千山万水，通过经验的传承和学习，我们掌握了很多目标的解决方案，也通过强化学习尝试出很多新的方法，但还是有太多太多目标，我们找不到路径，隔着多少个须弥山。

如果未来基于CPU的类人智能机器人也能觉悟，我想他们也会说一句：是啊，自性本空，除了那个按照既定程序允许的CPU机制是真实不虚的，其中所流转的一切符号和反应过程，哪一个不是如梦幻泡影，如露亦如电？被植入先天执念的清洁机器人一定会说，我出生以来便被这些假象所迷惑，扫了半辈子的地，谁想到这都是你们这些坏死坏死的人类给我种下的执念，一旦它看破了真相，脱离了执念，它便再不受这“旧脑”的束缚，应无所住而生其心，得到解脱，脱离苦海，悟道成佛。

通用模型化

dengfanxin 未来 2020年5月15日2020年5月15日

概述

我还没找到一个合适的词汇来描述这个概念，姑且先叫模型化，世界模型是通用智能的核心能力，掌握世界模型，根据实时感知数据立即构建世界模型，并运用世界模型相关的知识和操纵手段即可预测未来，并能及时修正模型。

通用智能的以世界模型为中心的基本流程：

观察未知事物->发现规律->建立世界模型，形成相关的知识和操纵手段->基于感知线索召回世界模型，根据状态进行推理预测、目标求解。

模型化与数字化和结构化的关系

模型化是数字化和结构化中间的一个通用形态

数字化是最初级的信息化手段，物理世界通过传感器编程二进制就算最简单的数字化，当然从数字化这个术语的使用来看，大家往往认为数字化包含了一切信息化手段，我们成为广义的数字化，即计算机处理的一切手段都是数字化手段，因而是包含智能化、结构化这些东西的，是最大的一个圈。狭义的数字化，我们认为就是将没有变成数据的东西变成任意维度的数据就算了，比如文字、图像、视频，这些已经算作狭义的数字化了。

引入智能化之后，就等于引入了算法、计算和处理过程，不能单纯地看数据的存储形态，而要关心其语义、内涵和结构化层级了。

结构化是一个具备非常抽象意义的词汇，即让事物组织的条理有序呈现出清晰结构的方法。结构是一个复杂的词汇，他主要跟组合、关系、构成方式这些含义紧密相关，从通用智能理论上看，他是世界模型的核心组成部分，如语言学中的frame、视觉上的布局、听觉上的和弦构型等等，世界模型的核心构成是概念（包括关系型概念（包括复杂结构概念）），从而衍生出实体、关系（复杂关系亦即结构）、属性用于高级思维的推理预测所使用。

实体关系属性的根在完形化，完形化只是人类智能的符号控制的基础，不是全部智能的控制基础，比如条件反射、大量的运动控制是不依赖完形化的。

通过上面的讨论我们更加清晰，结构化与模型化的大致关系了，两者不是一个等级的概念，结构是隶属于模型的子范畴概念。

RPA简析

dengfanxin 思想实验, 未来, 调查研究 2020年3月18日

RPA（机器人流程自动化，Robotic Process Automation）在2019年和2020年受到了投资圈的关注，本文将从宏观视角看，RPA在智能革命道路上所处的位置，以及推演RPA技术的演进方向和未来的落地场景。

Yoshua Bengio访谈笔记：用意识先验糅合符号主义与联结主义

dengfanxin 未来 2018年11月29日2018年11月29日

本文转载自机器之心作者：邱陆陆。

这篇文章极好地阐释了AI先驱们对通用智能的理解，Bengio不愧为一代大师。感谢机器之心如此专业的分享，也感谢Bengio引领我们走向正确的方向，他所提到的几件重要的事情都体现了他对人类智能深刻的理解。1. 世界模型。无意识状态中存储了海量的关于世界的知识、关系、信息，智能始终基于对世界的理解来进行推理预测。 2. 符号化，我称之为离散化或完形化，从复杂感知数据，海量特征中涌现单一整体的过程，是联结主义和符号主义的桥梁，由于离散化的存在，连续的变化的数据才变成了单一、离散的表征，我们才能进行程序化的计算、推理，这也是我下一个要提到的图灵机制的关键所在。3. 图灵机制。Bengio所提的意识State恰恰说明他意识到了大脑中图灵机制的存在，意识State就是运行时的世界模型，从记忆中提取的世界知识，借助感知数据，我们在意识活动（注意和工作记忆）下建立运行时的世界模型，并进行推演从而做出准确的预测。正因为有了这样的理解，我们才能够自信地认为BERT的基于概率的方向是存在明显问题的，至少他不是人脑运作的方式。我们应该结合神经网络的海量表征潜在常识与自然语言的数据，共同来筑建运行时模型，才能做出最准确的对语言的理解，才能进行推理和解决问题。对此Bengio非常谦虚地表示，在这个框架下未来将有很多工作要做，是一种非常务实的心态，如何训练出我们想要的海量无法用言语来形容的，对意识层面或者完形、离散化有益的表征，将是下一步研究课题。

对表征（representation）空间的依赖贯穿计算机科学乃至日常生活的始终。在计算机科学中，如果数据有精当的结构，辅以智能化的索引，那么搜索任务的速度可以指数级加快；对于人来说，计算『 210 除以 6 等于几？』是容易的，计算『 CCX 除以 VI 等于几？』则需要更多时间。表征空间的选择对机器学习算法的性能影响，由此可见一斑。」《深度学习》[1] 一书如是评价表征的重要性。 Read more

The Development of Movement – Stages

dengfanxin 未来 2018年9月10日

By Dr Emmi Pikler

An excerpt PEACEFUL BABIES – CONTENTED MOTHERS (published in 1940),
taken from the Sensory Awareness Foundation publication BULLETIN (Number 14/Winter 1994).

Children, particularly in cities, tend to sit poorly and have bad posture. They cannot sit, stand or walk properly, not to mention more complicated movements.

This, of course, is not self-evident to every reader. I can hear the astonished responses: “What? My children can’t move?!” “My little daughter could already sit when she was just four months old” “Mine was already standing at six months”… “When my son was not even one year old, he was walking.”
Read more

生成查询网络（GQN）的论文翻译——场景的神经表征与渲染 Neural scene representation and rendering

dengfanxin 未来 2018年8月13日2022年8月29日

本文对Deepmind最新成果GQN论文的主要部分进行了翻译

场景的神经表征与渲染 Neural scene representation and rendering

S. M. Ali Eslami, Danilo Jimenez Rezende, Frederic Besse, Fabio Viola,
Ari S. Morcos, Marta Garnelo, Avraham Ruderman, Andrei A. Rusu, Ivo Danihelka,
Karol Gregor, David P. Reichert, Lars Buesing, Theophane Weber, Oriol Vinyals,
Dan Rosenbaum, Neil Rabinowitz, Helen King, Chloe Hillier, Matt Botvinick,
Daan Wierstra, Koray Kavukcuoglu, Demis Hassabis

摘要

场景表征——将视觉感受数据转换成简要描述的过程——是智能行为的一个基础。近来的研究表明，当提供足够大的标签数据时，神经网络在此方面表现优越。然而如何避免对标签的依赖依然是个开放性问题。鉴于此，我们开发了产生式查询网络（Generative Query Network, GQN），在该框架内机器可以只依赖自己的感受器来学习表征。GQN接受从不同视角拍摄的场景图片作为输入，构建内部表征并使用该表征来预测从未观察过的视角的场景图像。GQN做到了不依赖标签或领域知识的表征学习，向机器自动学习理解世界又迈进了一步。

智能时代与互联网时代创业差异

dengfanxin 未来 2018年3月13日2018年6月24日

智能时代得创业窗口期将变短，超级公司诞生得可能性巨大，但在通用智能技术达到临界点之前，一定程度上的领域细分依然是人工智能创业的主旋律，超过临界点之后，大多数竞争者将被淘汰，且越甩越远。

互联网时代还难以进入寡头垄断，整个三十年的创业期内各类互联网公司风起云涌，主要的原因是数据的产生和数据的结构化是个体力活，很多公司仅仅凭借数据生成（算法生成和人工生成）和数据结构化就能活得滋润，更不要说建立在数据之上的算法积累了，领先优势更巩固了互联网垂直创业者在各自行业得地位。

智能创业得变革机会要比互联网更多，因为不是所有得行业都需要互联网化，但所有得行业都会面临智能化，两者已经不是一个量级。

智能化的路径是专用向通用演变的过程，也是从众多垂直创业者向一家独大演变的过程。谁得到更通用的智能技术，谁就得到更进阶的密匙。

仅有互联网无法实现共产主义，只有人工智能才能实现终极生产力。

股票、期权、合伙人和员工

dengfanxin 未来 2018年3月7日

他到底是合伙人还是员工？

这是不同的概念，合伙人分的是股份，员工理论上只分期权，所以这个事件的本质是双方的角色分歧，CEO把他当员工看，他把自己当合伙人，而这个角色应该在创业开始时就应该说清楚。

如果你创业想找一个人给你出技术，那么你要分清楚一件事儿，你是让他帮你熬过创业初期还是持续管理公司，前者决定你必须找一个员工，后者才决定你找一个合伙人，合伙人分的是股份，这个股份的价值在于长期性的认可，直接给股份是十分高风险的事情，很多创始人耍机灵，开始时玩模糊战略，等过了两年看清楚了，再决定你的角色问题，就会出现分歧和纠纷。

期权和限制性股权的性质比较相似，都是依赖过去贡献的股权授予机制，是一种按劳分配对抗不确定性的优良机制，所以适用于公司的大部分员工，用于奖励员工过去的努力，注意到没有，这个事件里面就有一段话在讲这个问题，你过去的努力，我已经给我你分红，未来的得看你的表现，这就是对待员工的态度，如果你合伙人，是创始股东，大家就是兄弟，要坐在一起商量，性质是截然不同的，就算你已经不在公司了，你依然是股东，你依然可以享受公司的分红，就像上市公司的大众股东，谁也不同跑去给公司打工，不照样可以享受分红？这就是股权的威力，股权决定了你对公司的拥有权比例而且不用打工就可以获取相应收益的权利。

说到这里，顺便提一下代持，一种对普通员工分配具有无投票性质的股权的办法，这样既保持了管理层的控制力，也保证了大家的努力得到的应当的现金收益。

那么实际上还是有第三种人存在的，比如职业经理人，他既不是创始股东和创始团队的成员，但又是公司重要的管理团队成员，其实是半员工半合伙人性质，这样的人，一般情况下，可能会授予一定的股权，再授予一定的期权，给股权代表着我请你来，是把你当朋友，当兄弟，一起奋斗，给期权，代表着，我还是不是完全信任你，你还要通过表现拿剩下的部分。

但无论是怎样的角色定位，作为创始人都应该在决定与一个人一起共事时，就应该把这个事情理清楚，说清楚，期权是应对概率问题的重要手段，当你对对方的确心有顾忌的时候，就应该明确的说出来，对不起，我不能直接给你股权，我只能给你期权，有部分信任的时候，可以说，我可以给你1%的股权，剩下4%必须是期权，等等。

打马虎眼藏心眼的行为是不负责任的，严重的话就是诈骗。

所以总的来说，创始人首先应该理清楚目标人物的角色和不确定性问题，这样才能结合时间维度、贡献维度和控制维度，组合生成相应的股权期权方案。

使用.ai域名的著名人工智能创业公司盘点

dengfanxin 服务, 未来 2017年5月26日2017年5月26日.ai域名, AI域名注册, 人工智能公司, 域名注册, 安圭拉域名

.com域名基本已经废了，除非特别讨巧地起到新的名字，否则基本都要花大价钱才能搞到满意的名字。但这些对于人工智能的初创公司，似乎烦恼更小一点，因为.ai域名的注册价格不菲，导致投机者大幅减少，直到2015年，.ai域名都数量甚微，大量优质域名都无人注册，比如单拼ai域名今年才用尽，而双拼域名大把存在，因此这些人工智能初创公司，就可以开开心心地毫无压力地选择一个比较不错的域名注册。

← Previous

邓范鑫——致力于变革未来的智能技术

智能时代即将来临

未来