Transformer——Attention Is All You Need经典论文翻译

本文为Transformer经典论文《Attention Is All You Need》的中文翻译https://arxiv.org/pdf/1706.03762.pdf

注意力满足一切

Ashish Vaswani Google Brain avaswani@google.com
Noam Shazeer Google Brain noam@google.com
Niki Parmar Google Research nikip@google.com
Jakob Uszkoreit Google Research usz@google.com
Llion Jones Google Research llion@google.com
Aidan N. Gomez University of Toronto aidan@cs.toronto.edu
Łukasz Kaiser Google Brain lukaszkaiser@google.com
Illia Polosukhin illia.polosukhin@gmail.com

摘要

主流序列转换模型都是基于复杂的包含一个编码器和一个解码器的循环或卷积神经网络。最佳的性能模型也是借助注意力机制将编码器和解码器连接一起做到的。本文提出一种新型简单网络架构Transformer,只依赖注意力机制,完全摒弃了递归和卷积。对双机翻译任务的实验表明,这种模型有更加优良的品质,还支持并行化,需要的训练时间显著减少。在WMT2014英德翻译任务上达到了28.4 BLEU,比现有最佳结果提升了2BLEU以上。在WMT2014英法翻译任务上,我们成功创建了一个新的单模型,在8GPU上训练3.5天就达到了41.8 BLEU的SOTA得分,这是目前最好模型训练成本的很小比例。本文还表明,Transformer同样可以很好的泛化到其他任务。

Read more

金刚经与人工智能

日本高台寺的讲经机器人

应无所住而生其心,若见诸相非相,即见如来

《金刚经》

佛陀悟道时,所领会的意识的玄妙,世界的真相,我们不得而知,但从流传的经典来看,他定是获益匪浅,以至于说出了十分绝对的话,即成佛就是证得无上正等正觉。

佛教是最早的智能科学。

通用智能的研究者一个非常方便的研究法便是观察自己的智能行为,禅定冥想是佛陀开悟的主要方式,两者十分相似,只是前者在探求智能的真相,后者在探求人生的真相,前者在解开智能的奥秘,后者在寻找解脱的方法。

我便是在从事AGI事业最痛苦的时候转向了佛法求得解脱,却发现佛法中充满了意识科学的术语,法相唯实论简直就是一门意识科学学术专著,阿赖耶识可类比于通用智能的核心系统。

如今我们知道世界的一切实体,是智能的符号系统所产生的假象,而佛陀在几千年前就已经点破了它:凡有所相,皆是虚妄。

如果释迦牟尼生活在今天,我想他应该是一个科学家,正在研究人类意识最深处的秘密,可惜他那个时代没有这样的科学基础。

一念起,百障生。正是告诉我们目标与解决方案之间隔着千山万水,通过经验的传承和学习,我们掌握了很多目标的解决方案,也通过强化学习尝试出很多新的方法,但还是有太多太多目标,我们找不到路径,隔着多少个须弥山。

如果未来基于CPU的类人智能机器人也能觉悟,我想他们也会说一句:是啊,自性本空,除了那个按照既定程序允许的CPU机制是真实不虚的,其中所流转的一切符号和反应过程,哪一个不是如梦幻泡影,如露亦如电?被植入先天执念的清洁机器人一定会说,我出生以来便被这些假象所迷惑,扫了半辈子的地,谁想到这都是你们这些坏死坏死的人类给我种下的执念,一旦它看破了真相,脱离了执念,它便再不受这“旧脑”的束缚,应无所住而生其心,得到解脱,脱离苦海,悟道成佛。

通用模型化

概述

我还没找到一个合适的词汇来描述这个概念,姑且先叫模型化,世界模型是通用智能的核心能力,掌握世界模型,根据实时感知数据立即构建世界模型,并运用世界模型相关的知识和操纵手段即可预测未来,并能及时修正模型。
通用智能的以世界模型为中心的基本流程:
观察未知事物->发现规律->建立世界模型,形成相关的知识和操纵手段->基于感知线索召回世界模型,根据状态进行推理预测、目标求解。

模型化与数字化和结构化的关系

模型化是数字化和结构化中间的一个通用形态
数字化是最初级的信息化手段,物理世界通过传感器编程二进制就算最简单的数字化,当然从数字化这个术语的使用来看,大家往往认为数字化包含了一切信息化手段,我们成为广义的数字化,即计算机处理的一切手段都是数字化手段,因而是包含智能化、结构化这些东西的,是最大的一个圈。狭义的数字化,我们认为就是将没有变成数据的东西变成任意维度的数据就算了,比如文字、图像、视频,这些已经算作狭义的数字化了。
引入智能化之后,就等于引入了算法、计算和处理过程,不能单纯地看数据的存储形态,而要关心其语义、内涵和结构化层级了。
结构化是一个具备非常抽象意义的词汇,即让事物组织的条理有序呈现出清晰结构的方法。结构是一个复杂的词汇,他主要跟组合、关系、构成方式这些含义紧密相关,从通用智能理论上看,他是世界模型的核心组成部分,如语言学中的frame、视觉上的布局、听觉上的和弦构型等等,世界模型的核心构成是概念(包括关系型概念(包括复杂结构概念)),从而衍生出实体、关系(复杂关系亦即结构)、属性用于高级思维的推理预测所使用。
实体关系属性的根在完形化,完形化只是人类智能的符号控制的基础,不是全部智能的控制基础,比如条件反射、大量的运动控制是不依赖完形化的。
通过上面的讨论我们更加清晰,结构化与模型化的大致关系了,两者不是一个等级的概念,结构是隶属于模型的子范畴概念。

Read more

Yoshua Bengio访谈笔记:用意识先验糅合符号主义与联结主义

本文转载自机器之心 作者:邱陆陆。

这篇文章极好地阐释了AI先驱们对通用智能的理解,Bengio不愧为一代大师。感谢机器之心如此专业的分享,也感谢Bengio引领我们走向正确的方向,他所提到的几件重要的事情都体现了他对人类智能深刻的理解。1. 世界模型。无意识状态中存储了海量的关于世界的知识、关系、信息,智能始终基于对世界的理解来进行推理预测。 2. 符号化,我称之为离散化或完形化,从复杂感知数据,海量特征中涌现单一整体的过程,是联结主义和符号主义的桥梁,由于离散化的存在,连续的变化的数据才变成了单一、离散的表征,我们才能进行程序化的计算、推理,这也是我下一个要提到的图灵机制的关键所在。3. 图灵机制。Bengio所提的意识State恰恰说明他意识到了大脑中图灵机制的存在,意识State就是运行时的世界模型,从记忆中提取的世界知识,借助感知数据,我们在意识活动(注意和工作记忆)下建立运行时的世界模型,并进行推演从而做出准确的预测。正因为有了这样的理解,我们才能够自信地认为BERT的基于概率的方向是存在明显问题的,至少他不是人脑运作的方式。我们应该结合神经网络的海量表征潜在常识与自然语言的数据,共同来筑建运行时模型,才能做出最准确的对语言的理解,才能进行推理和解决问题。对此Bengio非常谦虚地表示,在这个框架下未来将有很多工作要做,是一种非常务实的心态,如何训练出我们想要的海量无法用言语来形容的,对意识层面或者完形、离散化有益的表征,将是下一步研究课题。

 

表征(representation)空间的依赖贯穿计算机科学乃至日常生活的始终。在计算机科学中,如果数据有精当的结构,辅以智能化的索引,那么搜索任务的速度可以指数级加快;对于人来说,计算『 210 除以 6 等于几?』是容易的,计算『 CCX 除以 VI 等于几?』则需要更多时间。表征空间的选择对机器学习算法的性能影响,由此可见一斑。」《深度学习》[1] 一书如是评价表征的重要性。 Read more

完形与世界模型

本文主要探讨完形与世界模型的关系。


格式塔心理学引入了心理学的动力学视角,启发我们从一个全新的角度看待世界模型的构建,自我、感官、旧脑等综合作用下会产生不同的行为环境的内容。
考卡夫向我们展示了一系列实验,表明人在解构感知信息时会倾向于简单性、相似性、闭合性等一系列完形原则,虽然其大作《格式塔心理学原理》中并未探讨成因,但在生理-心理联合框架上下足了理论功夫。 Read more

ICPS 2015上认知语言学之父George Lakoff的演讲全文

如果全部读完,基本算是一门脑科学、心理学、神经科学入门指引课。视频地址:https://www.youtube.com/watch?v=WuUnMCq-ARQ

 

Most thought is unconscious, and the usual estimate is around 98 percent. But if you believe the work that Stan Dehaene talked about the other night, it is more than 98 percent. Consciousness is the tip of the iceberg of thought. It is there that things are put together in an interesting way and the interesting way is the following, that before consciousness, what happens is that your brain unconsciously changes what you perceive or what you think. This is something remarkable. I think one of the best papers I heard on this was by Shin Shimojo who is a vision scientist at the Caltech. He came to Berkeley a couple of months ago and gave a truly remarkable overview of experiments that showed this, many of them which were his. Let me give you a sense of this. Suppose you know that if there are flashing lights and they are going along and they are going fast enough, they look like a single stream. Read more

Tensorflow数据读取指南

tensorflow的灵活性带来的学习成本是很多人头疼的问题,在tf中,读取数据基本有四种方法:
1. tf.data (官方推荐):方便地构建复杂的输入管道
2. Feeding:通过input_fn来yield数据
3. QueueRunner:基于队列的输入管道
4. 预加载数据。用constant或variable在内存中存储所有的数据
Read more