世界模型 World Models部分翻译

dengfanxin 经典翻译 2018年8月14日2018年8月14日

本文对论文《world Models》的前半部分进行了翻译，看过前半部分基本就了解结构了，我个人认为Schmidhuber还是一如既往地喜欢把小东西往宏大了说，当然也多亏了他起的题目，很多人对世界模型产生了浓厚的兴趣。但本文的确不能说在世界模型方面有了飞跃的进步，只是将隐变量配合LSTM当作了世界模型，所以我不打算翻译后半部分了。虽然现在大家对于时序问题还没有太好的办法，很多时候不得不靠LSTM，但LSTM绝对不是未来。

世界模型 World Models
David Ha, Jurgen Schmidhuber

摘要

我们研究在流行的强化学习环境中构建生成神经网络。以监督的方式可以快速训练我们的世界模型学会环境的压缩空间和时间表征。将从世界模型中抽取的特征作为智能体的输入，我们能训练出一个非常紧凑简单的指定任务解决策略。我们也能训练智能体完全沉浸在自己的幻觉中基于它的世界模型做梦，并将策略迁移回实际环境中。

Faster R-CNN论文翻译

dengfanxin 经典翻译 2017年11月1日2017年11月1日物体检测

Faster R-CNN是互怼完了的好基友一起合作出来的巅峰之作，本文翻译的比例比较小，主要因为本paper是前述paper的一个简单改进，方法清晰，想法自然。什么想法？就是把那个一直明明应该换掉却一直被几位大神挤牙膏般地拖着不换的选择性搜索算法，即区域推荐算法。在Fast R-CNN的基础上将区域推荐换成了神经网络，而且这个神经网络和Fast R-CNN的卷积网络一起复用，大大缩短了计算时间。同时mAP又上了一个台阶，我早就说过了，他们一定是在挤牙膏。

Faster R-CNN: Towards Real-Time Object

Detection with Region Proposal Networks

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun

摘要

最新的检测网络都依赖区域推荐算法来推测物体位置。像SPPnet[1]和Fast R-CNN[2]已经大幅削减了检测网络的时间开销，但区域推荐的计算却变成了瓶颈。本作将引入一个区域推荐网络（RPN）和检测网络共享全图像卷积特征，使得区域推荐的开销几近为0。一个RPN是一个全卷积网络技能预测物体的边框，同时也能对该位置进行物体打分。RPN通过端到端的训练可以产生高质量的推荐区域，然后再用Fast R-CNN进行检测。通过共享卷积特征，我们进一步整合RPN和Fast R-CNN到一个网络，用近期流行的“术语”说，就是一种“注意力”机制。RPN组件会告诉整合网络去看哪个部分。对于非常深的VGG-16模型[3]。我们的检测系统在GPU上达到了5fps的检测帧率（包括所有步骤），同时也在PASCAL VOC2007,2012和MS COCO数据集上达到了最好的物体检测精度，而对每张图片只推荐了300个区域。在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN是多个赛道都赢得冠军的基础。代码已经公开。

Fast-RCNN论文翻译

dengfanxin 经典翻译 2017年10月31日2017年10月31日物体检测

本文实现了Fast-RCNN主要部分的翻译工作，在SPPnet出来之后，同在微软的R-CNN的作者Ross迅速怼了回去，抛出了更快更好的Fast-RCNN，思路为之一新的是，将之前的多阶段训练合并成了单阶段训练，这次的工作简洁漂亮，相比之前的RCNN，怀疑作者是在挤牙膏。另外，面对灵活尺寸问题，Ross借鉴了空间金字塔的思路，使用了一层空间金字塔。

Fast R-CNN

Ross Girshick

Microsoft Research

rbg@microsoft.com

摘要

本文提出了一个快速的基于区域推荐的卷积网络方法（Fast R-CNN）用于对象检测。Fast R-CNN在前人工作的基础上使用深度卷积网络，可以更有效地分类物体推荐。相比之前的工作，Fast R-CNN进行了多项创新，在提高了检测精度的同时，也提高了训练和测试速度。Fast R-CNN训练了一个超深VGG16网络，训练时间比R-CNN快9倍，测试时间快213倍，在PASCAL VOC2012上达到了更高的mAP。相比SPPnet，Fast R-CNN训练快3倍，测试快10倍，并且更加准确。Fast R-CNN用Python和C++（使用Caffe）实现，以MIT协议开放在：https://github.com/rbgirshick/fast-rcnn

SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

dengfanxin 经典翻译 2017年10月31日2017年10月31日SPPNet, 物体检测

我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作。SPPNet的初衷非常明晰，就是希望网络对输入的尺寸更加灵活，分析到卷积网络对尺寸并没有要求，固定尺寸的要求完全来源于全连接层部分，因而借助空间金字塔池化的方法来衔接两者，SPPNet在检测领域的重要贡献是避免了R-CNN的变形、重复计算等问题，在效果不衰减的情况下，大幅提高了识别速度。

用于视觉识别的深度卷积网络空间金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun

摘要

当前深度卷积神经网络（CNNs）都需要输入的图像尺寸固定（比如224×224）。这种人为的需要导致面对任意尺寸和比例的图像或子图像时降低识别的精度。本文中，我们给网络配上一个叫做“空间金字塔池化”(spatial pyramid pooling,)的池化策略以消除上述限制。这个我们称之为SPP-net的网络结构能够产生固定大小的表示（representation）而不关心输入图像的尺寸或比例。金字塔池化对物体的形变十分鲁棒。由于诸多优点，SPP-net可以普遍帮助改进各类基于CNN的图像分类方法。在ImageNet2012数据集上，SPP-net将各种CNN架构的精度都大幅提升，尽管这些架构有着各自不同的设计。在PASCAL VOC 2007和Caltech101数据集上，SPP-net使用单一全图像表示在没有调优的情况下都达到了最好成绩。SPP-net在物体检测上也表现突出。使用SPP-net，只需要从整张图片计算一次特征图（feature map），然后对任意尺寸的区域（子图像）进行特征池化以产生一个固定尺寸的表示用于训练检测器。这个方法避免了反复计算卷积特征。在处理测试图像时，我们的方法在VOC2007数据集上，达到相同或更好的性能情况下，比R-CNN方法快24-102倍。在ImageNet大规模视觉识别任务挑战（ILSVRC）2014上，我们的方法在物体检测上排名第2，在物体分类上排名第3，参赛的总共有38个组。本文也介绍了为了这个比赛所作的一些改进。

R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构

dengfanxin 经典翻译, 论文 2017年10月27日2017年10月27日CNN, 图像语义分割, 物体定位

我对深度学习应用于物体检测的开山之作R-CNN的论文进行了主要部分的翻译工作，R-CNN通过引入CNN让物体检测的性能水平上升了一个档次，但该文的想法比较自然原始，估计作者在写作的过程中已经意识到这个问题，所以文中也对未来的改进提出了些许的想法，未来我将继续翻译SPPNet、fast-RCNN、faster-RCNN、mask-RCNN等一系列物体定位和语义分割领域的重要论文，主要作者都是Ross Girshick和Kaiming He。

用于精确物体定位和语义分割的丰富特征层次结构

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik

UC Berkeley

摘要

过去几年，在权威的PASCAL VOC数据集上，物体定位的性能已经达到一个稳定水平。表现最好的方法都是融合了多个低层次图像特征和高层次的上下文环境的复杂系统。本文提出一种简单的可扩展的检测算法，可以将VOC2012上期望平均精度的最好结果明显提升30%以上——达到了53.3%。我们的方法结合了两个关键因素：(1) 将大型卷积神经网络（CNNs）应用于自底向上区域推荐以定位和分割物体；（2）当标签训练数据不足时，先针对辅助任务进行有监督预训练，再进行特定任务的调优，就可以产生明显的性能提升。由于我们结合了区域推荐和CNNs，该方法被称为R-CNN：Regions with CNN features。我们对比了R-CNN和OverFeat，Overfeat是最近被提出的一个机遇类CNN架构的滑动窗口检测器，发现R-CNN在ILSVRC2013检测数据集上面的表现明显优于OverFeat。整个系统的源码在：https://people.eecs.berkeley.edu/~rbg/rcnn（译者注：已失效，新地址：https://github.com/rbgirshick/rcnn）

[DeepMind论文部分翻译]克服神经网络中的灾难性遗忘 Overcoming catastrophic forgetting in neural networks

dengfanxin 经典翻译, 论文 2017年3月16日2017年3月16日

本文翻译了DeepMind的最新研究成果的第一部分，可以当做是introduction部分，借鉴神经科学成果，解决了一个通用人工智能领域持续学习所面临的关键性难题。

原文地址：http://www.pnas.org/content/early/2017/03/13/1611835114.full.pdf

实现通用智能需要智能代理能够学习和记住许多不同的任务[1]。在现实世界中这很困难：任务的顺序并不会显式地标注出来，任务之间可能会不可预期地切换，单一任务可能在很长的一段时间内都不会复现。因而，智能代理必须具备持续学习的能力：也就是学习连贯的任务而不会忘记如何执行之前训练过的任务的能力。

持续学习对人工神经网络是一个特别大的挑战，因为与当前任务（比如任务B）相关的知识被合并掉，关于先前任务（比如任务A）的知识会突然地丢失。这个现象术语叫灾难性遗忘（catastrophic forgetting）[2-6]，一般会发生在神经网络在多个任务上进行按序训练的时候，比如对任务A很重要的神经网络的权重正好满足任务B的目标时。然而近来机器学习的进步，尤其是深度神经网络的进步对各个领域已经产生了广泛的有利影响（如文献7和8），但连续学习领域的研究却停滞不前。当前的方法主要是通过确保来自各个任务的数据在训练中都可以同时获得。通过在学习过程中对来自多任务的数据进行交叉操作，其实遗忘并不会发生，因为神经网络的权重能够对所有任务上的表现进行联合优化，但这个方法通常指的是多任务学习范式-深度学习技术，已经被成功地应用在训练单一智能体玩多种Atari游戏[9,10]。如果任务按序呈现的话，只能在数据存储在事件记忆系统并在训练的过程中对网络进行回放时，才能采用这种多任务学习技术。这种方法（通常也叫系统级巩固[4, 5]）面对学习大量任务时并不实用的，因为按照我们的设定，它应该需要与任务数量成比例的存储数量。相关算法的确实成为通用智能开发的关键障碍。

与人工神经网络形式鲜明对比的是人类和其他动物似乎能够以连续的方式学习[11]。最近的证据提示哺乳动物的大脑可能会通过大脑皮层回路来保护先前获得的知识，从而避免灾难性遗忘[11-14]。当小鼠需要一个新技能的时候，一定比例的突触就会增强，表现为单一神经元的树突棘数量的增加[13]。至关重要的是，即使进行了后续的其他任务的学习，这些增加了的树突棘能够得到保持，以便几个月后相关能力仍然得到保留。当这些树突棘被选择性“擦除”后，相关的技能就会被遗忘[11,12]。这表明对这些增强的突触的保护对于任务能力的保留至关重要。这些实验发现与诸如瀑布模型[15, 16]这样的神经生物学模型提示我们大脑皮层中的持续学习依赖于任务相关突触的巩固，知识能够长久地编码得益于让一部分突触降低可塑性从而在相当长的时间范围内变得稳定。

本次工作将展示任务相关突触巩固为人工智能的持续学习问题提供了独特的解决方案。我们为人工智能神经网络开发了一种类似于突触巩固的算法，称之为可塑权重巩固（elastic weight consolidation，EWC）。这个算法会针对那些对特定任务特别重要的特定权重降低学习率。也会展示EWC如何应用在监督学习和强化学习问题中，在不会遗忘旧任务的情况下，按次序地训练多个任务，并与之前的深度学习技术进行对比。

大脑、小脑与运动控制原理

dengfanxin 经典翻译 2016年9月27日2016年9月27日基底神经节, 小脑, 神经科学, 脑科学, 运动, 运动皮层

发现一个写得还不错的关于运动控制的教学文章，翻译给大家。

原文地址： http://thebrain.mcgill.ca/flash/d/d_06/d_06_cr/d_06_cr_mou/d_06_cr_mou.html#4

运动皮层

人体的自主运动都是由大脑控制的。控制自主运动的大脑区域称作运动皮层。运动皮层位于额叶后部，中央沟回（额叶和顶叶的分界线）之前。运动皮层主要分为两个区域，4区和6区，也成为初级运动皮层，沿着中央沟回形成一条窄带。6区位于4区的正前方。6区更宽，进一步细分为两个亚区。为了能够执行目标导向的运动，运动皮层需要接收来自各叶的各种信息，包括：来自顶叶的身体空间位置信息；来自额叶前部的关于达成目标而采用的恰当策略信息；来自颞叶关于历史策略的记忆信息；

图1. 区域划分

图2. 身体映像

Deep Learning Tutorial 深度学习教程翻译

dengfanxin 教程, 经典翻译 2016年7月15日

国内互联网上关于deeplearning.net上的Deep Learning Tutorial的翻译有很多，但很零散，并且没有人有效地把这些组织起来，本文对这些进行了整理，带有>前往的都是已经找到的对应的翻译文章，有些是我自己写的，其他一些还没有的，我会自己补充上。

前置阅读

Machine Learning for AI an introduction to Deep Learning algorithms

Learning Deep Architectures for AI (Foundations & Trends in Machine Learning, 2009).

Theano basic tutorial

正式教程

准备工作 – 它介绍了符号，本教程中使用的数据集（可下载），以及对随机梯度下降法所做的优化。 > 前往

纯监督学习算法，按顺序阅读：

Logistic Regression – 简单使用Theano > 前往
Multilayer perceptron – 介绍layer >前往
Deep Convolutional Network – LeNet5的简化版本 >前往

无监督和半监督学习算法，阅读顺序无要求：(自编码器与RBM/DBN议题相互独立):

Auto Encoders, Denoising Autoencoders，自编码器，去噪自编码器 – 自编码器描述 >前往
Stacked Denoising Auto-Encoders，堆栈式自编码器 – 进行深度网络无监督预训练的简单步骤 >前往
Restricted Boltzmann Machines，受限玻尔兹曼机 -单层生成式RBM模型
Deep Belief Networks – 深度信念网络 -先进行栈式RBMs的无监督生成式预训练再进行有监督微调

面向mcRBM模型构建, 关于从能量模型采样的新教程:

HMC Sampling，混合蒙特卡罗采样 -混合（又名汉密尔顿）蒙特卡洛采样 scan()

面向收缩自编码器的构建教程, 目前已经有了代码:

Contractive auto-encoders code，收缩自编码器代码 – 代码中有基础文档

带有词语嵌入和上下文窗口的Recurrent neural networks

Semantic Parsing of Speech using Recurrent Net

用于语义分析的LSTM:

LSTM network

基于能量的recurrent neural network (RNN-RBM)

Modeling and generating sequences of polyphonic music，和弦音乐序列的建模与生成

灵长类动物视觉皮层V2区的复杂形状选择性|Selectivity for Complex Shapes in Primate Visual Area V2

dengfanxin 经典翻译, 论文 2016年3月28日2016年3月28日V2, 感受野, 选择性

译者注：本文翻译了Jay Hegde和David C. Van Essen的论文《Selectivity for Complex Shapes in Primate Visual Area V2》，V1区的研究已经相当透彻，IT区的很多研究也表明了物体的选择性，大家都很好奇从V1到IT区的整个object recognition过程中发生了什么，这些intermedia area中的神经元有哪些特性呢？本文是一个较好的尝试。原文地址：http://www.jneurosci.org/content/20/5/RC61.full.pdf

灵长类动物视觉皮层V2区的复杂形状选择性

结果

复杂轮廓和光栅的V2区细胞选择性

流形学习和维度灾难|Manifold Learning and the Curse of Dimensionality

dengfanxin 经典翻译 2016年3月8日2016年4月3日bengio, manifold

本文是对Bengio大神的新作《Deep learning》一书中[5.12.3 Manifold Learning and the Curse of Dimensionality]一节的拙劣翻译，希望能对英文不好的同学理解原著起到一点点作用。

5.12.3 流形学习和维度灾难
让我们来看看一种特殊的机器学习任务类型——流形学习。虽然它是用来消减维度灾难的，我们仍要讨论一下它可以帮助可视化和突显平滑先验法对于高维空间的泛化能力是不足的。第17章将重点关注表示方式学习的流形视角并深入这一课题的更多细节，研究基于神经网络的实践中的流形学习算法。
一个流形是一个连接区域，一个点的集合，每个点相互临近，使得其看起来想一个欧几里得空间。相邻的概念意味着存在一些转换能够使这个流形从一个位置移动到一个相邻的位置。虽然有形式化的数学手段表述相邻概念，但机器学习更倾向于松散地用这个概念去讨论一组连接的点，这组点可以通过只考虑高维空间中很小一部分自由度和维度就能被很好的近似。每个维度对应一个局部变化方向，比如，向某个方向移动流形。我们所说的机器学习中的流形是点的子集，称作嵌入空间(也是一个流形)的子流形。 Read more

邓范鑫——致力于变革未来的智能技术

智能时代即将来临

经典翻译

世界模型 World Models部分翻译

世界模型 World Models
David Ha, Jurgen Schmidhuber

摘要

Faster R-CNN论文翻译

Faster R-CNN: Towards Real-Time Object

Detection with Region Proposal Networks

摘要

Fast-RCNN论文翻译

Fast R-CNN

Ross Girshick

摘要

SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

用于视觉识别的深度卷积网络空间金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

摘要

R-CNN论文翻译——用于精确物体定位和语义分割的丰富特征层次结构

用于精确物体定位和语义分割的丰富特征层次结构

Rich feature hierarchies for accurate object detection and semantic segmentation

摘要

[DeepMind论文部分翻译]克服神经网络中的灾难性遗忘 Overcoming catastrophic forgetting in neural networks

大脑、小脑与运动控制原理

运动皮层

Deep Learning Tutorial 深度学习教程翻译

前置阅读

正式教程

灵长类动物视觉皮层V2区的复杂形状选择性|Selectivity for Complex Shapes in Primate Visual Area V2

灵长类动物视觉皮层V2区的复杂形状选择性

结果

复杂轮廓和光栅的V2区细胞选择性

流形学习和维度灾难|Manifold Learning and the Curse of Dimensionality

世界模型 World Models David Ha, Jurgen Schmidhuber

摘要

Faster R-CNN: Towards Real-Time Object

Detection with Region Proposal Networks

摘要

Fast R-CNN

Ross Girshick

摘要

用于视觉识别的深度卷积网络空间金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

摘要

用于精确物体定位和语义分割的丰富特征层次结构

Rich feature hierarchies for accurate object detection and semantic segmentation

摘要

运动皮层

前置阅读

正式教程

灵长类动物视觉皮层V2区的复杂形状选择性

结果

复杂轮廓和光栅的V2区细胞选择性

世界模型 World Models
David Ha, Jurgen Schmidhuber