本文对论文《world Models》的前半部分进行了翻译,看过前半部分基本就了解结构了,我个人认为Schmidhuber还是一如既往地喜欢把小东西往宏大了说,当然也多亏了他起的题目,很多人对世界模型产生了浓厚的兴趣。但本文的确不能说在世界模型方面有了飞跃的进步,只是将隐变量配合LSTM当作了世界模型,所以我不打算翻译后半部分了。虽然现在大家对于时序问题还没有太好的办法,很多时候不得不靠LSTM,但LSTM绝对不是未来。
世界模型 World Models
David Ha, Jurgen Schmidhuber
摘要
我们研究在流行的强化学习环境中构建生成神经网络。以监督的方式可以快速训练我们的世界模型学会环境的压缩空间和时间表征。将从世界模型中抽取的特征作为智能体的输入,我们能训练出一个非常紧凑简单的指定任务解决策略。我们也能训练智能体完全沉浸在自己的幻觉中基于它的世界模型做梦,并将策略迁移回实际环境中。