完形与世界模型

本文主要探讨完形与世界模型的关系。


格式塔心理学引入了心理学的动力学视角,启发我们从一个全新的角度看待世界模型的构建,自我、感官、旧脑等综合作用下会产生不同的行为环境的内容。
考卡夫向我们展示了一系列实验,表明人在解构感知信息时会倾向于简单性、相似性、闭合性等一系列完形原则,虽然其大作《格式塔心理学原理》中并未探讨成因,但在生理-心理联合框架上下足了理论功夫。
对于AGI而言,如何理解这种动力学观点还是其次,重要的是,注意力、工作记忆、记忆还有什么其他的机制在一起构建了世界模型,以什么形式表征世界模型。Gestalt的原则提醒我们大脑试图以主题-背景模式来分离出感知流中的一个完形,至于何以一个完形应由哪些要素构成,我以为则是以简单为原则,而相似、相近、闭合则是自然属性的反映,即可形成简单模型的完形,大抵都偏向相似、相近、闭合。若此,我们便可得到一个与逻辑推理相近的视觉世界模型的理论,并难得地将他们统一了。
我们的大脑为了寻得一种解释,近似原则既可是先天便有,亦可是后天训练而得,但均辅助我们快速构建这种理解,一旦形成的理解可以解释可见,便以为理解的目标达成。
由于我们动用全部的大脑资源只为寻得一个gestalt,说明这个事情并不是单纯的一个中间抽象特征问题,而是一个全脑宏观任务,工作记忆和世界模型的存在让我们可以进行持续的跟踪。而gestalt所付出的全脑级努力,恰恰是为了资源节约而做的努力。
狭义上的完形更可能是结果而不是本源,它反映的是世界的本质。当然我们不用特别注重这个因果,我们用全新的框架也不一定按进化的原则构建旧脑,只要一个机制可以让神经网络(Neural Network,NN)产生完形即可。主要的挑战之一是如何评价一个NN产生了完形呢?首先讨论应不应排除现行的mask方法,如果NN掌握了完形,那么它可以完成mask任务,但完成了mask任务却不代表掌握了完形。NN如果可以画出简要的模型图,才更让人信服其掌握了内在结构,因为世界模型是可以参与智能任务的,但丰富的画面内在结构是复杂的方位关系、组合关系、变化关系等等,画出模型图恐怕也不够。GAN重现是可以的,那GAN是否掌握了完形、物体的概念呢?如果有,如何利用呢?如果没有它利用的是什么呢?它是一种欺骗技术么?从贝叶斯思维来看,很多GAN是产生的是近似宏观知觉的错误细节图,它未必掌握了真正的世界模型。
首先应从宏观层面看待完形和世界模型,至少在运行时是非常宏观的,虽然持久化可能很微观,其次注意资源、完形是一种动力学过程,所有的机制以及完形的产生,世界模型的构建都是整个机制运转过程的环节,所以倘若可以以图灵机制有效的运转起来,势必有世界模型和完形的产生,否则整个机制将无法运转,那么便回到两个基本问题:1) 世界模型如何存储、表征 2) 完形如何产生。
世界模型是我们对世界真实构成的理解,世界模型可能是极其复杂的,比如对一个城市的理解,对一个家的理解,里面包含了数以百计、千计、万计的关系,完形是从感知数据中抽取的一个认知、一个主体,这个主体一般只是世界模型的一部分,这个认知在学习阶段,更多是帮助补充世界模型的信息,比如我们读完一本书,才能建立一个知识体系,考察一个房间才对其布局了如指掌。世界模型是一个模糊的非主体概念,万事万物、互相关联,它应是由无数的概念、无数关系、无数结构构成,由其中某些部分便可构建出一个整体,亦即完形,每个通过感知形成的完形,可能是经验的,也可能是全新的,但全新的能否构成整体,也可依赖经验和旧脑,有些东西具备先天的完形倾向(进化通路),而有些需要后天学习(学习捷径通路)。
无论何种通路,倾向性均忠于现实世界的内在结构。这是进化的适应的结果,也是生命体和智能体的基本能力。
当预测基于世界模型时,就可以摆脱概率的烦恼,世界模型的激活在某些时候也依赖完形的产生,识别出的完形启发式地激活了世界模型,世界模型是一个比完形更复杂的整体,但在意识中,很多时候一个世界模型可能就是一个完形。但世界模型不是意识层面的东西,所以它应是更广泛的代表物。
完形本质上不只是感知问题,反而是意识层面上的问题,是注意机制的表现,也是运行时思维运作的需要,面对复杂的世界构成,注意让计算资源集约,通过算法完成智能任务,离开完形、世界模型的大厦便无法筑建,算法便无法展开。
完形如何产生,如何表征定要放到世界模型,图灵机制的框架下来思考。所有感觉最终都在为这个机制服务,不同的感觉数据在完形上有不同的特点,声音的近似性一般指在音色音调上、接近性指在时间上,海伦凯勒的案例表明单纯的触觉亦可构建世界模型,虽然极其困难,但大脑世界模型的潜力是存在的,我不知道是否与旧脑有关,但旧脑在完形上的确在低等动物中发挥重要作用。