关于深度学习和小样本学习问题的新认识

第一个问题,小样本学习问题

之前,我一直认为深度学习的小样本学习能力差,是因为不应该用统计的手段,但现在意识到不是因为统计的问题,而是因为重新发明了轮子,信息利用度不够,举个例子自然图像识别的第一层是方向基,线条基,大家都在重复地训练第一层就是重复劳动,第二层、第三层也有类似的问题,其实前面几层都用通用性,即使到了后面几层,不同的训练之间也是有大量共通的东西。而通用智能的解决方案在于提供了一种灵活、高度的可复用机制。说白了,当我们有足够好的条件的时候,我们会尽量减少统计,但统计的本质没有错。所以,深度学习的小样本学习能力差的一个重要原因我认为就是复用度问题,第二个原因是学习方法问题。比如我之前问过很多人2的本质的问题,无论是很多初学者还是专家学者都认为统计的机理是对的,很多人对于深度学习大样本学习2给出的解释是我们人也一样,也是学习了大量的例子才学会2的,但是你如果认真观察,你会发现小孩子在学习认知2的时候,的确存在无法一次学清楚的问题,比如我的孩子经常会把2和7搞混,6和9搞混,但你没办法教育它两者的不同,只能监督学习式反复强调这个是2,这个是7,你看这个2拐下来又横回去,那个7就没有横回去,而且7的上面一横是折下来的,但是这些语言对于两岁的孩子来说它其实是没有听懂的,它下回还是搞混,但是慢慢地它自己发现、对比和注意到了两者的不同,能够区分开了,这个过程中,这个过程和机器学习训练过程是相似的,但是如果我们假象它能听懂我说的话,是否它可以更快地学会区分呢?我想是会的,因为我们长大以后几乎所有的学习过程都是学习到的知识,我们不在受那么多的训练,而是学习,有时我们会把监督学习认为是训练,但监督学习和我们教育概念中的学习要理清楚,一个有效的教学方法可以让我们迅速把握事物的特征,也就如果我们可以告诉神经网络这个关键特征点,也就是说,一些学习的过程实际上是在一个好的teaching技术下,帮助神经网络迅速抓住要点也就是关键特征点,然后将关键特征点学习成一个新的事物,而这时你会发现甚至都没有统计的发生,你就是直接记住了一个组合关系并命名,是一个recoding过程。而如果没有这个teaching技术,神经网络可能需要自己在统计上去发现,需要大量的样本,所以小样本学习能力的关键至少包含两点,一个是重用,另一个是好的教学技术,后者很少在ML领域被提及。这种解释从另一个角度说明了,深度学习的层次化学习机制已经具备了足够强大的人类层次甚至超越人类的特征发现能力,以alphago为例,它自己学习棋谱,总结规律的能力已经超越了整个人类史积攒的全部规律总和,而这些规律是人类一点一滴积累下来,并逐待传承下来的,从这个意义上,你会感到震撼,也感觉到极大地希望。因为alphago自己就可以总结出这么多规律,只可惜它不能给你讲述给你听。

第二个问题,是生物学机制的自组织和机器学习的回归的互通借鉴。

以[1]的学习方法可以看到是一个逐步迭代的过程,而生物学上我们探明的简单细胞感受野机制是自组织的过程,当然没有全程宏观控制,这一点带来的好处是计算资源在时间维度上自动地侦测特征,并在结构上形成层次感,并处于一个长期在线的过程。所以,如果要开发机器人、小秘书这些类生命智能体,这种机制需要在计算机上发明出来,而不是通过离线训练的方式,而且也没有那么多样本可用,更多的时候是给你更多的观察时间和思考,这两个东西可以减少纯统计上的东西,而统计对于发现大数据中的规律的能力恰恰是我们人脑的短板,在通用智能中如果引入这个能力是否有价值值得讨论,但机器学习的工具性使得它离线使用也是没有问题的。

简单总结:1. 机器学习还是统计上的成功,它没有问题,不是低效,在同样的条件下,通用智能可能表现的更差。2. 学习不单纯是统计的东西,要更多地关注重用、教学技术、在线能力、recoding机制、associate memory。

 

[1] Bruno A. Olshausen & David J. Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature 381, 607 – 609 (13 June 1996)