互联网资讯 / 人工智能 · 2023年12月3日 0

AI思考的哲学:认知不变性与人工智能

美国的 DARPA曾经提出过第三波 AI的概念,在其论述中,第三波AI里很重要的一部分就是达到通用人工智能。换句话说,当下的人工智能更多还是依赖于统计学信息,当传入模型的数据分布发生变化时(任务变化),就很难达到理想的效果。传统的AI中,大部分的AI算法都渴望找到一个生物学依据来进行对应,尽管有很多人质疑这种对应的必要性,而且就如飞机的发明一样,其实飞机的飞行方式跟鸟类有很大不同,但在发现更好的算法之前,向人脑学习或许是更好地选择。既然要向人脑学习,那么人类探索世界的过程就可以成为AI最好的老师,而哲学就是人类探索世界最神秘也最牢固的基石,很多学者也开始注意到哲学,除了将其作为虚无缥缈的 “底蕴” 外,他们也开始试着将哲学的思路真正融入到AI算法中来。

因此,本文也选择了一个角度,从科学认知的不变性入手,然后介绍HTV存在的必要性以及在广义上如何基于内部可变性和外部可变性在AI中衡量并实现这种不变性,最后会介绍几个刚刚提出的具体的实现认知不变性的标准。

什么是科学认知不变性(HTV) AI思考的哲学:认知不变性与人工智能

图1:David Deutsch在其 TED Talk中提出了HTV的必要性

简单来说,科学认知不变性的意思就是我们提出的理论应该是不易变化的。下面是Wiki对于HTV相对完整的定义:

Theorists should seek explanations that are hard to vary. By that expression, the author intended to state that a hard-to-vary explanation Provides specific details that fit together so tightly that it is impossible to change any detail without affecting the whole theory.

基于这个角度来看,神话就是人类在认知世界时的一个极端的反面例子了。举个例子,在古希腊神话中。季节是这么来的:冥界之神哈迪斯绑架了春天之神珀尔塞福涅,并强迫她结婚。结婚后哈迪斯放走了春天之神,但是要求她定期回来。因此很神奇的,每年她真的就就会被迫回到冥界。而她的母亲,大地女神得墨忒耳悲伤不已,使大地变得寒冷而贫瘠,也就变成了人间的冬天。先不说这之中的不变性是否存在,就只说其内在逻辑,如果冬天是因得墨忒耳的悲伤而造成的,那么它必须同时发生在地球上的所有地方。所以如果古希腊人知道澳大利亚在得墨忒尔最悲伤的时候是最热的他们就会知道他们的理论是错误的。

除了事实给这个故事带来的矛盾之外,四季的解释还可以由其他各种各样的故事来代替,比如说在新的故事里强迫春天之神回去的理由不是那一纸婚约,而是为了复仇,因为这里的珀尔塞福涅没有被释放,但是她逃跑了。从此之后,每年春天她会回来用她的春天之力向哈迪斯复仇,她用春天的空气给它的领地降温,这些热量散发到地面,创造了我们的夏天。这和最初的神话解释了相同的现象,同样是跟现实相符的。然而,它对现实的断言,在许多方面是相反的。这是可能的,因为原始神话的细节与季节无关,除了通过神话本身。

如果上面的故事太长太难理解,那么就再举个更简洁的例子,过去的神话中,下雨是龙王控制的,还有雷公电母负责雷电,这种故事都是很容易变的,只要改个人就行了,比如雷公改成雷神,就可以实现完全相同的结果,只不过内在的解释却全然不同,分别代表着中国古代神话和漫威。

这就是为什么HTV会被提出来,如果现在的科学也像这类故事一样内在逻辑其实很容易被篡改,然后还能达到完全相同的结果,那将会是很恐怖的,这也解释了为什么当下的AI黑盒模型很难被除AI从业者之外的人信任。那么为了实现不变性,这些神话里缺了什么?回到开始对于季节的解释上,它们缺失的一个关键元素是该理论内部演绎逻辑所产生的约束。现代科学对季节的解释就是一个很好的例子,因为它涉及到太阳光线和地轴倾斜的一系列紧密的几何推导。尽管它也有一些自由的参数,如倾斜的角度等,但大多数的解释都来源于于不能改变的几何推论。当然,这类约束存在的前提是我们要建立的知识的一致性。

HTV 能做什么

现在的AI行业其实正在蓬勃发展,有几家公司已经推出了全自动驾驶汽车,而谷歌的Duplex系统凭借其能够进行自然语言对话的能力赢得了很多受众。而最近的GPT3模型已经证明能够编写非常令人信服的故事,并在测试期间甚至可以执行语料外的任务。然而,仍有许多人工智能无法做到的事情。今天的人工智能系统缺乏人类水平的常识理解,在机器人操作物体方面很笨拙,在任意推理方面也很差。另一个问题是,如今的人工智能无法从人类这样的少数例子中学习,需要大量数据来进行训练。然而,最重要的是,今天的人工智能系统都很狭窄,也就是DARPA提到的Narrow AI它们只能在训练数据分布的范围内执行它们被训练完成的任务。只要今天的人工智能系统被要求在训练数据分布之外工作,它们通常就会失败。

换句话说,当前的AI更注重归纳出来的结果。但是矛盾点就在这里,如果AI真的要向人脑学习,那学者们就很难绕开波普尔提出的认知论,而在这个认知论中,他反对归纳法,认为归纳法不是科学知识增长和发展所必需的。而目前的很多机器学习甚至很多科学研究,其实本质上都相当于贝叶斯归纳法,而且当下一个很流行的观点就是,所有的人工智能系统都是近似的索罗门诺夫归纳法。

就像某辩论节目中说的那样,哲学更多是用来证伪,而不是用来证实。而AI正是在为了几乎为了几乎不可能的 “证实” 在努力。简单来说,AI希望能够产生理论,而且理论完全准确。但这显然是不可能的。在波普尔看来,理论向来都是为了解决问题而出现的 “大胆猜想”,而不是直接从经验中学来的。举个例子,星星其实也是一个个太阳,只不过他们比太阳离我们更远,这是阿纳萨哥拉斯在公元前450年首次提出的大胆猜想。尽管人工智能研究人员对如何产生这样的猜测非常感兴趣,但波普尔并不太关心如何产生猜测,相反,他认为这是一个心理学家需要回答的问题。毕竟,一个猜想的真实性与它的来源无关。虽然经验能够并且确实告诉我们哪些猜想应该保留,哪些应该抛弃,特别是以经验检验的形式,但在波普尔看来,经验总是带有理论色彩的。换句话说,不可能像弗朗西斯培根所说的那样,以一种完全客观的方式进行观察。

对波普尔来说,理论和观测哪个先出现的问题很像先有鸡还是先有蛋的问题。科学理论是建立在观察的基础上的,但从某种程度上说,这些观察又是由之前的科学理论提供的,这样不断追溯我们甚至可以追溯到史前科学的神话中。因此,尽管理论的实证检验在证明某些理论是错误的同时保留其他理论方面发挥着作用,但波普尔认为,从根本上说,所有的理论都来源于 “内部”,而不是来自外部的印象。如果可证伪性是一个理论是否科学的关键,那么建立在神话之上的理论,能够对神、魔鬼和鬼魂的行为做出可证伪的预测,就应该被认为是科学的吗?波普尔通过他的 “可证伪性的程度” 概念,在一定程度上解决了将这些明显不科学的理论从科学领域中移除的任务,但这一原则的有效性我们依然不清楚。

于是HTV的存在就很有必要了,因为它好像可以用于作为区分科学理论和不科学理论的替代标准。对应的,AI既然声称自己的模型要成为智能,那么HTV也可以用来证明AI模型输出的有效性。

AI与HTV的关系

通常来说,HTV可以这么解释:对应一个特定的理论,有多少个等价的解释存在。例如,在机器学习的环境中,HTV原理可以分别应用于各种类型的模型架构,每一种都有固定数量的参数。有更多参数的模型能够表达更大的函数类,因此更容易变化。

从表面上看,HTV原理似乎与经典统计中的偏 – 方差权衡的其中一方面有关,即参数过多的模型更容易对其训练数据进行过拟合,导致对测试数据的泛化能力较差。然而,回想一下,我们感兴趣的是外推,而不是训练分布范围内的经典泛化。偏差 – 方差权衡只针对分布中的泛化,因此与HTV原理是基本不相干的。而且在机器学习中,随着更多的参数添加到模型中,偏见 – 方差权衡已经被证明会失效,如超过某个阈值,导致 “双下降” 曲线的发生。因此目前来说,更多的参数总是有帮助的,而不会有坏处。所以,偏差 – 方差权衡本身的存在也变得值得怀疑了。如何区分适用偏差 – 方差权衡的模型和不适用偏差 – 方差权衡的模型仍然是一个正在进行的研究领域。同时,过度拟合的问题通常可以用更大的数据集来补偿。因此,大型模型在本质上并不是不好的,这取决于可用数据的数量。

因此,其实HTV与奥卡姆剃刀原则似乎更接近。简单来说,这个原则所表达的意思就是模型越简单越好,简单的模型可以完成的事情没必要用复杂的东西来完成。KOLMogoROV complexity可以很好地衡量这一原则。

如果字符串s的描述d(s)具有最小长度(即使用最小比特数),则称为s的最小描述,d(s)的长度(即最小描述中的比特数)为s的KOLMogoROV复杂度,写成K(s)。而最短描述的长度取决于描述语言的选择但是改变语言的影响是有限度的。这在AI中,这种简单性的衡量可以有有两种方式:

一是利用所有已有的解释框架,或者看这个训练好的模型有多复杂。HochReITeR和ScHMidhubeR发现,在参数空间的损失函数表面上存在平面极小值的深度学习模型更易于推广。这一点很好解释,平