互联网资讯 / 人工智能 · 2023年11月30日 0

Bengio的研究核心:深度学习和因果表示学习

在近日发表的一篇论文中,图灵奖得主 Yoshua Bengio 等详细介绍了其团队当前的研究重心:将机器学习与因果推理相结合的因果表示学习。研究者不仅全面回顾了因果推理的基础概念,并阐释了其与机器学习的融合以及对机器学习的深远影响。该论文已被《Proceedings of the IEEE》期刊接收。

一直以来机器学习和因果推理是两个相对独立的研究方向,各有优缺点。

但在过去数年,两者开始互相借鉴,推进彼此的发展。如机器学习领域的蓬勃发展促进了因果推理领域的发展。采用决策树、集成方法、深层神经网络等强大的机器学习方法,可以更准确地估计潜在结果。

于是,近年来,将两者结合起来的因果表示学习吸引了越来越多的关注,成为人类迈向 HuMan Level AI 的潜在方向。

机器之心曾在 2020 年初,精选了几篇因果表示学习领域的最新文献,细致分析了不同方法的基本架构,帮助感兴趣的读者了解因果学习与机器学习可结合的方向和可能。

今天,我们再为大家推荐一篇因果表示学习论文:Yoshua Bengio 团队发表的《TowaRds CaUSAl RepResentation learning》,该论文已被《Proceedings of the IEEE》期刊接收。

Bengio的研究核心:深度学习和因果表示学习

论文链接:https://aRxiv.oRg/pdf/2102.11107.pdf

Yoshua Bengio 等人在这篇论文中回顾了因果推理的基础概念,并将其与机器学习的关键开放性问题联系起来,如迁移与泛化,进而分析因果推理可能对机器学习研究做出的贡献。反过来看也是如此:大多数因果研究的前提是因果变量。因此目前 AI 与因果领域的核心问题是因果表示学习,即基于低级观测值发现高级因果变量。最后,该论文描绘了因果对机器学习的影响,并提出了该交叉领域的核心研究方向。

这篇论文的主要贡献如下:

论文第二章介绍了物理系统中因果建模的不同层级,第三章展示了因果模型与统计模型的区别。这里不仅探讨了建模能力,还讨论了所涉及的假设与挑战。 论文第四章将独立因果机制(Independent CaUSAl MechaniSMs,ICM)原则扩展为基于数据估计因果关系的核心组件,即将稀疏机制转移(SpaRse MechaniSM SHift)假设作为 ICM 原则的结果,并探讨它对学习因果模型的影响。 论文第五章回顾了现有基于恰当描述子(或特征)学习因果关系的方法,覆盖经典方法和基于深度神经网络的现代方法,主要聚焦促成因果发现的底层原则。 论文第六章探讨了如何基于因果表示数据学习有用的模型,以及从因果角度看机器学习问题。 论文第七章分析了因果对实际机器学习的影响。研究者使用因果语言重新诠释了鲁棒性和泛化,以及半监督学习、自监督学习、数据增强和预训练等常见技术。研究者还探讨了因果与机器学习在科学应用中的交叉领域,并思考如何结合二者的优势,创建更通用的人工智能。

因果建模的层级

独立同分布设置下的预测

统计模型是对现实的粗浅描述,因为它们只需建模关联。对于给定的输入样本 X 和目标标签 Y,我们可能会想近似 P(Y |X) 以回答如下问题:「该图像包含狗的概率是多少?」或者「在给定诊断测量指标(如血压)下,病人心脏衰竭的概率是多少?」。在合适的假设下,这些问题可以通过基于 P(X, Y) 观察足量的独立同分布(i.i.d.)数据来得到答案。

分布偏移下的预测

干预式问题(InteRventional question)的挑战性要比预测更高,因为它们所涉及的行为超出了统计学习独立同分布设置。干预(inteRvention)可能影响因果变量子集的值及其关系。例如「增加一个国家中鹳鸟的数量能否促进人类生育率的增长?」、「如果烟草被更多地添加了社会污名化色彩,抽烟的人是否会减少?」

回答反事实问题

反事实问题需要对事情的发生原因进行推理,在事情发生后设想不同行为的后果,决定哪些行为可以达到期望的结果。回答反事实问题要比回答干预式问题更难。但是,这对于 AI 而言或许是关键挑战,因为智能体能从想象行为的后果和了解哪些行为带来特定结果中获益。

数据的本质:观测、干预、(非)结构化

数据格式在推断关系类型中发挥重大作用。我们可以辨别数据模态的两轴:观测数据 vs 干预数据,手动工程数据 vs 原始(非结构化)感知输入。

观测与干预数据:人们常常假设但很少严格得到的一种极端数据格式是观测独立同分布数据,其每个数据点均独立采样自相同的分布。

手动工程数据与原始数据:在经典 AI 中,数据常被假设成可结构化为高级和语义有意义的变量,这可能部分对应于底层图的因果变量。

因果模型与推理

这部分主要介绍统计建模与因果建模的区别,并用形式化语言介绍了干预与分布变化。

独立同分布数据驱动的方法

对于独立同分布数据,强大的泛一致性(univeRsal consistency)可以确保学习算法收敛至最低风险。这类算法确实存在,例如最近邻分类器、支持向量机和神经网络。但是,目前的机器学习方法通常在面对不符合独立同分布假设的问题时性能较差,而这类问题对人类而言轻而易举。

Reichenbach 原则:从统计学到因果关系

Reichenbach [198] 清晰地描述了因果与统计相关性之间的联系:

Bengio的研究核心:深度学习和因果表示学习

X 与 Y 一致的情况属于特例。在没有额外假设的情况下,我们无法利用观测数据区分这些情况。此时,因果模型要比统计模型包含更多信息。

如果只有两个观测值,则因果结构发现会很难,但当观测值数量增多后,事情反而容易多了。原因在于,这种情况下存在多个由因果结构传达的非平凡条件独立性。它们将 Reichenbach 原则泛化,并且可以用因果图或结构因果模型的语言进行描述,将概率图模型与干预概念融合在一起。

结构因果模型(SCM)

SCM 考虑与有向无环图(diRected acyclic gRaph, DAG)的顶点相关的一组观测值(或变量)X_1, . . . , X_n。该研究假设每个观测值根据以下公式得出:

Bengio的研究核心:深度学习和因果表示学习

从数学角度讲,观测值也是随机值。直观来看,我们可以把独立噪声理解为在图上扩散的「信息探头」(就像在社交网络上扩散的流言的独立元素)。这当然并不只是两个观测值,因为任何非平凡条件独立语句都要求至少三个变量。

统计模型、因果图模型与 SCM 的区别

下图 1 展示了统计模型与因果模型之间的差异。

统计模型可以通过图模型来定义,即带图的概率分布。如果图的边是因果性的,则该图模型为因果模型(这时,该图即为「因果图」)。结构因果模型由一组因果变量和一组结构方程构成,这些方程基于噪声变量 U_i 分布。

Bengio的研究核心:深度学习和因果表示学习

独立因果机制

独立性概念包含两个方面:一个与影响有关,一个与信息相关。在因果研究历史中,不变、自主和独立的机制以多种面目出现。例如,HaavelMo [99] 的早期工作假设改变 stRUCtuRal aSSignMent 的其中一个,会使其他保持不变;HoOVeR [111] 介绍了不变准则:真正的因果序是在恰当干预下的不变性;AldRich [4] 探讨了这些思想在经济学中的历史发展;PeaRl [183] 详细探讨了自主性(autonoMy),认为当其他机制服从外部影响时,因果机制能够保持不变。

该研究将任意现实世界分布视为因果机制的产物。此类分布的变化通常是由至少一个因果机制的变化导致。根据 ICM 原则,研究者得出了以下假设:

Bengio的研究核心:深度学习和因果表示学习

在 ICM 原则中,研究者表述了两个机制(形式化为条件分布)的独立性意味着这两个条件分布不应互相影响。后者可被理解为要求独立干预。

因果发现与机器学习

根据 SMS 假设,很多因果结构被认为需要保持不变。所以,分布偏移(如在不同「环境或语境」中观察一个系统)能够为确定因果结构提供很大的帮助。这些语境可以来自干预、不稳定时间序列或者多视图。同样地,这些语境可以被解读为不同的任务,从而与元学习产生关联。

传统的因果发现和推理假设单元(unIT)是由因果图连接的随机变量。但是,真实世界的观测结果最初往往并未结构化为这些单元,例如图像中的物体。因此,因果表示学习的出现试图从数据中学习到这些变量,正如超越了符号 AI 的机器学习不要求算法操作的符号预先给定一样。基于此,研究者试图将随机变量 S_1, &hellIP;, S_n 与观测值连接起来,公式如下:

Bengio的研究核心:深度学习和因果表示学习

其中 G 是非线性函数。下图 2 展示了一个示例,其中高维观测是对因果系统状态进行查看的结果,然后利用神经网络对其进行处理,以提取在多种任务上有用的高级变量。

Bengio的研究核心:深度学习和因果表示学习