深度神经网络是一种使用数学模型处理图像以及其他数据的多层系统,而且目前已经发展为人工智能的重要基石。
深度神经网络得出的结果看似复杂,但同样有可能受到误导。而这样的误导轻则致使其将一种动物错误识别为另一种动物,重则在自动驾驶汽车上将停车标志误解为正常前进。
休斯敦大学的一位哲学家在发表于《自然机器智能》上的一篇论文中提到,关于这些假想问题背后的普遍假设,在于误导性信息可能给这类网络的可靠性造成严重影响。
随着机器学习以及其他形式的人工智能越来越深入渗透至社会,其用途也开始涵盖从ATM机到网络安全系统的广泛领域。哲学系副教授CaMeRon BUCkneR表示,正是这种普及,让了解明显错误的来源变得无比重要。研究人员们将这类信息称为“对抗性示例&Rdquo;,指当深度神经网络在学习过程中遇到训练输入之外的其他信息时,则很有可能总结出错误的结论、最终引发图像或数据误判。之所以被表述为“对抗性&Rdquo;,是因为这样的问题往往只能由另一机器学习网络所产生或发现。作为机器学习领域中的一种前沿技术,对抗双方将不断升级自身能力,以更复杂的方法尝试实现干扰与反干扰。
BUCkneR提到,“但这种对抗有时候可能源自人为误导,因此要想更好地了解神经网络的可靠性,我们必须对误导问题做出深入研究。&Rdquo;
换言之,这种误导结果很可能源自网络需要处理的内容、与所涉及的实际模式之间的某种相互作用所引发。这与传统意义上的误导,似乎还不完全是同一种概念。
BUCkneR写道,“理解对抗性整合的含义,可能需要探索第三种可能性:其中至少有一部分模式属于人为创造。因此,目前的难题在于,直接丢弃这些模式可能有损模型学习,但直接使用则具有潜在风险。&Rdquo;
引发机器学习系统错误的对抗性事件除了无心而发,更可能是有意为之。BUCkneR认为这才是更严重的风险,“意味着恶意攻击者可能会欺骗某些本应可靠的系统,例如安全类应用程序。&Rdquo;
例如,基于人脸识别技术的安全系统很可能遭遇黑客入侵,导致违规行为的出现;或者在交通标志上张贴某些图形,导致自动驾驶汽车产生意外误解。
先前的研究发现,与人们的预期相反,使用场景中天然存在着一些对抗性示例,即机器学习系统有可能因为意外交互(而非因数据错误)而产生误解。这类情况相当罕见,必须通过其他人工智能技术才可能发现。
但这些问题又真实存在,要求研究人员重新考虑该如何辨别自然异常与人为误导。
事实上,我们对这类人为误导的理解并不清晰。但这有点像是相机镜头上时不时出现的光晕,类似于依靠光晕来判断画面中太阳的位置,研究人员似乎也可以借助这样的蛛丝马迹推断机器学习中的恶意误导方法。
更重要的是,这种新的思考方式也将影响人们在深度神经网络中使用工件的方式,包括不应简单将误解结论视为深度学习无效。
他总结道,“某些对抗性事件很可能是人为设计而来。我们必须知晓其中的手法与工件是什么,这样才能真正理解深度神经网络的可靠性。&Rdquo;