互联网资讯 / 人工智能 · 2023年12月1日 0

谷歌气球的人工智能为何令开发者惊讶

使用人工智能的算法正在尝试以意想不到的技巧来解决问题,这让它们的开发者感到惊讶。但与此同时,这也引发了人们对如何控制人工智能的担忧。

谷歌公司的一群员工正茫然地盯着自己的电脑屏幕。几个月来,他们一直在完善一个算法,用来控制一个无人热气球从波多黎各一直飞到秘鲁。但还是有些地方不尽如人意,气球在机器智能的控制下不断偏离既定路线。

Loon 项目(project Loon)是谷歌公司现已停止的一个项目,旨在通过气球将互联网接入偏远地区。作为该项目的负责人,塞尔瓦托 &Middot; 坎迪多无法解释这个气球的轨迹。最后,他的同事们手动控制了系统,让气球回到了正轨。

后来他们才意识到发生了什么。令人意想不到的是,气球上的人工智能学会了重现人类在几百年,甚至几千年前发明的古老航海技术,例如 “改变航向&Rdquo;,这指的是操纵船只迎风航行,然后再向外倾斜,从而在大致方向上以之字形前进。

在不利的天气条件下,自主飞行的气球已经学会了完全靠自己来改变航向。它们自发地完成了这一过程,让所有人都感到震惊,尤其是参与这个项目的研究人员。

谷歌气球的人工智能为何令开发者惊讶

当人工智能在设备中被放任自流时,很可能就会发生这样的事情。与传统的计算机程序不同,人工智能的设计目的就是探索和开发新的方法,以完成人类工程师没有明确告诉它们的任务。

然而,在学习如何完成这些任务的同时,人工智能有时会想出一种极富创造力的方法,甚至会让一直使用这种系统的人大吃一惊。这可能是一件好事,但同时也可能使人工智能控制的一切变得不可预测,甚至可能带来危险。例如,机器人和自动驾驶汽车最终可能做出将人类置于危险境地的决定。

人工智能系统怎么可能 “智胜&Rdquo;它的人类主人呢?我们能否以某种方式约束机器智能,以确保不致某些不可预见的灾难?

在人工智能研究界,有一个关于人工智能创造力的例子似乎被引用得最多。佐治亚理工学院的马克 • 里德尔表示,真正让人们对人工智能的能力感到兴奋的时刻,是 DeepMind 的人工智能机器学习系统 AlphaGo 如何掌握围棋这一古老的游戏,然后击败了世界上最优秀的人类棋手之一。DeepMind 是一家创立于 2010 年的人工智能公司,在 2014 年被谷歌收购。

里德尔解释道:“事实证明,它们可以用一些以往从未有人用过&Mdash;&Mdash;或者至少很多人不知道&Mdash;&Mdash;的新策略或新技巧,来对付人类棋手。&Rdquo;

然而,即使是这样一场单纯的围棋游戏,也会引起人们不同的感受。一方面,DeepMind 自豪地描述了其系统 AlphaGo 的 “创新&Rdquo;之处,并揭示了围棋,这一人类已经玩了数千年的游戏的新玩法。另一方面,一些人质疑如此有创造性的人工智能有朝一日是否会对人类构成严重威胁。

在 AlphaGo 取得历史性胜利后,澳大利亚西悉尼大学的机器学习、电子学和神经科学研究者乔纳森 • 塔普森写道:“认为我们能够预测或管理人工智能最坏的行为是很可笑的,我们实际上无法想象它们可能的行为。&Rdquo;

里德尔表示,我们需要记住的重要一点是,人工智能并不真正像人类那样思考。它们的神经网络确实是受到了动物大脑的启发,但更确切地说,它们是所谓的 “探索设备&Rdquo;。当它们试图解决一个任务或问题时,并不会带有很多(如果有的话)对更广阔世界的先入之见。它们只是尝试&Mdash;&Mdash;有时是数百万次&Mdash;&Mdash;去找到一个解决方案。

“我们人类有很多思想上的包袱,我们会考虑规则,&Rdquo;里德尔说,“人工智能系统甚至不理解规则,因此它们可以随意地拨弄事物。&Rdquo;

里德尔补充道,在这种情况下,人工智能可以被描述为具有 “学者症候群&Rdquo;的硅等量物。所谓学者症候群,通常是指一个人有严重的精神障碍,但却在某种艺术或学术上拥有非凡的能力,其天赋通常与记忆有关。

人工智能让我们感到惊奇的方式之一,是它们能够使用相同的基本系统来解决根本不同的问题。最近,一款机器学习工具就被要求执行一项非常不同的功能:下国际象棋。

该系统被称为 “GPT-2&Rdquo;,由非营利的人工智能研究组织 OpenAI 开发。GPT-2 利用数以百万计的在线新闻文章和网页信息进行训练,可以根据句子中前面的单词预测下一个单词。开发者肖恩 &Middot; 普莱瑟认为,国际象棋的走法可以用字母和数字的组合来表示,因此如果根据国际象棋比赛的记录来训练算法,这一工具就可以通过计算理想的走法序列来学习如何下棋。

普莱瑟对 GPT-2 系统进行了 240 万场国际象棋比赛的训练。“看到象棋引擎变成现实真是太酷了,&Rdquo;他说,“我当时根本不确定这能不能行得通。&Rdquo;但 GPT-2 做到了。尽管它的水平还比不上专门设计的国际象棋计算机,但已经能够成功地完成艰苦的比赛。

普莱瑟表示,他的实验表明 GPT-2 系统具有许多尚待探索的能力,堪称一个具有国际象棋天赋的专家。该软件后来的一个版本让网页设计人员大为震惊,当时,一位开发人员对其进行了简单的训练,让它写出用于在网页上显示项目(如文本和按钮)的代码。尽管只有一些简单的描述,如 “表示‘我爱你&Rsquo;的红色文本和带有‘ok&Rsquo;的按钮&Rdquo;,但这个人工智能依然生成了适当的代码。很显然,它已经掌握了网页设计的基本要领,但所受的训练却少得惊人。

长期以来,人工智能给人们留下的深刻印象主要来自电子游戏领域。在人工智能研究界,有无数例子揭示了算法在虚拟环境中所做到的事情有多么令人惊讶。研究者经常在诸如电子游戏等空间中对算法进行测试和磨练,以了解它们到底有多强大。

2019 年,OpenAI 因为一段视频登上了新闻头条。视频中,一个由机器学习控制的角色正在玩捉迷藏游戏。令研究人员惊讶的是,游戏中的 “寻找者&Rdquo;最终发现,它们可以跳到物品上方进行 “冲浪&Rdquo;,从而进入 “躲藏者&Rdquo;所在的围栏。换言之,“寻找者&Rdquo;学会了为了自己的利益而改变游戏规则。

反复试错的策略会带来各种有趣的行为,但并不总能带来成功。两年前,DeepMind 的研究员维多利亚 &Middot; 克拉科夫娜邀请她博客的读者分享人工智能解决棘手问题的故事,但要求解决问题的方式是不可预测或不可接受的。

她整理出了一长串很吸引人的例子。其中有一个游戏算法,在第 1 关结束时学会了自杀,以避免在第 2 关死亡,这就实现了在第 2 个关卡中不死的目标,只不过采用了一种特别令人印象深刻的方式。另一个算法发现,它可以在游戏中跳下悬崖,并将对手带向毁灭;通过这种方式,人工智能得到了足够的点数以获得额外的生命,从而在无限循环中不断重复这种自杀策略。

纽约大学坦登工程学院的电子游戏人工智能研究者朱利安 &Middot; 托格里乌斯试图解释这其中发生的一切。他表示,这些都是 “奖励分配&Rdquo;错误的典型例子。当人工智能被要求完成某件事时,它可能会找到一些奇怪的、出乎意料的方法来实现目标,并最终证明这些方法是正确的。人类很少采取这样的策略,指导我们如何游戏的方法和规则十分重要。

托格里乌斯及其同事发现,当人工智能系统在特殊条件下接受测试时,这种目标导向的偏见会暴露出来。在最近的实验中,他的团队发现,被要求在银行进行投资的游戏人工智能角色会跑到虚拟银行大厅附近的一个角落,等待获得投资回报。托格里乌斯指出,这个算法已经学会了将跑到拐角处与获得金钱回报联系起来,尽管这种运动与得到多少回报之间并没有实际的关系。

托格里乌斯表示,这有点像人工智能在发展迷信,在得到了某种奖励或惩罚之后,它们开始思考为什么会得到这些。

这是 “强化学习&Rdquo;的陷阱之一。所谓 “强化学习&Rdquo;,是指人工智能最终会根据它在环境中遇到的情况设计出判断错误的策略。人工智能不知道自己为什么会成功,它只能将自己的行动建立习得联想的基础上。这有点像人类文化早期阶段时,将祈祷仪式与天气变化联系起来的行为。

▲ 鸽子可以学会将食物与某些行为联系起来,而人工智能会表现出类似的耦联行为

一个有趣的例子是,鸽子也会出现这样的行为。1948 年,一位美国心理学家发表了一篇论文,描述了一个不寻常的实验:他将鸽子放在围栏里,间歇性地给予食物奖励。这些鸽子开始将食物与它们当时正在做的事情联系起来,有时是拍打翅膀,有时是舞蹈般的动作。然后,它们会重复这些行为,似乎期待着奖励会随之而来。

托格里乌斯所测试的游戏人工智能与心理学家所使用的活体动物之间有着巨大的差异,但托格里乌斯暗示,其中起作用的似乎是相同