AI构建新计算基准：超越图灵测试

Alexa的首席科学家认为，旧的计算基准与当今的AI时代不再相关。自艾伦&Middot;图灵（Alan TuRing）发表论文介绍图灵测试的概念以回应“机器可以思考吗？&Rdquo;这一问题以来，今年已经是70年了。该测试的目的是确定一台机器是否可以表现出与人类没有区别的对话行为。TuRing预测，到2000年，在模拟游戏中，从评估者中隐藏了正在做出响应的人（人类或AI），普通人将AI与人类区分开的机会不到70％。

图灵测试已过时,是时候为AI构建新计算基准了

作为一个行业，为什么我们不能在实现这一目标的20年后实现这一目标？我相信TuRing提出的目标对于像我这样的AI科学家来说并不是一个有用的目标。图灵测试充满局限性，其中一些图灵本人在开创性论文中对此进行了辩论。如今，人工智能已无处不在地集成到我们的电话，汽车和房屋中，人们越来越在乎与计算机的交互是有用，无缝和透明的，并且人们无法区分机器这一概念。因此，是时候退役已经成为过去七年灵感的绝杀了，并提出了一个新的挑战，这一挑战同样会激发研究人员和从业人员。

图灵测试和大众的想象力
在引入图灵测试之后的几年中，图灵测试成为了学术界的AI北极星。60年代和70年代最早的聊天机器人ELIZA和PARRY以通过测试为中心。就在2014年，聊天机器人Eugene GoostMan宣称它通过了图灵测试，并欺骗了33％的判断是人类。但是，正如其他人指出的那样，愚弄30％的法官的门槛是任意的，即使到那时，胜利对某些人还是过时的。

尽管如此，图灵测试仍在继续引起人们的想象。OpenAI的剖成预先训练变压器3（GPT-3）语言模型已经掀起头条了解其潜在击败图灵测试。同样，记者，商业领袖和其他观察员仍然问我：“ Alexa何时通过图灵测试？&Rdquo; 当然，图灵测试是衡量Alexa智力的一种方法，但是以这种方式衡量Alexa的智力是否必然且相关？

为了回答这个问题，让我们回到图灵第一次提出论文的时候。1950年，第一台商用计算机尚未售出，光缆的基础工作再也不会发布四年了，并且AI领域还没有正式建立，那就是1956年。与Apollo 11相比，我们手机上的计算能力高出100,000倍，再加上云计算和高带宽连接，人工智能现在可以在几秒钟内根据大量数据做出决策。

尽管TuRing的最初愿景继续鼓舞人心，但将其测试解释为AI进步的终极标志受到其引入时代的限制。首先，图灵测试几乎不考虑AI的类似计算机的快速计算和信息查找属性，这是现代AI最有效的功能。对欺骗人类的强调意味着，要使AI通过图灵的测试，它必须在回答“诸如您知道3434756的立方根是什么？&Rdquo;之类的问题时注入停顿。或者，“西雅图到波士顿有多远？&Rdquo; 实际上，AI会立即知道这些答案，而暂停使其答案听起来更人性化并不是最佳地运用其技能。此外，图灵测试没有考虑到AI使用传感器来听，看和感觉外界的能力日益增强。相反，它仅限于文本。

为了使AI在今天变得更加有用，这些系统需要有效地完成我们的日常任务。如果您要让AI助手关闭车库灯，则不需要对话。相反，您希望它满足该请求并通过简单的确认（“确定&Rdquo;或“完成&Rdquo;）通知您。即使您与AI助手就某个热门话题进行了广泛的对话，或者向您的孩子朗读了一个故事，您仍然想知道它是AI而不是人类。实际上，假装为人类来“欺骗&Rdquo;用户会构成真正的风险。想象一下反乌托邦的可能性，就像我们已经开始看到的那样，机器人在播撒错误信息和出现大量假货。

人工智能面临的新挑战
我们的抱负应该不是建立使AI与人类难以区分的迷恋，而是要建立以公平和包容的方式增强人类智力并改善我们日常生活的AI。一个有价值的基本目标是使AI展现类似于人类的智力属性（包括常识，自我监督和语言能力），并结合诸如快速搜索，记忆调用和代表您完成任务之类的机器效率。最终结果是学习和完成各种任务，并适应新的情况，这远远超出了普通人的能力。

该重点为当前对真正重要的AI领域的研究提供了信息-感官理解，交谈，广泛而深入的知识，有效的学习，决策推理以及消除任何不当偏见或偏见（即公平）。这些领域的进展可以通过多种方式衡量。一种方法是将挑战分解为组成任务。例如，Kaggle的“抽象与推理挑战&Rdquo;专注于解决AI以前从未见过的推理任务。另一种方法是为人机交互设计大规模的现实世界挑战，例如Alexa PRize Socialbot GRand Challenge，这是一项针对大学生对话式AI的竞赛。

实际上，当我们在2016年启动Alexa奖时，我们就如何评估竞争性“社交机器人&Rdquo;进行了激烈的辩论。我们是否在试图说服人们，这个社交机器人是人，所以部署了图灵测试的一个版本？或者，我们是否在努力使AI值得自然交流，以促进学习，提供娱乐或只是分散注意力呢？

我们发现了一个要求社交机器人与人类进行20分钟的连贯对话的主题，涉及娱乐，体育，政治和技术等广泛的热门话题。在进入决赛之前的开发阶段，客户会根据是否希望再次与机器人对话对机器人进行评分。在决赛中，独立的人类裁判会评估连贯性和自然性，并以5分制评分。如果有任何社交机器人在平均20分钟的时间内进行交流并且得分达到4.0或更高，那么它将满足挑战。尽管尚未解决严峻的挑战，但这种方法正在指导AI开发，该开发具有基于深度学习的神经方法所具有的类似于人的对话能力。

像Alexa这样的AI在我们的日常生活中被广泛采用，这是衡量AI进步的另一个难得的机会。尽管这些AI服务依赖于类人的会话技能来完成简单的交易（例如设置警报）和复杂的任务（例如计划一个周末），但要最大限度地发挥效用，它们会从会话式AI转变为“环境式AI&Rdquo;在需要时回答您的请求，预测您的需求，在不需要时淡入背景。例如，Alexa可以检测到玻璃破碎的声音，并提醒您采取措施。如果您在睡觉时设置了闹钟，则建议您关闭楼下已连接的连接灯。此类AI的另一个方面是，它们需要成为大量不断增加的任务的专家，这只有在具有更广泛的学习能力而非特定于任务的智能的情况下才有可能。因此，在接下来的十年及以后的时间里，AI服务的实用性以及在环境设备上的对话和主动帮助功能是一项值得测试的测试。

这些都不是to毁图灵的最初愿景的-图灵的“模仿游戏&Rdquo;被设计为一种思想实验，而不是作为有用AI的最终测试。但是，现在是时候消除图灵测试，并从艾伦&Middot;图灵的大胆愿景中获得启发，以加快构建旨在帮助人类的AI的进展。

chatGPT

近期文章

互联网资讯 / 人工智能 · 2023年11月24日

AI构建新计算基准：超越图灵测试

Need more than content? Move into the product flow.