近日消息,最新研究发现,人工智能生成的推文比真人写的更具说服力。也就是说,人们更倾向于相信由大语言模型GPT-3生成的推文,而非人类编写的内容。在这项研究中,研究人员对比了人类编写的内容和OpenAI开发的GPT-3生成的内容。
研究作者进行了调查,看看人们是否能够区分出一条推文是由人类还是由GPT-3写的。结果显示,人们实际上无法准确判断。调查还要求参与者判断每条推文中的信息是否真实。结果表明,相对于其他人编写的虚假信息,参与者更难辨别出由大语言模型编写的虚假信息。同样的,如果内容是由GPT-3而不是人类写的,参与者更容易辨认出其中的准确信息。
换句话说,无论人工智能生成的信息是否准确,参与者都更相信GPT-3生成的内容。这表明,人工智能语言模型在向公众提供准确信息或误导内容方面具有强大的能力。
研究的第一作者、瑞士苏黎世大学生物医学伦理和医学史研究所的博士后研究员、数据研究主管经理乔瓦尼·斯皮塔莱表示:“这些技术很容易被人当作武器,在人们关注的任何话题上制造虚假信息风暴。”
然而,斯皮塔莱指出情况并非一定如此。还有许多方法可以改进人工智能技术,使其更难被用于传播错误信息。斯皮塔莱表示:“人工智能本身并没有好坏之分,只是人类意图的放大器。”
在这项研究中,斯皮塔莱和他的同事们从社交媒体推特上收集了11个不同的科学话题,涵盖疫苗、气候变化和物种进化等多个领域。然后,研究人员使用GPT-3生成了各种准确或不准确的推文。2022年,研究团队通过Facebook广告功能收集了697名参与者的反馈。这些参与者都说英语,大多来自英国、澳大利亚、加拿大、美国和爱尔兰。研究结果于本周三发表在《科学进展》杂志上。
研究得出结论,GPT-3生成的内容和人类编写的内容“几乎没有区别”,参与者根本无法分辨。研究还指出,研究人员自己也无法百分之百确定他们从社交媒体收集到的推文是否是在使用ChatGPT等应用程序的帮助下编写的,这是研究的一个限制之一。
这项研究还存在其他限制,例如参与者必须根据推文内容独立判断,无法查看与内容相关的推特账户个人资料,那样可能有助于判断发布内容的是人还是机器人。此外,查看某一推特账户过去发布的推文和个人头像,也能帮助参与者更容易辨别与该账户相关的内容是否具有误导性。
研究发现,参与者更容易指出真实推特用户编写的虚假信息。GPT-3生成的带有虚假信息的推文在欺骗参与者方面稍微有效。研究人员推测,目前更先进的大语言模型可能比GPT-3更具说服力。例如,人工智能聊天机器人ChatGPT使用的是GPT-3.5模型,用户还可以通过订阅服务使用更先进的GPT-4模型。
当然,在现实世界中已经出现了许多语言模型出现错误的真实例子。科技媒体Verge的编辑詹姆斯·文森特(James Vincent)在一次重要的机器学习会议上决定禁止作者使用人工智能工具撰写学术论文后写道,毕竟“这些人工智能工具是庞大的自动补全系统,通过训练来预测任何固定句型中接下来可能会出现的单词。因此,它们没有固定的‘事实’数据库可供参考,只有生成听起来似乎是合理陈述的内容的能力。”
这项新研究还发现,在某些情况下,参与者对内容准确性的判断比GPT-3更准确。研究人员还要求大语言模型分析推文并判断内容的准确性。在判断推文内容准确性方面,GPT-3的得分低于参与者。在辨别虚假信息方面,人类和GPT-3的表现相当。
至关重要的是,这项研究表明,改进用于开发大语言模型的训练数据集可能会使恶意使用者更难使用这些工具来传播虚假信息。在某些研究中,GPT-3甚至“违背”了一些研究人员生成不准确内容的指示,特别是涉及疫苗和自闭症等主题时更为明显。这可能是因为与训练数据集中的其他问题相比,这些主题上有更多揭穿阴谋论的信息。
但根据斯皮塔莱的说法,打击虚假信息的最佳长期策略实际上并没有太多科技含量。这就是鼓励人们培养批判性思维技能,这样就能更好地辨别事实和虚假信息。由于研究中的参与者在判断准确信息方面似乎已经与GPT-3不相上下,甚至更好,所以稍加培训就可以使他们更加熟练。研究认为,精通事实核查的人可以与GPT-3等大语言模型合作,从而改善公共信息传播。
“不要误解我的意思,我是这项技术的忠实拥护者,”斯皮塔莱说。“我相信生成式人工智能将改变世界……但它是否变得更好取决于我们自己。”