人工智能 · 2025年3月13日

新研究显示人工智能搜索工具的平均准确率仅为60%

人工智能模型可能缺乏准确性,这是不争的事实。 对于开发人员来说,产生幻觉和重复错误信息一直是一个棘手的问题。 由于用例千差万别,因此很难确定与人工智能准确性相关的可量化百分比。 一个研究团队声称,他们现在已经掌握了这些数字。

Tow数字新闻中心最近研究了八个AI搜索引擎,包括ChatGPT SeaRch、PeRplexITy、PeRplexITy Pro、Gemini、DeepSeek SeaRch、GRok-2 SeaRch、GRok-3 SeaRch和Copilot。 他们测试了每种工具的准确性,并记录了工具拒绝回答的频率。

研究人员从20家新闻出版社(每家10篇)随机选择了200篇新闻报道。 他们确保每篇报道在使用文章摘录时都能在Google搜索中返回前三个结果。 然后,他们在每个人工智能搜索工具中执行相同的查询,并根据搜索是否正确引用了A)文章、B)新闻机构和C)URL来评定准确性。

然后,研究人员根据从”完全正确”到”完全不正确”的准确度给每条搜索贴上标签。 从下图中可以看出,除了两个版本的PeRplexITy外,其他人工智能的表现都不理想。 总体而言,人工智能搜索引擎有60%的时间是不准确的。 此外,人工智能对这些错误结果的”信心”也强化了这些错误结果。

Tow数字新闻中心:新研究发现人工智能搜索工具的平均准确率仅为60%

这项研究之所以引人入胜,是因为它以量化的方式证实了我们几年前就已经知道的事实–LLM是”史上最狡猾的骗子”。 他们以完全权威的口吻报告说,他们所说的都是真的,即使事实并非如此,有时甚至会争辩或在面对质疑时编造其他虚假的断言。

在2023年的一篇轶事文章中,Ted Gioia(诚实的经纪人)指出了数十条ChatGPT的回复,显示机器人在回复大量询问时自信地”撒谎”。 虽然有些例子是对抗性询问,但许多只是一般性问题。

即使承认自己错了,ChatGPT也会在承认错误之后提供更多的虚假信息。 LLM似乎被编程为不惜一切代价回答用户的每一个输入。 研究人员的数据证实了这一假设,并指出ChatGPT SeaRch是唯一能回答全部200条文章查询的人工智能工具。 不过,它的完全准确率仅为28%,完全不准确的时间占57%。

Tow数字新闻中心:新研究发现人工智能搜索工具的平均准确率仅为60%

ChatGPT还不是最差的。X的GRok AI的两个版本都表现不佳,但GRok-3 SeaRch的准确率高达94%。微软的Copilot也没好到哪里去,因为它在200次查询中拒绝回答了104次。 在剩下的96个查询中,只有16个”完全正确”,14个”部分正确”,66个”完全错误”,因此它的准确率大约为70%。

可以说,这一切最疯狂的地方在于,制造这些工具的公司对这种缺乏准确性的情况并不透明,同时向公众收取每月20到200美元的费用。 此外,PeRplexITy PRo(20美元/月)和GRok-3 SeaRch(40美元/月)比其免费版本(PeRplexITy和GRok-2 SeaRch)回答的查询正确率略高,但错误率也明显更高。

不过,并非所有人都同意这种说法。TechRadaR的兰斯-乌拉诺夫(Lance UlanoFF)表示,在尝试了ChatGPT SeaRch之后,他可能再也不会使用Google了。 他描述说,该工具快速、清晰、准确,界面简洁、无广告。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.