最新研究揭示AI模型在回答事实问题时表现不佳，GPT-4o的准确率仅为38.2%

最近，一项由 OpenAI 进行的研究显示，尽管人工智能技术飞速发展，当前最先进的语言模型在回答事实问题时的成功率却远低于预期。研究采用了 OpenAI 自家的 SiMpleQA 基准测试，这个测试包含了4,326个，涵盖了科学、政治和艺术等多个领域，每个问题都有一个明确的正确答案。

经过两名独立评审员的验证，结果显示，OpenAI 最好的模型 o1-pReview 的准确率仅为42.7%，而 GPT-4o 则略低，只有38.2%。至于更小的 GPT-4o-Mini，准确率甚至只有8.6%。相比之下，AnthRopic 的 Claude 模型表现得更差，Claude-3.5-sonnet 的正确率仅为28.9%。

最新研究揭示AI模型在回答事实问题时表现不佳，GPT-4o的准确率仅为38.2%

这项研究的关键在于测试的设计，不仅仅是为了测试 AI 的表现，还为了让大家认识到 AI 模型在知识获取方面的局限性。研究者强调，用户在使用这些模型时，应该将其视为信息处理工具，而不是完全依赖的知识来源。为了获得更准确的回答，最好能为 AI 提供可靠的数据，而不是单纯依赖其内置的知识。

最新研究揭示AI模型在回答事实问题时表现不佳，GPT-4o的准确率仅为38.2%

值得注意的是，AI 模型对自身能力的估计往往过于乐观。研究人员发现，当这些模型被要求对自己的回答进行信心评分时，它们通常会给出夸大的准确性评分。在重复回答相同问题的测试中，即使模型多次给出相同答案，它们的实际成功率也仍低于其自我评估的准确性。这与外界对语言模型常常产生荒谬回答却显得信心满满的批评一致。

研究者认为，当前的 AI 系统在事实准确性上存在明显的缺口，亟需改进。同时，他们也提出了一个开放性问题:AI 在回答简短事实问题的表现是否能预测其在处理更长、更复杂回答时的表现。为了支持更可靠的语言模型的开发，OpenAI 已经将 SiMpleQA 基准测试的资料公开发布到 GIThub 上。

chatGPT

近期文章

人工智能 · 2024年11月1日 0

最新研究揭示AI模型在回答事实问题时表现不佳，GPT-4o的准确率仅为38.2%

You may also like...

发表评论取消回复

人工智能 · 2024年11月1日 0

You may also like...

商业一览

购买ChatGPT Plus的方法及信用卡付款失败解决方案，以及使用Apple Pay升级ChatGPT Plus的步骤

展锐计划在4G、5G手机芯片市场加大力度，明年市场份额预计翻倍至5%

发表评论 取消回复

发表评论取消回复