互联网资讯 / 人工智能 · 2026年4月20日

Token成本下降不会推动前沿智能普及化

4月16日,Gartner预测,到2030年,基于万亿参数的大语言模型(LLM)的推理成本将比2025年降低90%。

Gartner:Token成本下降不会推动前沿智能普及化

Token是生成式AI模型处理的数据单位。本次分析中,1 Token等于3.5字节数据,约合4字符。

Gartner高级研究总监Will So表示:“推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定应用的边缘设备应用。”

基于这些趋势,Gartner预测,到2030年,大语言模型的成本效益将比2022年开发的同等规模早期模型高出多达100倍。

然而,生成式AI提供商的Token成本下降不会完全传导给企业客户。此外,前沿智能所需的Token数量将远超当前主流应用。例如,代理式模型每项任务所需的Token数量是标准生成式AI聊天机器人的5至30倍,并且能够执行比人类使用生成式AI更多的任务。

尽管Token单位成本的下降将推动生成式AI技术的进步,但这些进步将导致Token需求急剧增长。由于Token消耗增速快于成本下降幅度,预计整体推理成本仍将上升。

So表示:“首席产品官不应将商品Token成本的下降与前沿推理的普及混为一谈。随着商品化智能的成本趋近于零,支持高级推理所需的计算和系统资源依然稀缺。如果当前首席产品官利用廉价的Token掩盖架构的低效,那么将来会在实现代理式应用规模化上遇到难题。”

为了创造价值,平台需要能够编排多种不同模型的工作负载。常规的高频任务必须发送到更高效的小型和领域专用语言模型,这些模型如果能够与专业工作流对齐,则其性能会优于通用解决方案且成本仅为后者的一小部分。此外,必须严格管控前沿级模型的高成本推理,并且仅将其用于高利润、复杂的推理任务。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.