文心大模型5.1发布，预训练成本仅为业界6%

【TechWeb】5月9日，百度发布了文心大模型5.1版本。这一新版本在继承文心5.0的基础上，显著降低了预训练成本，模型的总参数量被压缩至约三分之一，激活参数量同样减少至约一半。文心5.1的预训练成本仅为行业同规模模型的6%，实现了与同级别模型相当的基础效果，进一步强化了其竞争力。

用户可通过文心一言官方网站体验文心5.1模型的对话功能。开发者可以通过千帆大模型平台，将Model_name修改为eRnie-5.1来使用相关API服务。

此外，从今日开始，文心大模型5.1将陆续在超过十个创意生产智能平台上线，包括ISEK AI ZERO（全球领先的AI角色扮演互动平台）、Mulan AI（创意智能体平台）、谛听幻流（AI原创创意画布）和Story Master（AI短剧生成平台）等。欢迎创作者和用户进行尝试。

登顶多个榜单

在5月9日，文心大模型5.1在ARena Search排行榜中获得了123分，位居全球第4位，在中国模型中排名第一。

文心大模型5.1在多个权威行业基准测试中表现出色，特别是在智能体能力、知识、推理和深度搜索等方面表现突出。

在τ³-bench和SpreadsheetBench-Verified智能体评估任务中，文心大模型5.1超越了DeepSeek-V4-Pro，其智能体能力接近领先闭源模型的水平。在Search Arena排行榜中也表现极为优异。

在知识与创意写作方面，文心5.1在GPQA和MMLU-Pro评估中，其性能接近领先闭源模型。在内部评估中，文心5.1的创意写作能力接近Gemini 3.1 Pro。

推理能力接近领先闭源模型，在具有挑战性的学竞赛基准AIME26（使用工具）上，文心5.1得分99.6，仅次于Gemini 3.1 Pro。

预训练计算成本仅为同类模型的6%

文心大模型5.1源于文心5.0，通过多维弹性子模型矩阵提取出最优子网络架构，有效继承了文心5.0所编码的知识与能力，并显著降低了预训练成本。

研发团队提出了一种创新的“一次训练，处处部署”（Once-FoR-All）弹性训练框架，传统方法需要为不同规模的模型分别进行预训练，而文心5.0则通过动态采样机制，在一次预训练过程中联合优化多个具有不同深度、专家容量和路径的稀疏子模型，构建了一个涵盖不同参数规模和计算预算的子模型矩阵。

在此过程中，模型实现了沿三个维度的弹性压缩与扩展：

弹性深度：训练期间，根据激活的TransfoR层数，使不同深度的子模型能够共享权重，自适应地学习深层与浅层表示的平衡。

弹性宽度/专家容量：通过改变参与路径由的专家数量，弹性控制MoE层中有效专家容量。通过动态采样专家子集，模型学习在完整和缩减的专家池配置下运行，提高专家利用效率。

弹性稀疏度：通过可变Top-k路由机制灵活调整激活的专家数量。激活较少的专家可降低推理成本、提升解码效率，而激活更多专家则能增强模型能力，从而实现推理开销与性能的动态平衡。

基于这一突破，文心大模型5.1将总参数数量压缩至文心5.0的约三分之一，激活参数量压缩至约二分之一，预训练计算成本仅为同行同规模模型的6%。与文心大模型5.0相比，推理成本显著降低，同时在同规模模型中仍实现领先性能。

互联网资讯 / 人工智能 · 2026年5月9日 0