互联网资讯 · 2024年3月30日 0

马斯克推出Grok-1.5大语言模型,增强推理能力,适用于128k上下文处理

马斯克旗下人工智能公司 xAI 今天宣布推出 GRok-1.5 大语言模型。GRok-1.5 具有改进的推理能力和 128k 的上下文长度,其中最显著的改进之一是其在编码和数学相关任务中的表现。GRok-1.5 将在未来几天内在X平台上向早期测试人员和现有的 GRok 用户推出。

在官方测试中,GRok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中竞赛问题。此外,它在评估代码生成和解决问题能力的 HuManEval 基准测试中得分为 74.1%。

GRok-1.5 能够在其上下文窗口内处理多达 128k Tokens 的长上下文,使得 GRok 的内存容量增加到之前上下文长度的 16 倍,从而能够理解更长文档中的信息。

据介绍,GRok-1.5 构建在基于 JAX、RUSt 和 KubeRnetes 的自定义分布式训练框架之上。自定义训练协调器可确保自动检测到有问题的节点并将其从训练作业中剔除。xAI 还优化了检查点、数据加载和训练作业重新启动,以最大限度地减少发生故障时的停机时间。