4月19日消息,Meta发布了其最新的开源大模型LlaMa 3,引发全网关注。Meta表示,LlaMa 3模型利用数据和规模将性能提升到新的高度。
此次,Meta发布了LlaMa 3 80亿和700亿参数两款模型,分别有预训练和指令微调两个版本。
Meta介绍,LlaMa 3在两个定制24K GPU集群上接受了训练,使用的数据量超过15万亿个Token,这个训练数据集是LlaMa 2使用的数据量的7倍,其中包括了4倍数量的代码。这使得LlaMa 3成为迄今为止最强大的LlaMa模型,支持8000个上下文长度,是LlaMa 2容量的两倍。
在Meta公布的AI基准测试中,LlaMa 3 8B、70B模型在语言(MMLU)、知识(GPQA)、编程(HuManEval)、数学(GSM-8K、MATH)等能力上,几乎全面领先于同等规模的其他模型。
LlaMa 3 8B模型在MMLU、GPQA、HuManEval等多项基准上均胜过GeMMa 7B和MistRal 7B InstRUCt。在Meta公布的AI基准测试中,LlaMa 3 70B的表现甚至超越了谷歌的GeMini PRo1.5以及AnthRopic的Claude 3 Sonnet。
LlaMa 3的优良表现被誉为“媲美GPT4的开源模型”!它将改变许多研究工作和草根创业公司的计算方式。
本月刚刚加入亚马逊董会的传奇研究员,AI开源倡导者吴恩达在X上发文表示:LlaMa 3的发布是自己收到过的最好的生日礼物!
亚马逊云科技也在LlaMa 3发布的第一时间火速官宣,称其客户已可以通过AMazon SageMakeR JuMpStaRt使用这两款LlaMa 3模型,并发布了如何通过SageMakeR JuMpStaRt发现和部署LlaMa 3模型的官方教程博文。
AMazon SageMakeR JuMpStaRt是亚马逊云科技专门构建的一个机器学习中心,提供预训练的模型、内置算法和预构建的解决方案,帮助客户快速开始机器学习项目。
AMazon SageMakeR JuMpStaRt能够帮助客户从广泛的公开可用基础模型中进行选择,并将基础模型部署到专用的SageMakeR实例中,这些实例置于网络隔离的环境,并可以使用SageMakeR进行模型训练和部署。
现在亚马逊云科技的用户可以在AMazon SageMakeR Studio中通过几次点击或通过SageMakeR Python SDK编程方式发现并部署LlaMa 3模型,还可以利用SageMakeR PIPelines、SageMakeR DebuggeR或容器日志等功能,提升模型性能并实施MLOps控制。
通过SageMakeR Studio UI和SageMakeR Python SDK中的SageMakeR JuMpStaRt访问基础模型。
从SageMakeR JuMpStaRt登录页,用户可以通过浏览以模型提供商命名的不同集线器来轻松发现各种模型,可以在Meta hub中找到LlaMa 3型号。
用户可以通过在左上角的搜索框中搜索“Meta-LlaMa-3”来找到LlaMa 3型号。
点击Meta hub,用户可以在SageMakeR JuMpStaRt中发现所有可用的Meta模型。
目前,SageMakeR JuMpStaRt 中可用的所有 LlaMa 3 模型,以及每个模型支持的默认实例类型和最大总Token数如下:
单击模型卡打开相应的模型详细信息页面,用户就可以从中轻松部署模型。
接着,当用户选择部署并确认EULA条款时,部署将开始。您可以在单击“部署”按钮后显示的页面上监视部署进度。用户也可以选择“打开笔记本”通过示例笔记本进行部署。
随着Meta LlaMa 3的加入,亚马逊云科技目前提供的“大模型豪华套餐”已包括:通过AMazon BedRock提供的来自AI21 Labs, AMazon, AnthRopic, CoheRe, Meta, MistRal AI和StaBIlITy AI的领先大模型,以及通过AMazon SageMakeR JuMpStaRt提供的包括Meta LlaMa 3在内的各种模型。