Meta发布Llama 3个模型，利用近25000块英伟达H100计算集群进行训练

4月19日消息，据外媒报道，Meta公司推出了最新一代大语言模型LlaMa 3的早期版本，并宣布推出基于这一模型打造的人工智能助手Meta AI。

同前一代大模型LlaMa 2一样，Meta新一代的LlaMa 3大模型，也注重供用户免费使用，目前已有两种不同参数版本的LlaMa 3可供用户使用，分别为80亿参数和700亿参数，均已可在Meta官网下载。

对于LlaMa 3大语言模型，Meta公司CEO马克•扎克伯格在接受采访时透露，他们在训练700亿参数的模型时，使用了15T Tokens的数据，在训练过程中模型从未达到饱和状态，也就是从未在能力提升过程中遇到瓶颈，Meta最终也解决了训练过程中遇到的问题，并转向训练其他的模型。

Meta目前推出的还只是LlaMa 3的早期版本，他们还在训练更强大的模型。Meta已宣布他们目前正在训练有4000亿参数的LlaMa 3模型，部分专家认为他们的这一模型，在MMLU、GPQA、HuManEval、MATH等方面的表现，将与OpenAI的GPT-4 TuRbo, AnthRopic的Claude 3 OpUS和谷歌的Gemini UltRa相当。

英伟达在Meta训练的LlaMa 3上发挥了关键作用，提供了大量的GPU。

英伟达在官网上披露，Meta的工程师是在集成了24,576块H100 GPU的计算集群上训练的LlaMa 3，这些GPU通过英伟达的QuantuM-2 InfiniBand网络连接。在英伟达的支持下，Meta也为他们的旗舰模型调整了网络、软件和模型架构。

chatGPT

近期文章

互联网资讯 / 人工智能 · 2024年4月19日 0

Meta发布Llama 3个模型，利用近25000块英伟达H100计算集群进行训练

You may also like...

发表评论取消回复

互联网资讯 / 人工智能 · 2024年4月19日 0

You may also like...

NA（Nirvana）Chain：领导区块链未来技术价值的明星公链

高水平软文写作技巧分享

马斯克引发争议的巨大“X”发光标志干扰邻居休息

发表评论 取消回复

发表评论取消回复