互联网技术 / 互联网资讯 · 2024年1月19日

GPT-4参数预计达到10兆,将是GPT-3参数的57倍

对于机器学习来说,参数可以算得上算法的关键:它们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一,有1750亿个参数。

那么,GPT-4会是什么样子的?

近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。

GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍

作者认为,GPT-4的参数或许可以达到10T,是现在GPT-3模型的57倍还多,而GPT-NeoX的规模则可以和GPT-3持平。

等下,如果是这样,程序员们还能不能在GPT-NeoX上愉快地调参了?

数据集分析

目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引,分类,过滤和加权,而且还针对重复的部分也做了大量的删减。

专门为OpenAI开发并由MicRosoft AzuRe托管的世界最强超算之一完成了对GPT-3的训练 。超算系统有超过285,000个CPU核心,超过10,000个 GPU,并且以400Gbps的速度运行。

GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍GPT-3

WikIPedia DataSet是来自于WikIPedia的英文内容。由于其质量,写作风格和广度,它是语言建模的高质量文本的标准来源。

WebText数据集(以及扩展版本WebText2)是来自从ReddIT出站的大于4500万个网页的文本,其中相关的帖子会有两个以上的支持率(upvoteSS)。

由于具有大于4.3亿的月活用户,因此数据集中的内容可以被认为是最 「流行 」网站的观点。

Books1和Books2是两个基于互联网的书籍数据集。类似的数据集包括:

BookCoRpUS,是由未发表的作者撰写的免费小说书籍的集合,包含了至少10,000本书。 LibRaRy Genesis (Libgen),一个非常大的科学论文、小说和非小说类书籍的集合。

CoMMon CRawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台:

八年来PB级的数据(数以千计的TB,数以百万计的GB)。 25B个网站。 数以万亿计的链接。 75%英语,3%中文,2.5%西珙语,2.5%德语等。 排名前10域名的内容:FACEbook、谷歌、TwITteR、YouTube、InstagRaM、linkedIn。 GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍

GPT-Neo和GPT-J

今年3月,EleutheR AI在GitHub上推出了GPT-Neo开源项目,可以在Colab上进行微调。

虽然GPT-Neo与GPT-3比,参数量仍然很小(1.3B和2.7B),但开源又免费,仍然得到了「同性好友们」的认可。

今年6月EleutheR AI再次推出GPT-J-6B,它可以说是GPT-Neo的增强版本,顾名思义,模型的参数量增加到了6B。

GPT-J的训练也是基于The Pile数据库&Mdash;&Mdash;一个825GB的多样化开源语言建模数据集,由22个较小的、高质量的数据集合组成。

The Pile除了专业论坛和知识库,如HackeRNews、GIThub和Stack Exchange,论文预印本网站ARXiv以外,还包括如YouTube字幕,甚至安然邮件(EnRon emails)语料库。

GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍

GPT-3使用的数据集

在zeRo-shot任务上,GPT-J性能和67亿参数的GPT-3相当,也是目前公开可用的TRansfoRMeR语言模型中,在各种下游zeRo-shot任务上表现最好的。

这么看来,确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。

网友评论

GPT-4怎么这么大?

「GPT-3已经接近理论上每个Token的最大效率了。如果OpenAI模型的工作方式是正确的,更大的模型只是对算力的浪费。」

GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍

有网友解答说:「规模确实可以带来改善。因为本质上是一种关系隐喻模型,『了解更多的关系 』意味着能够对更多的事情或以更细微的方式做出反应。当然,这也同时是一个营销的方式。」

GPT-4参数将达10兆!此表格预测全新语言模型参数将是GPT-3的57倍

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册