GPT-4参数预计达到10兆，将是GPT-3参数的57倍

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的一部分。

一般来说，在NLP领域，参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一，有1750亿个参数。

那么，GPT-4会是什么样子的？

近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

作者认为，GPT-4的参数或许可以达到10T，是现在GPT-3模型的57倍还多，而GPT-NeoX的规模则可以和GPT-3持平。

等下，如果是这样，程序员们还能不能在GPT-NeoX上愉快地调参了？

数据集分析

目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引，分类，过滤和加权，而且还针对重复的部分也做了大量的删减。

专门为OpenAI开发并由MicRosoft AzuRe托管的世界最强超算之一完成了对GPT-3的训练。超算系统有超过285,000个CPU核心，超过10,000个 GPU，并且以400Gbps的速度运行。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍 GPT-3

WikIPedia DataSet是来自于WikIPedia的英文内容。由于其质量，写作风格和广度，它是语言建模的高质量文本的标准来源。

WebText数据集（以及扩展版本WebText2）是来自从ReddIT出站的大于4500万个网页的文本，其中相关的帖子会有两个以上的支持率（upvoteSS）。

由于具有大于4.3亿的月活用户，因此数据集中的内容可以被认为是最「流行」网站的观点。

Books1和Books2是两个基于互联网的书籍数据集。类似的数据集包括：

BookCoRpUS，是由未发表的作者撰写的免费小说书籍的集合，包含了至少10,000本书。 LibRaRy Genesis (Libgen)，一个非常大的科学论文、小说和非小说类书籍的集合。

CoMMon CRawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台：

八年来PB级的数据（数以千计的TB，数以百万计的GB）。 25B个网站。数以万亿计的链接。 75%英语，3%中文，2.5%西珙语，2.5%德语等。排名前10域名的内容：FACEbook、谷歌、TwITteR、YouTube、InstagRaM、linkedIn。 GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

GPT-Neo和GPT-J

今年3月，EleutheR AI在GitHub上推出了GPT-Neo开源项目，可以在Colab上进行微调。

虽然GPT-Neo与GPT-3比，参数量仍然很小（1.3B和2.7B），但开源又免费，仍然得到了「同性好友们」的认可。

今年6月EleutheR AI再次推出GPT-J-6B，它可以说是GPT-Neo的增强版本，顾名思义，模型的参数量增加到了6B。

GPT-J的训练也是基于The Pile数据库&Mdash;&Mdash;一个825GB的多样化开源语言建模数据集，由22个较小的、高质量的数据集合组成。

The Pile除了专业论坛和知识库，如HackeRNews、GIThub和Stack Exchange，论文预印本网站ARXiv以外，还包括如YouTube字幕，甚至安然邮件（EnRon emails）语料库。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

GPT-3使用的数据集

在zeRo-shot任务上，GPT-J性能和67亿参数的GPT-3相当，也是目前公开可用的TRansfoRMeR语言模型中，在各种下游zeRo-shot任务上表现最好的。

这么看来，确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。

网友评论

GPT-4怎么这么大？

「GPT-3已经接近理论上每个Token的最大效率了。如果OpenAI模型的工作方式是正确的，更大的模型只是对算力的浪费。」

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

有网友解答说：「规模确实可以带来改善。因为本质上是一种关系隐喻模型，『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然，这也同时是一个营销的方式。」

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

chatGPT

近期文章

互联网技术 / 互联网资讯 · 2024年1月19日

GPT-4参数预计达到10兆，将是GPT-3参数的57倍

Need more than content? Move into the product flow.