生成式AI新浪潮的生态架构及新物种
在之前的环节提到了我们如何看AI新浪潮的生态系统——三层架构:基础设施层、模型层和应用层。
以这个三层架构为框架,我们可以通过一些具体的例子感受企业是怎么在这三层上分布的。这个新的框架中诞生了很多企业新物种。
英伟达从1993年成立,过去几十年中,主要是面向图形和通用计算来做GPU。因为AI的新浪潮,它现在进入到了云服务。未来它会不会成为一个新的公有云的提供商,而且是一个专门面向生成式AI的新的公有云的提供商,这是非常值得思考的问题,它现在已经在底层做了这么多的布局。
像传统科技巨头,比如微软,以前更多的是做应用,现在有模型层、云服务,也做芯片了。因为它知道给自己的模型和应用,用什么样的芯片做优化更合适。
SaaS领域的巨头Salesforce,以前是做应用层的,现在也做自己的模型。不同的企业都在变化,快速地迎合生成式AI技术的发展。彭博Bloomberg在3月份发布了一个专门面向金融领域的大模型,以前我们说它是一个信息提供商,现在也开始做AI。
还包括像智谱AI这类基础模型公司,提出了Model as the Sevice这种全新的商业模式,对外输出模型能力,把模型作为一种服务,这也是非常好的新模式。
在三层架构中,各种各样的公司都在不断地演进,变成了和以前完全不一样的形态。
生态架构中每一层的定价研究
我们是一家创投机构,我们希望从企业使用生成式AI的成本、定价的角度,能够给大家提供一些分析。这样不同的企业在进入这三层中的任何一层的时候会有一个参考,是否应该进入、在这一层中有没有自己存在的空间和地位?
第一个定价研究是基础设施层。我们以AWS为例,AWS是全球最大的算力服务公有云提供商。以现在一个比较标准的配置,在AWS上租用一台A100服务器,包括8块英伟达的GPU,然后配上NVLink、Infiniband网络等配置。现在AWS、微软,火山引擎、华为云、阿里云,这种配置的算力资源太抢手了,创业公司都抢不到,大厂自己都不够用。如果按AWS现在的价格,能够维持百分之百的使用率,毛利率水平可以达到80%以上,这是非常惊人的。我们以为公有云是一个资产密集型的产业,但是它可以实现这么高的毛利率水平,基本上是各行各业中最顶级的毛利率水平。
如果未来无论是需求侧下降了,还是供给侧进一步地提高,或者是像壁仞科技这样的企业提供性价比更好的芯片,当AWS上算力租用的利用率下降到50%左右的时候,毛利率会下降到63.6%。毛利率水平也很高了。这一层肯定是未来几年生成式AI发展中非常获利的一层。
其次是模型层。大家不断听说OpenAI训练一个大模型要几千万美元,这是一家初创公司能够承受得起的吗?除了科技大厂,创业公司训练大模型还有意义吗?这个问题在过去半年说得最多,我们算一下账,到底需要多少钱?
模型算力支出可以分为训练和推理。每参数每token的算力需求是常数,训练上是6 FLOPS,也就是每秒钟需要6次浮点运算,可以完成一个参数上一个token的训练。推理是2 FLOPS。
举个例子,OpenAI著名的GPT-3是1750亿参数,它一共使用了3000亿个token进行训练,怎么计算算力需求?1750亿乘以3000亿,乘以6 FLOPS,得出的就是训练这个模型大概所需要的算力。
壁仞科技合伙人梁刚博士介绍了像壁仞科技和英伟达等单卡GPU能够提供的FLOPS也是一个常数。
还要考虑的是算力使用效率。好的团队,能做到60%、70%或者80%,不好的团队同样用这样的算力设备,可能只能发挥出20%-30%的算力效率。所以,还要乘以50%的平均使用效率,可以得到它最后的训练和推理成本。
2020年的时候,英伟达的主流旗舰GPU是V100,GPT-3需要1400万美元训练一次,非常昂贵。那个时候,当研发人员按下训练开始键的时候,和火箭发射一样的昂贵,如果这个键按下去训练失败了,1400万美元就没有了。2022年A100逐渐成为大家训练模型的主力配置,由于A100本身性价比的提升及各自团队算力使用效率的提升,同样GPT-3模型的训练成本变成了100多万美元。
现在更主流的配置是H100和H800,比A100的性能提升了3倍以上,那大模型的训练成本肯定进一步下降。
大家经常会问中国公司有没有机会赶上或者超越像OpenAI这样顶级的大模型公司?起码从算力成本角度来看,是有这个机会的,训练一个新的大模型的成本越来越低,不再是一个大的壁垒了。
还有一点,我们在报告中计算了AI对算力需求的增长,是远远大于摩尔定律的。芯片是18个月transistor的密度翻了一倍,AI模型对算力需求的增长是差不多3个月翻一倍。解决未来生成式AI的发展,肯定不能单靠芯片公司的半导体制程的进步,一定要提高算力使用效率,怎么把这个效率提升到80%、90%以上,这是我们认为创业非常有机会的地方。启明创投也是提前布局了这个领域的公司,如何在英伟达、壁仞科技的GPU上提升训练和推理的效率,让整体成本下降,把整个产业推上一个台阶。
最后一层是应用层定价。这一层也很有意思。应用层定价与具体的应用场景是强相关。
比如应用的用户规模,如果是一个企业有2000人,我的应用主要给这2000人用,用户规模不大。对比一个互联网大厂推出的社交软件,例如有10亿月活。使用量规模对算力的要求是完全不一样的。
另外是应用的使用频度。有些应用每天可能就用一次,有些应用一天调用AI模型可能是100次以上。
第三是推理的输入,要输入一个prompt,有的应用的输入词很短,有的需要输入一整篇文章,成千上万个token。
最后是推理输出的内容,有的很简短,有的要长很多。以上这些都大大影响了应用公司的成本结构。
生成式AI将永久改变企业经营
生成式AI会带来三类企业,第一个是守成者,这类企业是否能够积极采纳生成式AI技术去提升自己的产品,是企业存亡的关键。如果能够积极使用生成式AI的技术增强已有产品,那新产品是不是可以比现有产品定更高的价格?如果可以的话,利润就会上涨,如果不能提价,等于多了AI技术的新成本,利润就会下降。
第二类是创新者,是挑战者角色,会积极通过生成式AI打造产品服务,实现创造新场景或者是重塑旧场景。他们可以获得一个新的溢价。减去现有的成本,利润率会显著提高。
最后是采纳者,他并不会用AI改善自己对外输出的产品,只是用AI来做企业内部的管理,以降本增效为主。这一类企业取决于降本的幅度有多大,否则AI反而会成为公司额外的新成本项。我们认为未来公司会是三个品类中的一个。
这个数据很有意思,我们在今年的3月底、4月初对外发布了截至2023年3月我们见过的100多家中国的生成式AI公司。这些企业是在2020年GPT-3发布后新成立的,分类主要是语言类应用和多模态应用。语言类大部分做聊天机器人;更多的是多模态应用,大头是生产力工具,做一些广告文案、广告配图等等,还有的企业会做短视频广告。这些应用企业占比比较大,相比之下做底层技术的比较少。三个月过后,还是发生了很大的变化。
第一,语言类应用中的智能助手增多了,而且主要是有多年细分领域的积累和经验的老兵入局了,会聚焦做一个非常细分的智能助手,面向场景的深度更深。
第二,很明显的是底层技术的公司占比明显增大,一批AI界的大牛开始出来创业了,其中有做通用大模型的,有更多的做垂直领域的垂域模型,有做工具链来提升模型训练和推理的效率的,这个占比变得更大。
十大论文及人才分布
我们咨询和调研了全球大概100多位顶级的AI业内领袖,包括科技大厂AI团队、顶级研究机构、AI创业者。我们问的是,生成式AI技术对你影响最重要的三篇论文。十大论文是统计出来排名前十的论文。
比如大家经常说大模型是Transformer架构的,说AI 1.0的CNN网络(卷积神经网络)过时了,但是卷积神经网络的复兴这篇论文依然是大模型从业者重点关注的一篇论文。
智能涌现,这肯定是大家谈论最多的论文。
人才分布主要是利用清华大学计算机系的Aminer系统抽取的数据。看全球2000名顶级AI科学家,你会发现美国和中国的情况很不一样。美国的顶级AI科学家在谷歌、微软、脸书、亚马逊、苹果这些科技企业,排名中间也有麻省理工、斯坦福这些大学,但是在中国,第一名是清华大学,前十排名中仅有一家企业——阿里巴巴,其他都是大学。也许这说明中国企业对于AI底层技术研究的布局,跟美国的科技大厂不太一样。
十大展望
最后,我们希望在报告中大胆预测,给大家一些展望,这些展望的基础也不是闭门造车,是向我们的AI朋友圈学习后的思考。
第一,以我们观察到的进展,在2024年,甚至更早,中国会出现比肩GPT-4的多语言模型。
第二,超长上下文(Long Context)是下一代大语言模型发展的重点。超长上下文,可以使得人与机器进行几天、几个月的持续交流,而不是现在只能聊几个轮次,机器就忘掉了之前的信息。
第三,我们认为做垂类大模型有多种方法,这三种会比较常见:
在不改变数据分布的情况下,利用更多通用数据进行通用大模型预训练,不特别引入行业数据;利用行业专属数据微调(Fine-Tuning)通用大模型;利用行