去年此时,ChatGPT横空出世席卷全球,许多人称其意味着AI的iPhone时刻到来。CSDN创始人蒋涛对此曾预测:「下一步就是应用时刻,新应用时代将来临……大模型将推动更多的AI应用程序员诞生」。
在2023亚马逊云科技re:Invent全球大会第三天的Keynote,亚马逊云科技数据和人工智能副总裁Swami Sivasubramanian博士关于亚马逊云科技生成式AI的最新能力、面向生成式AI时代的数据战略以及借助生成式AI应用提高生产效率的演讲中,可以真真切切地感受到亚马逊云科技将生成式AI应用开发门槛打下来,生成式AI新应用的到来。
Swami博士在开场中这样说道:“今天,人类和技术之间正展现出前所未有的紧密关系,生成式AI正以许多意想不到的方式提升人类的生产力。这种关系让人类与人工智能共同形成新的创新充满了无限可能性。”
基于此,Swami博士带来了亚马逊云科技一系列的产品,其关键作用在于:帮助所有开发及企业快速、安全、规模化地构建生成式应用。并且,Swami博士认为,数据是构建差异化生成式AI应用的核心优势,亚马逊云科技在生成式AI能力的基础上,从数据维度为所有企业保驾护航。
针对Swami博士的精彩演讲,亚马逊云科技人工智能产品市场经理宋洪涛、亚马逊云科技数据分析与人工智能产品总监Troy Cui、亚马逊云科技数据产品技术总监王晓野,以及CSDN人工智能技术主编袁滚滚联袂,在re:Invent全球大会现场展开了深入的解读与探讨,助力所有开发者及企业尽情拥抱生成式AI时代。
亚马逊云科技在生成式AI领域的布局
宋洪涛:今天Swami博士从非常独特的视角介绍了如何借助数据来构建自己的生成式AI应用,以及有了生成式AI应用之后,如何更好地改变我们的生活方式,提升自己的工作效率。在昨天的大会上,亚马逊云科技首席执行官Adam Selipsky也重磅分享了亚马逊云科技生成式AI技术栈的三层架构,这三层技术架构具体是什么样的?以及Amazon Bedrock升级带来了哪些亮点?
王晓野:亚马逊云科技投身生成式AI领域,其实与我们之前在云计算和其他领域的做法一脉相承。我们的目标是将一项极其复杂的技术变得更易用,降低使用门槛,使得任何人都能够轻松应用。
因此,基于这一大前提,我们提出了三层架构的理念。这样的分层结构有助于更清晰地组织技术,实现端到端地帮客户思考问题。
最底层是基础架构。一方面,它离不开基础模型的构建。这一维度模型的典型特点是参数规模比较大,从训练到推理、性能、一个模型可能要几个月的时间才能完成,成本在百万美金级别。亚马逊云科技希望在基础模型的训练和推理阶段,提供最好的基础模型的基础设施。比如Amazon SageMaker作为模型训练的核心产品,我们也把它划到基础设施这一层去帮助客户,把整个模型无论是训练还是推理的性能都做到极致。
另一方面,芯片也提供了强有力的支持。在这次大会上,我们与英伟达深度合作。实际上,业内最领先的GPU在亚马逊云科技可以使用。同时亚马逊云科技对于自研芯片Trainium和Inferentia,都更新到了第二代的水平。
中间层是存储,这一层可以让客户能更好地利用模型能力。此次,Amazon Bedrock进行了全新的升级,用户可以基于此平台挑选到最好的模型,以及获得最简单的使用方式。我们会根据用户的实际场景,例如Amazon CoderWhisperer代码生成助理,不断扩展平台的功能,以满足更多需求。
最上层是应用层,Adam在本届大会上发布了最重磅的产品Amazon Q,就是希望通过生成式AI助理为用户解惑,让了解业务的专家一直在线。应用层还涵盖开箱即用的生成式AI应用,为生成式AI用户和缺乏开发技能的业务人员提供便捷使用服务的途径,以加速工作效率。
基于Amazon BedRock来看,它存在的意义在于亚马逊云科技帮助我们筛选市场上最优秀的模型,将这些模型提供给我们,使得我们自己无需再进行繁琐的连接步骤。现在,只需通过一个API即可直接访问这些模型。
这一次,Amazon BedRock最直接的改进之一是对这些模型进行了大量更新,比如增加了对Claude 2.1和Llama 2 70b的支持。其中,Claude 2.1模型在处理复杂的总结和推理方面非常强大,支持200k上下文token,而我们还进一步加强了对整个稳定性方面的支持,提供了强大的扩展性。
宋洪涛:亚马逊云科技最近发布了一款最新产品,名为Amazon Titan Multimodal Embeddings。多模态实际上代表了在生成式AI模型领域一个非常重要的趋势。对于我们的客户和基础模型而言,Multimodal Embeddings到底意味着什么呢?在技术领域,Embedding是一个经常被提及的术语,那么它究竟是用来做什么的呢?
王晓野:简单理解,可以将Embedding视为数字化。在聊天语言类模型火爆时,大家纷纷使用像向量数据库这样的工具,它将信息数字化,因为只有数字化后,我们更容易通过数学方法计算其相似性。因此,核心问题是将诸如”Embedding”这样的概念转化为数字,以便更轻松地寻找相似性。
这一次我们发布的是一个被称为“多模态”的概念,可能听起来有些抽象。它包括了图片、声音、视频等多种形式,而不仅仅是文本。在这其中最有用的场景之一是电商网站上的以图搜图。当我们看到一件喜欢的产品,比如手机壳,想要找到在哪个电商网站上购买时,我们可以拍照然后搜索。这时,我们就依赖中间层将这个图片转化为数字,这将提升搜索的准确性。
在数学层面,寻找相似性并不是特别困难的任务,因此关键在于模型能否在这个过程中有效地将两个图片或类似的元素的相似感觉转化为数字。在这一步骤中,模型的性能至关重要,因为它需要综合多个维度,如颜色、场景等,从而使两者在数字化转换后更加相似。
我们此次发布的模型更加注重在这一层面的表现,此外还包括了将图片和文字描述放一起考虑,能够更全面地呈现物品的特点。
加快生成式AI脚步的同时,如何保护隐私和保证安全?
宋洪涛:我关注到Swami博士宣布了几款大语言模型的更新,其中一个是Amazon Titan Image Generator文生图模型,Swami博士提到要做负责任的AI,比如通过不可见的水印方式,来更好的保护大模型生成的图片的版权。我知道在文书处理领域,版权问题或者是隐私问题实际上是很多客户的一个非常大的痛点。
袁滚滚:我的工作是属于内容创作,经常使用大模型生成文字和图片。OpenAI发布过Copywriter Shield Support版权盾支持计划,面向API开发者和企业客户,如果因为生成结果遭遇版权上的法律纠纷,OpenAI会给他们兜底。但相信未来大模型会应用到各个领域和场景,这类承诺的时效性是不确定的。因此,像图片水印技术,底层是较为成熟的数字水印技术,可以在多方面保护大模型生成内容的安全。
当你发现网上有违规的内容,怀疑是大模型生成的,可以通过图片水印去追责到它是哪个大模型生成的。还有一种是我通过咱们的大模型去生成附带数字水印的图片,可以保护作者版权。
王晓野:首先,Swami博士提到了目前关于图片水印技术的三个挑战:
第一,水印必须是不可见的,否则会直接影响图片。
第二,图片加水印意味着在推理过程中要额外消耗一些性能,但又不能因此延迟变慢,这些问题都需要解决。
第三,大部分人生成图片后都会再编辑,无法确保图片在编辑之后水印是否还在。
通过Swami博士的解释,我们可以发现一些以为很成熟的技术实际上并不容易也确实很重要,需要特殊处理和对待。同时,也能看出image generator模型与其他开源模型的区别在哪。如果企业真要用起来,这种模型可能值得第一个去尝试。
百花齐放的大模型,究竟该怎么选?
宋洪涛:在面对如此多的基础模型时,客户究竟应该如何选择最适合其业务场景的模型呢?亚马逊云科技是否已有相关产品或工具来协助客户做出更明智的选择?
TroyCui:在生产环境中选择大模型需要考虑多个因素。
首先,模型的准确度在问题回答中尤为重要。
其次,在生产环境中,你必须关注延时情况。
最后,如果你的产品将被大量用户使用,也需要考虑在大规模运作下的成本。
作为一个面向生产和企业客户的模型大型生态平台,亚马逊云科技发布了Model evaluation and selection,旨在帮助企业客户在生产环境中做出最佳选择。这个工具为你提供了在选择最适合的模型时进行比较的选项。整个比