以ChatGPT为代表的生成式人工智能技术正在以令人惊异的速度进化。随着商用化序幕拉开,相关隐私和个人信息保护等数据合规问题进入公众视野。但实际上,数据合规并不是AI行业面临的新问题。妥善解决隐私和数据安全,赢得用户信任,是任何一项应用取得成功的基本前提。相比于移动互联网、云计算、区块链、自动驾驶等技术,我们更关注新一代AI在数据合规中的独特问题。对于代表着新拐点、新范式的新一代AI,相关法律认定都还为时过早。
为此,腾讯研究院公众号将陆续推出《生成式AI——数据合规的变与不变》系列文章,以开放设问方式,探讨基于大语言模型AI生态的数据合规问题。讨论没有标准答案,更多提供观察视角。
1. AI 行业生态仍在发展形成中,从目前浮现的商业形态看,生成式 AI 市场主体大致可以区分为三类:一是基础大模型研发者(如OpenAI, Deepmind),二是面向垂直行业的模型研发者(如Bloomberg,Aidoc),三是面向公众提供内容生成的服务提供者,如近期火爆的ChatGPT。
2. 并非所有的市场主体都是数据合规法律框架下的义务主体,这需要根据业务场景、技术逻辑和法律规范来进一步确定:是数据控制者(data controller),数据处理者(data processor)抑或是其他?当主体身份重合时,也需要基于不同业务流程匹配合规义务。
3. 模型研发者,在模型训练阶段有可能并不认定为数据合规上的法律主体(data controller)。以OpenAI模型为例,其不以个人信息处理为目标,虽然在庞大的数据来源中不可避免存在个人信息,但绝大部分是公开信息,处理活动存在合法性基础。并且在从原始信息到训练数据的加工过程中,个人信息成分不断衰减。正如OpenAI所言:“我们希望了解世界,而不是了解个人。”
4.参考2014年欧盟“被遗忘权”案例中对于搜索引擎法律地位的分歧讨论,“搜索引擎”在对原始网页的处理过程中,并不应视为数据控制者。这对大模型训练阶段的法律定性具有启发意义。
生成式 AI 行业生态正在快速发展形成中,规模庞大,主体呈现多样化。根据已浮现的商业形态,生成式 AI 市场主体目前大致可以区分为三类:
一是底层大模型研发者,包括OpenAI, Stability AI Google,Meta等,这些公司已发布各自的底层模型。
一是底层大模型研发者,包括OpenAI, Stability AI Google,Meta等,这些公司已发布各自的底层模型。
二是面向B端各垂直领域行业的模型研发者,例如:
1. 医疗保健:Zebra Medical Vision ,Aidoc 等公司使用生成式 AI 为客户进行医学图像分析、诊断和治疗规划。
2. 制造业:通用电气等公司利用生成式人工智能优化生产流程、预测性维护和供应链管理。
3. 金融服务:Bloomberg发布的Terminal AI大模型。基于GPT-3架构,可以处理金融领域的专业文本数据,提供金融智能化的服务。
4. 零售:Stitch Fix 等公司使用生成式人工智能来实现个性化购物体验、库存管理和需求预测。
三是面向B端和C端个人用户提供生成式AI应用的服务商,例如:
1.内容生成:Jasper、ChatGPTGPT-3 Creative Writing 等平台使用生成式 AI 来创建书面内容,包括营销文案、社交媒体帖子和其他书面材料。
2.语言翻译:谷歌翻译利用生成式人工智能在不同语言之间翻译文本。
3.图像和视频生成:Midjouney , DALL-E等平台使用生成式 AI 来创建合成图像和视频。
对于以上主体,适用现有的隐私数据合规框架可从两个维度展开:一是区分业务场景(TO C/to B),以明确法律主体身份,即是否是个人信息保护法中的个人信息控制者,处理者抑或是其他角色;二是区分数据处理的流程环节,以明确法律主体所适配的数据合规义务。当主体身份重合时,更需要基于不同业务流程划分合规要求。以OPENAI为例,其既面向个人用户提供ChatGPT服务,也将基础大模型能力以API方式提供给专业开发者,在不同业务场景中,其所涉及的个人信息处理活动有着显著的不同,这对于法律角色和合规义务有着直接的影响。
基础大模型研发者是否是隐私数据合规框架下的data controller,是一个值得讨论的问题。
区别于媒体大众上关于AI数据合规的笼统讨论,从专业视角审视,AI底层大语言模型研发提供者,有可能并不认定为隐私数据合规上的法律主体——数据控制者(data controller)。
但在大模型训练中,并非如此。以OpenAI模型训练为例,首先,其数据处理的主要目的是训练模型形成语言理解、预测、生成能力,甚至是举一反三的推理能力,而非处理个人信息目的。数据源的选取也主要是满足语言生成方向。OpenAI披露的数据源主要来自于公开信息。包括:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。维基百科准确规范程度高,以说明性文字形式写成,并且跨越多种语言和领域,有助于提升模型的精确性;书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力;Reddit链接与Common Crawl则能较好覆盖网络公开信息,代表网络流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。
如果参考2014欧盟“被遗忘权”判决中对于数据控制者的界定逻辑,模型研发者的法律身份问题将更值得商讨。
尽管在欧盟“被遗忘权”判决中,作为搜索引擎的谷歌最终被裁定为“数据控制者”,但在案件过程中的讨论争议依然可以为今天面临的新问题:如何确定大模型研发者的法律主体地位提供参考。
首先简单回顾下欧盟“被遗忘权”案来龙去脉:1998年,西班牙《先锋报》刊登了市民冈萨雷斯因无力偿还债务而遭拍卖房产的公告。2010年,冈萨雷斯发现,如果在谷歌搜索引擎输入他的名字,会出现指向《先锋报》关于其房产拍卖的网页链接。冈萨雷斯认为这些信息已经过去多年,希望谷歌能够删除该链接。该案一直打到欧洲法院,欧洲法院随后做出了轰动世界的“被遗忘权”判决:冈萨雷斯要求《先锋报》删除其个人信息的主张被驳回,因为这涉及干涉新闻自由;但谷歌作为搜索引擎服务商,被视为1995年《数据保护指令》界定的数据控制者,对其处理的第三方发布的带有个人数据的网页信息负有责任,依据该判例,欧洲居民可以向搜索引擎申请在搜索结果中删除有关个人的“不恰当的、不相关的、过时多余”(inadequate, irrelevant, excessive)的网页链接.
判决发布后的争议持续到今天,谷歌在建立线上“被遗忘权”申诉平台后,接到大量申请要求删除相关新闻报道,这被观察者认为是一种新形式的网络审查。即使在欧盟内部,该判决很大程度上也在意料之外,因为在确立搜索引擎是否是欧盟数据保护法意义上的“数据控制者”(data controller)这一问题上,存在根本性分歧。
在“被遗忘权诉讼”最终判决之前,欧洲最高法院总法律顾问Niilo JÄÄSKINEN发布的法律意见书中,明确表达其不认同将搜索引擎视为数据控制者的主张。他认为:在互联网背景下,应区分三种与个人数据处理相关的情况。其中第(1)和(3)的场景中的数据控制者不存在争议,但就第(2)种情形,很有讨论的必要。
遗憾的是,在“被遗忘权”案例中,欧洲法院并没有听取总法律顾问的意见。最高法认为搜索引擎在业务运营过程中,会根据用户偏好投放相关广告,这构成了对于个人信息的处理活动,应履行数据控制者义务。在今天看来,这一判断混淆了搜索引擎不同数据处理阶段与对应的合规义务,如果将这一逻辑适用于大语言模型研发者,会出现令人尴尬的局面。因为就广告投放而言,当前大模型的研发者,在其商业形态中恰恰排除了这一类模式。OPENAI明确表示:我们不使用数据来销售我们的服务、做广告或建立人们的档案。
正如总法律顾问在法律意见书中阐明:欧盟1995数据保护指令发布时,互联网刚刚起步,第一批搜索引擎开始出现,但没有人能预见它改变世界的程度。因此,对新技术现象给与法律上的解释时,必须考虑比例原则,有必要在个人数据保护、信息社会目标、市场主体以及互联网用户广泛的合法利益之间取得相称的平衡。
今天,我们再次面临又一个即将改变世界的技术创新。大模型是未来智能的基础设施,还是智能工具抑或它本身就是无处处不在的知识?尚未有确定性的答案。大模型研发者在数据合规上的身份属性,则更是一个值得讨论的