人工智能 · 2024年2月19日

大型模型的开发者是否具备数据控制权?——基于OpenAI的观察

以ChatGPT为代表的生成式人工智能技术正在以令人惊异的速度进化。随着商用化序幕拉开,相关隐私和个人信息保护等数据合规问题进入公众视野。但实际上,数据合规并不是AI行业面临的新问题。妥善解决隐私和数据安全,赢得用户信任,是任何一项应用取得成功的基本前提。相比于移动互联网、云计算、区块链、自动驾驶等技术,我们更关注新一代AI在数据合规中的独特问题。对于代表着新拐点、新范式的新一代AI,相关法律认定都还为时过早。

为此,腾讯研究院公众号将陆续推出《生成式AI——数据合规的变与不变》系列文章,以开放设问方式,探讨基于大语言模型AI生态的数据合规问题。讨论没有标准答案,更多提供观察视角。

1. AI 行业生态仍在发展形成中,从目前浮现的商业形态看,生成式 AI 市场主体大致可以区分为三类:一是基础大模型研发者(如OpenAI, Deepmind),二是面向垂直行业的模型研发者(如Bloomberg,Aidoc),三是面向公众提供内容生成的服务提供者,如近期火爆的ChatGPT。

2. 并非所有的市场主体都是数据合规法律框架下的义务主体,这需要根据业务场景、技术逻辑和法律规范来进一步确定:是数据控制者(data controller),数据处理者(data processor)抑或是其他?当主体身份重合时,也需要基于不同业务流程匹配合规义务。

3. 模型研发者,在模型训练阶段有可能并不认定为数据合规上的法律主体(data controller)。以OpenAI模型为例,其不以个人信息处理为目标,虽然在庞大的数据来源中不可避免存在个人信息,但绝大部分是公开信息,处理活动存在合法性基础。并且在从原始信息到训练数据的加工过程中,个人信息成分不断衰减。正如OpenAI所言:“我们希望了解世界,而不是了解个人。”

4.参考2014年欧盟“被遗忘权”案例中对于搜索引擎法律地位的分歧讨论,“搜索引擎”在对原始网页的处理过程中,并不应视为数据控制者。这对大模型训练阶段的法律定性具有启发意义。

生成式 AI 行业生态正在快速发展形成中,规模庞大,主体呈现多样化。根据已浮现的商业形态,生成式 AI 市场主体目前大致可以区分为三类:

一是底层大模型研发者,包括OpenAI, Stability AI Google,Meta等,这些公司已发布各自的底层模型。

一是底层大模型研发者,包括OpenAI, Stability AI Google,Meta等,这些公司已发布各自的底层模型。

大模型研发者是数据控制者么?——基于OpenAI的观察

二是面向B端各垂直领域行业的模型研发者,例如:

1. 医疗保健:Zebra Medical Vision ,Aidoc 等公司使用生成式 AI 为客户进行医学图像分析、诊断和治疗规划。

2. 制造业:通用电气等公司利用生成式人工智能优化生产流程、预测性维护和供应链管理。

3. 金融服务:Bloomberg发布的Terminal AI大模型。基于GPT-3架构,可以处理金融领域的专业文本数据,提供金融智能化的服务。

4. 零售:Stitch Fix 等公司使用生成式人工智能来实现个性化购物体验、库存管理和需求预测。

三是面向B端和C端个人用户提供生成式AI应用的服务商,例如:

1.内容生成:Jasper、ChatGPTGPT-3 Creative Writing 等平台使用生成式 AI 来创建书面内容,包括营销文案、社交媒体帖子和其他书面材料。

2.语言翻译:谷歌翻译利用生成式人工智能在不同语言之间翻译文本。

3.图像和视频生成:Midjouney , DALL-E等平台使用生成式 AI 来创建合成图像和视频。

大模型研发者是数据控制者么?——基于OpenAI的观察

对于以上主体,适用现有的隐私数据合规框架可从两个维度展开:一是区分业务场景(TO C/to B),以明确法律主体身份,即是否是个人信息保护法中的个人信息控制者,处理者抑或是其他角色;二是区分数据处理的流程环节,以明确法律主体所适配的数据合规义务。当主体身份重合时,更需要基于不同业务流程划分合规要求。以OPENAI为例,其既面向个人用户提供ChatGPT服务,也将基础大模型能力以API方式提供给专业开发者,在不同业务场景中,其所涉及的个人信息处理活动有着显著的不同,这对于法律角色和合规义务有着直接的影响。

基础大模型研发者是否是隐私数据合规框架下的data controller,是一个值得讨论的问题。

区别于媒体大众上关于AI数据合规的笼统讨论,从专业视角审视,AI底层大语言模型研发提供者,有可能并不认定为隐私数据合规上的法律主体——数据控制者(data controller)。

但在大模型训练中,并非如此。以OpenAI模型训练为例,首先,其数据处理的主要目的是训练模型形成语言理解、预测、生成能力,甚至是举一反三的推理能力,而非处理个人信息目的。数据源的选取也主要是满足语言生成方向。OpenAI披露的数据源主要来自于公开信息。包括:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。维基百科准确规范程度高,以说明性文字形式写成,并且跨越多种语言和领域,有助于提升模型的精确性;书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力;Reddit链接与Common Crawl则能较好覆盖网络公开信息,代表网络流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

大模型研发者是数据控制者么?——基于OpenAI的观察

如果参考2014欧盟“被遗忘权”判决中对于数据控制者的界定逻辑,模型研发者的法律身份问题将更值得商讨。

尽管在欧盟“被遗忘权”判决中,作为搜索引擎的谷歌最终被裁定为“数据控制者”,但在案件过程中的讨论争议依然可以为今天面临的新问题:如何确定大模型研发者的法律主体地位提供参考。

首先简单回顾下欧盟“被遗忘权”案来龙去脉:1998年,西班牙《先锋报》刊登了市民冈萨雷斯因无力偿还债务而遭拍卖房产的公告。2010年,冈萨雷斯发现,如果在谷歌搜索引擎输入他的名字,会出现指向《先锋报》关于其房产拍卖的网页链接。冈萨雷斯认为这些信息已经过去多年,希望谷歌能够删除该链接。该案一直打到欧洲法院,欧洲法院随后做出了轰动世界的“被遗忘权”判决:冈萨雷斯要求《先锋报》删除其个人信息的主张被驳回,因为这涉及干涉新闻自由;但谷歌作为搜索引擎服务商,被视为1995年《数据保护指令》界定的数据控制者,对其处理的第三方发布的带有个人数据的网页信息负有责任,依据该判例,欧洲居民可以向搜索引擎申请在搜索结果中删除有关个人的“不恰当的、不相关的、过时多余”(inadequate, irrelevant, excessive)的网页链接.

判决发布后的争议持续到今天,谷歌在建立线上“被遗忘权”申诉平台后,接到大量申请要求删除相关新闻报道,这被观察者认为是一种新形式的网络审查。即使在欧盟内部,该判决很大程度上也在意料之外,因为在确立搜索引擎是否是欧盟数据保护法意义上的“数据控制者”(data controller)这一问题上,存在根本性分歧。

在“被遗忘权诉讼”最终判决之前,欧洲最高法院总法律顾问Niilo JÄÄSKINEN发布的法律意见书中,明确表达其不认同将搜索引擎视为数据控制者的主张。他认为:在互联网背景下,应区分三种与个人数据处理相关的情况。其中第(1)和(3)的场景中的数据控制者不存在争议,但就第(2)种情形,很有讨论的必要。

大模型研发者是数据控制者么?——基于OpenAI的观察

遗憾的是,在“被遗忘权”案例中,欧洲法院并没有听取总法律顾问的意见。最高法认为搜索引擎在业务运营过程中,会根据用户偏好投放相关广告,这构成了对于个人信息的处理活动,应履行数据控制者义务。在今天看来,这一判断混淆了搜索引擎不同数据处理阶段与对应的合规义务,如果将这一逻辑适用于大语言模型研发者,会出现令人尴尬的局面。因为就广告投放而言,当前大模型的研发者,在其商业形态中恰恰排除了这一类模式。OPENAI明确表示:我们不使用数据来销售我们的服务、做广告或建立人们的档案。

正如总法律顾问在法律意见书中阐明:欧盟1995数据保护指令发布时,互联网刚刚起步,第一批搜索引擎开始出现,但没有人能预见它改变世界的程度。因此,对新技术现象给与法律上的解释时,必须考虑比例原则,有必要在个人数据保护、信息社会目标、市场主体以及互联网用户广泛的合法利益之间取得相称的平衡。

今天,我们再次面临又一个即将改变世界的技术创新。大模型是未来智能的基础设施,还是智能工具抑或它本身就是无处处不在的知识?尚未有确定性的答案。大模型研发者在数据合规上的身份属性,则更是一个值得讨论的

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册