大型模型的开发者是否具备数据控制权？——基于OpenAI的观察

以ChatGPT为代表的生成式人工智能技术正在以令人惊异的速度进化。随着商用化序幕拉开，相关隐私和个人信息保护等数据合规问题进入公众视野。但实际上，数据合规并不是AI行业面临的新问题。妥善解决隐私和数据安全，赢得用户信任，是任何一项应用取得成功的基本前提。相比于移动互联网、云计算、区块链、自动驾驶等技术，我们更关注新一代AI在数据合规中的独特问题。对于代表着新拐点、新范式的新一代AI，相关法律认定都还为时过早。

为此，腾讯研究院公众号将陆续推出《生成式AI——数据合规的变与不变》系列文章，以开放设问方式，探讨基于大语言模型AI生态的数据合规问题。讨论没有标准答案，更多提供观察视角。

1. AI 行业生态仍在发展形成中，从目前浮现的商业形态看，生成式 AI 市场主体大致可以区分为三类：一是基础大模型研发者（如OpenAI, Deepmind），二是面向垂直行业的模型研发者（如Bloomberg，Aidoc），三是面向公众提供内容生成的服务提供者，如近期火爆的ChatGPT。

2. 并非所有的市场主体都是数据合规法律框架下的义务主体，这需要根据业务场景、技术逻辑和法律规范来进一步确定：是数据控制者（data controller）,数据处理者（data processor）抑或是其他？当主体身份重合时，也需要基于不同业务流程匹配合规义务。

3. 模型研发者，在模型训练阶段有可能并不认定为数据合规上的法律主体（data controller）。以OpenAI模型为例，其不以个人信息处理为目标，虽然在庞大的数据来源中不可避免存在个人信息，但绝大部分是公开信息，处理活动存在合法性基础。并且在从原始信息到训练数据的加工过程中，个人信息成分不断衰减。正如OpenAI所言：“我们希望了解世界，而不是了解个人。”

4.参考2014年欧盟“被遗忘权”案例中对于搜索引擎法律地位的分歧讨论，“搜索引擎”在对原始网页的处理过程中，并不应视为数据控制者。这对大模型训练阶段的法律定性具有启发意义。

生成式 AI 行业生态正在快速发展形成中，规模庞大，主体呈现多样化。根据已浮现的商业形态，生成式 AI 市场主体目前大致可以区分为三类：

一是底层大模型研发者，包括OpenAI, Stability AI Google，Meta等，这些公司已发布各自的底层模型。

大模型研发者是数据控制者么？——基于OpenAI的观察

二是面向B端各垂直领域行业的模型研发者，例如：

1. 医疗保健：Zebra Medical Vision ，Aidoc 等公司使用生成式 AI 为客户进行医学图像分析、诊断和治疗规划。

2. 制造业：通用电气等公司利用生成式人工智能优化生产流程、预测性维护和供应链管理。

3. 金融服务：Bloomberg发布的Terminal AI大模型。基于GPT-3架构，可以处理金融领域的专业文本数据，提供金融智能化的服务。

4. 零售：Stitch Fix 等公司使用生成式人工智能来实现个性化购物体验、库存管理和需求预测。

三是面向B端和C端个人用户提供生成式AI应用的服务商，例如：

1.内容生成：Jasper、ChatGPTGPT-3 Creative Writing 等平台使用生成式 AI 来创建书面内容，包括营销文案、社交媒体帖子和其他书面材料。

2.语言翻译：谷歌翻译利用生成式人工智能在不同语言之间翻译文本。

3.图像和视频生成：Midjouney , DALL-E等平台使用生成式 AI 来创建合成图像和视频。

对于以上主体，适用现有的隐私数据合规框架可从两个维度展开：一是区分业务场景（TO C/to B)，以明确法律主体身份，即是否是个人信息保护法中的个人信息控制者，处理者抑或是其他角色；二是区分数据处理的流程环节，以明确法律主体所适配的数据合规义务。当主体身份重合时，更需要基于不同业务流程划分合规要求。以OPENAI为例，其既面向个人用户提供ChatGPT服务，也将基础大模型能力以API方式提供给专业开发者，在不同业务场景中，其所涉及的个人信息处理活动有着显著的不同，这对于法律角色和合规义务有着直接的影响。

基础大模型研发者是否是隐私数据合规框架下的data controller，是一个值得讨论的问题。

区别于媒体大众上关于AI数据合规的笼统讨论，从专业视角审视，AI底层大语言模型研发提供者，有可能并不认定为隐私数据合规上的法律主体——数据控制者（data controller）。

但在大模型训练中，并非如此。以OpenAI模型训练为例，首先，其数据处理的主要目的是训练模型形成语言理解、预测、生成能力,甚至是举一反三的推理能力，而非处理个人信息目的。数据源的选取也主要是满足语言生成方向。OpenAI披露的数据源主要来自于公开信息。包括:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。维基百科准确规范程度高，以说明性文字形式写成，并且跨越多种语言和领域，有助于提升模型的精确性；书籍由小说和非小说两大类组成，主要用于训练模型的故事讲述能力和反应能力；Reddit链接与Common Crawl则能较好覆盖网络公开信息，代表网络流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。

如果参考2014欧盟“被遗忘权”判决中对于数据控制者的界定逻辑，模型研发者的法律身份问题将更值得商讨。

尽管在欧盟“被遗忘权”判决中，作为搜索引擎的谷歌最终被裁定为“数据控制者”，但在案件过程中的讨论争议依然可以为今天面临的新问题：如何确定大模型研发者的法律主体地位提供参考。

首先简单回顾下欧盟“被遗忘权”案来龙去脉：1998年，西班牙《先锋报》刊登了市民冈萨雷斯因无力偿还债务而遭拍卖房产的公告。2010年，冈萨雷斯发现，如果在谷歌搜索引擎输入他的名字，会出现指向《先锋报》关于其房产拍卖的网页链接。冈萨雷斯认为这些信息已经过去多年，希望谷歌能够删除该链接。该案一直打到欧洲法院，欧洲法院随后做出了轰动世界的“被遗忘权”判决：冈萨雷斯要求《先锋报》删除其个人信息的主张被驳回，因为这涉及干涉新闻自由；但谷歌作为搜索引擎服务商，被视为1995年《数据保护指令》界定的数据控制者，对其处理的第三方发布的带有个人数据的网页信息负有责任，依据该判例，欧洲居民可以向搜索引擎申请在搜索结果中删除有关个人的“不恰当的、不相关的、过时多余”（inadequate, irrelevant, excessive）的网页链接.

判决发布后的争议持续到今天，谷歌在建立线上“被遗忘权”申诉平台后，接到大量申请要求删除相关新闻报道，这被观察者认为是一种新形式的网络审查。即使在欧盟内部，该判决很大程度上也在意料之外，因为在确立搜索引擎是否是欧盟数据保护法意义上的“数据控制者”(data controller)这一问题上，存在根本性分歧。

在“被遗忘权诉讼”最终判决之前，欧洲最高法院总法律顾问Niilo JÄÄSKINEN发布的法律意见书中，明确表达其不认同将搜索引擎视为数据控制者的主张。他认为：在互联网背景下，应区分三种与个人数据处理相关的情况。其中第（1）和（3）的场景中的数据控制者不存在争议，但就第（2）种情形，很有讨论的必要。

遗憾的是，在“被遗忘权”案例中，欧洲法院并没有听取总法律顾问的意见。最高法认为搜索引擎在业务运营过程中，会根据用户偏好投放相关广告，这构成了对于个人信息的处理活动，应履行数据控制者义务。在今天看来，这一判断混淆了搜索引擎不同数据处理阶段与对应的合规义务，如果将这一逻辑适用于大语言模型研发者，会出现令人尴尬的局面。因为就广告投放而言，当前大模型的研发者，在其商业形态中恰恰排除了这一类模式。OPENAI明确表示：我们不使用数据来销售我们的服务、做广告或建立人们的档案。

正如总法律顾问在法律意见书中阐明：欧盟1995数据保护指令发布时，互联网刚刚起步，第一批搜索引擎开始出现，但没有人能预见它改变世界的程度。因此，对新技术现象给与法律上的解释时，必须考虑比例原则，有必要在个人数据保护、信息社会目标、市场主体以及互联网用户广泛的合法利益之间取得相称的平衡。

今天，我们再次面临又一个即将改变世界的技术创新。大模型是未来智能的基础设施，还是智能工具抑或它本身就是无处处不在的知识？尚未有确定性的答案。大模型研发者在数据合规上的身份属性，则更是一个值得讨论的

chatGPT

近期文章

人工智能 · 2024年2月19日

大型模型的开发者是否具备数据控制权？——基于OpenAI的观察

Need more than content? Move into the product flow.