互联网资讯 / 人工智能 · 2023年11月19日 0

AI和机器学习项目的安全性评估如何?

人工智能和机器学习在带来好处的同时也带来了新的漏洞。本文介绍了几家公司是如何将风险降到最低的。

当企业采用了新技术时,安全性往往会被搁置一边。尽快以最低的成本向客户和内部用户提供新的产品或服务似乎更为重要。而良好的安全性则可能是缓慢和昂贵的。

人工智能(AI)和机器学习(ML)不仅提供了与早期技术进步相同的漏洞和错误配置机会,也有其独特的风险。随着企业开始进行以人工智能为动力的数字化转型,这些风险可能会变得更大。“这不是一个很好的抢占领域。&Rdquo;Booz Allen HaMilton的首席科学家EdwaRd RaFF说。

与其他技术相比,AI和ML需要更多的数据以及更复杂的数据。数学家和数据科学家所开发的算法是从研究项目中走出来的。“我们只是最近才开始从一个科学界的角度来理解人工智能所存在安全问题。&Rdquo;RaFF说。

数量和处理需求也意味着云平台通常还要继续处理工作负载,这增加了另一个级别的复杂性和脆弱性。对于人工智能使用者来说,网络安全是最令人担忧的风险,这一点也不奇怪。德勤在2020年7月发布的一项调查显示,62%的采访者认为网络安全风险是一个重大或极端问题,但只有39%的人表示他们已经准备好应对这些风险。

使问题变得更加复杂的是,网络安全也是人工智能最重要的功能之一。德勤的技术、媒体和电信中心执行董事JeFF LoUCks表示,与人工智能合作的组织越有经验,他们就越担心网络安全风险。

此外,企业,即使是更有经验的企业,也没有能够遵循的基本安全实践,例如保留所有人工智能和最大限度语言项目的完整清单或是进行审计和测试。“公司现在在实施这些措施方面做得并不好。&Rdquo;LoUCks说。

由AI和ML的数据需求所带来的风险

AI和ML系统需要三组数据:

•建立预测模型的训练数据

•评估模型工作情况的测试数据

•当模型投入工作时,实时的业务或运营数据

虽然实时的业务或运营数据显然是一项宝贵的公司资产,但也很容易忽略其中包含敏感信息的训练和测试数据池。

许多用于保护其他系统中数据的原则也可以应用于AI和ML项目,包括匿名化、令牌化和加密。第一步是询问是否真的需要数据。在为AI和ML项目做准备时,收集所有可能的数据,然后看看能用它们做些什么是很诱人的。

关注业务成果可以帮助企业将收集的数据限制在需要的范围之内。“数据科学团队可能非常渴望数据。&Rdquo;为教育机构分析学生数据的Othot公司首席技术官John AbBATico表示。“我们在处理学生数据时明确表示,高度敏感的PII[个人身份信息]是不需要的,也不应包含在提供给我们团队的数据当中。&Rdquo;

当然,错误确实会发生。例如,客户有时会提供敏感的个人信息,如社会保险号码。这些信息不会提高模型的性能,但却会产生额外的风险。AbBATico说他的团队有一个程序来识别PII,从所有系统中清除它,并将错误通知给客户。“我们不认为这是一起安全事件,但我们的做法会让它看起来像是。&Rdquo;

人工智能系统也需要情境化的数据,这会大大增加公司的风险敞口。假设一家保险公司希望更好地掌握其客户的驾驶习惯,它可以购买购物、驾驶、位置和其他的数据集,这些数据集可以很容易地相互关联并与客户账户相匹配。这种新的、指数级的丰富数据集对黑客也更有吸引力,如果被攻破,对公司的声誉也更具破坏性。

人工智能的安全性设计

在线文件共享平台Box是一家需要保护大量数据的公司。Box正在使用AI来提取元数据,以提高搜索、分类等能力。“例如,我们可以从合同中提取条款、续约和定价信息。&Rdquo;Box的CISO LaksHMi Hanspal说。“我们的大多数客户大都来自这样一个时代,他们的内容分类要么是用户定义的,要么是完全被忽视的。他们坐拥的数据堆积如山,这些数据可能对数字化转型有用–如果内容能够被分类、自我感知,而不需要等待人类行动的话。&Rdquo;

Hanspal说,保护数据是Box的一个关键支柱,同样的数据保护标准也适用于人工智能系统,包括训练数据。“在Box,我们相信我们建立的是信任,我们销售的是信任,我们维护的也是信任。我们坚信,这需要融入我们为合作伙伴和客户提供的产品当中,而不是被捆绑在一起。&Rdquo;

这意味着所有系统,包括新的人工智能项目,都应该是围绕核心数据安全原则而构建的,包括加密、日志记录、监控、身份验证和访问控制。“数字信任是我们平台与生俱来的,我们需要将它付诸实践。&Rdquo;Hanspal说。

Box为传统代码和新的AI和ML驱动的系统提供了一个安全的开发流程。“我们在开发安全产品方面符合国际标准化组织的行业标准,&Rdquo;Hanspal说。“基于设计的安全性是内置的,并且存在着制衡机制,包括渗透测试和红队测试。这是一个标准的流程,AI和ML项目不会有什么不同。&Rdquo;

数学家和数据科学家在编写AI和ML算法代码时,一般不需要担心潜在的漏洞。企业在构建AI系统时,会借鉴可用的开源算法,使用商业“黑盒&Rdquo;AI系统,或者从头构建自己的系统。

使用开放源代码,攻击者就有可能在恶意代码中溜走,或者代码中包含漏洞或脆弱的依赖关系。专有商业系统也会使用开源代码,再加上企业客户通常看不到的新代码。

逆向攻击是一个主要威胁

AI和ML系统通常是开源库和非安全工程师所创建的新编写代码的组合。另外,在编写安全人工智能算法方面,也没有标准的最佳实践。鉴于安全专家和数据科学家的短缺,这两方面的专家甚至会更少。

AI和ML算法最大的潜在风险之一,也是Booz Allen HaMilton的RaFF最为关注的长期威胁之一,就是训练数据泄露给攻击者的可能性。“有了逆向攻击 ,你就可以让人工智能模型给你关于它自己和它被训练的信息。&Rdquo;他说。“如果它是在PII数据上训练出来的,你就可以让模型把那些信息泄露给你。实际的PII可能会暴露出来。&Rdquo;

RaFF说,这是一个需要积极研究的领域,也是一个巨大的潜在痛点。一些工具可以保护训练数据免受逆向攻击 ,但是它们太昂贵了。“我们知道如何阻止这种情况,但这样做会使模型的训练成本增加100倍。&Rdquo;他说。“这不是我夸大其词。训练模型的成本和时间都会高出100倍,所以没人会这么做。&Rdquo;

你无法保护你无法解释的东西

另一个研究领域是可解释性。今天,许多人工智能和移动计算系统–包括许多主要网络安全供应商所提供的人工智能和移动计算工具–都是“黑盒&Rdquo;系统。“供应商没有建立起可解释性,&Rdquo;YL VentuRes的常驻CISO Sounil Yu说。“在安全领域,能够解释发生了什么是一个基本的组成部分。如果我不能解释为什么会发生,我该如何解决它呢?&Rdquo;

对于那些能够构建起自己的AI或ML系统的公司来说,当出现问题时,他们可以返回到训练数据或所使用的算法,并修复问题。“如果你是从别人那里建立起来的,你就根本不知道培训数据是什么。&Rdquo;Yu说。

需要保护的不仅仅是算法

人工智能系统不仅仅是一个自然语言处理引擎,也不仅仅是一个分类算法,或者仅仅是一个神经网络。即使这些部分是完全安全的,系统仍然需要与用户和后端平台交互。

系统是否使用了强认证和最小特权原则?后端数据库的连接安全吗?与第三方数据源的连接又如何?用户界面是否具有抗注入攻击的弹性?

另一个与人有关的不安全感来源是人工智能和人工智能项目所独有的:数据科学家。“他们不会无缘无故地被称为科学家,&Rdquo;Othot的AbBATico说。“优秀的数据科学家能够利用数据进行实验,从而得出有洞察力的模型。然而,在数据安全方面,实验可能会导致危险的行为。&Rdquo;他们可能会在处理完数据后,试图将数据移动到不安全的位置或删除样本数据集。Othot在早期就投资获得了SOC II认证,这些控制有助于在整个公司内实施强而有力的数据保护实践,包括在移动或删除数据方面。

“事实上,世界各地大多数人工智能模型的最大风险并不在人工智能中,&Rdquo;人工智能机构URvin AI的产品经理、国际非盈利安全研究机构ISECOM的联合创始人PeteR HeRzog说。他说,问题出在人的身上。“没有一个人工智能模型是没有安全问题的,因为是人们决定了如何训练他们,是人们决定了包括什么数据,是人们决定了他们想要预测什么,是人们决定了暴露多少信息。&Rdquo;

AI和ML系统特有的另一个安全风险是数据中毒,攻击者会将信息馈送到系统中,迫使系统做出不准确的预测。例如,攻击者可以通过向系统提供具有与恶意软件类似指标的合法软件示例,诱使系统认为恶意软件是安全的。

RaFF说,这是大多数组织高度关注的问题。“现在,我还不知道有任何人工智能系统在现实生活中受到了攻击,&Rdquo;他说。“这是一个真正的威胁,但现在攻击者用来逃避杀毒的经典工具仍然有效,所以他们不需要变得更加花哨。&Rdquo;

避免偏差和模型漂移

当AI和ML系统用于企业安全(例如,用户行为分析、监控网络流量或检查数据过滤)时,偏差和模型漂移也会带来潜在风险。低估特定攻击或很快过时的训练数据集会使组织易受攻击,尤其是在越来越依赖人工智能进行防御的情况下。“你需要不断更新你的模型,&Rdquo;RaFF说。“你需要让它成为一个连续的东西。&Rdquo;

在某些情况下,训练可以是自动的。例如,使模型适应不断变化的天