2月23日消息,阿里安全图灵实验室围绕行业痛点、难点技术问题,涉及文本变异对抗、图像、视频内容风控以及AI小样本研究的4个团队,分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作,研发包括内容安全、文本反垃圾、AI模型鲁棒性、营商环境治理4项新一代安全架构核心AI安全技术成果,均被国际会议ICASSP(InteRnational ConfeRence on AcoUStics, Speech and Signal ProceSSing)2021收录。
在实际应用场景中,AI安全技术能有效解决数据量大的头部风险,但对数据量极少或者新增的风险,现有AI模型往往难以胜任。
在2018年扫黄打非专项整治中,就出现了一波名为邪典的风险(软色情、血腥暴力),主要为一些对青少年有不良导向的视频,此类相关内容清理有害信息就多达37万余条。随着短视频火爆发展,变异极快的儿童邪典视频极易死灰复燃。
累积此类别的数据供原有模型训练需要一定时间,而小样本方法恰好能填补变异-模型未更新的真空期。阿里安全图灵实验室高级算法工程师雍秦认为,使用小样本方法,可很好地在真空期中覆盖这种新风险,维护网络清朗空间环境。
之前发表的小样本方法大都集中于优化小样本元学习阶段,该研究主要集中研究小样本方法中的预训练问题,我们AI安全团队提出了一种简单有效的方法,使用自监督方法预训练一个更深的网络,具有很好的鲁棒性和泛化性。雍秦说。
自监督学习的核心理念是对无标签数据的进行学习,而且学习的是无标签数据的数据结构或者特性,因此不需要标签结果,这样打造的AI模型对新鲜样本的适应能力比较强。
在医疗、生物等行业安全领域,都普遍存在样本标注困难和成本高问题。雍秦坚信,小样本自监督学习能很好改善这些困境。
李进锋等阿里安全算法专家经常会遇到发送大量垃圾文本的恶意用户,黑灰产试图通过对抗的手段规避阿里安全内容风控智能AI系统检测。
以文本内容为例,恶意用户可通过对文本中的违规内容进行变形变异,从而达到绕开模型识别检测的目的。由于文本对抗门槛和成本低,文本内容风控场景中的对抗异常激烈,对抗给智能风控体系带来了巨大挑战。
为应对挑战,解决对抗场景中风控模型性能衰减的问题,阿里安全图灵实验室与浙江大学提出了基于对抗关系图的文本对抗防御技术。