以AI对抗AI！蚂蚁集团王维强详解大模型安全防御解决方案

原标题：以AI对抗AI！蚂蚁集团王维强详解大模型安全防御解决方案

大模型的出现为AI行业带来冲击，既涌现出无限创造力与想象力，或许也会带来不可控、滥用的种种风险，如何统筹大模型的发展和安全，已引发行业内外的广泛关注。12月19日，南方都市报、南都大数据研究院联合琶洲实验室、光明实验室在广州举办“势起AI 智启新界”大模型创新应用与安全治理大会，蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

他表示，大模型安全既要“快”也要“慢”，大模型安全防御方面要“快”，要能快速检测、查杀病毒，确保服务无毒害；在大模型安全可信方面要“慢”，要能长远地、体系化地保证整个系统环境的可控、可信。

蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

新AI时代新平台责任

“大模型的能力在提升，其使用门槛在降低，越来越多的普通老百姓可以接触到大模型，可能会带来一些滥用的问题，这相当于打开了一个魔盒。”王维强讲道。

新AI时代，信息真实性和新型风险亟待解决，也迎来了新的平台责任。王维强指出，过去的传统内容风险防控中，责任主体是用户和发布平台，在当下和未来的AIGC内容风险防控中，责任主体是大模型厂商和服务平台，在内容安全风险防控、模型隐私泄露防控、伦理和价值观向善、AI技术生成标识等方面都面临新的安全挑战问题。他认为，平台和大模型厂商需要引导AI向善、安全、不作恶。

大模型风险从何而来？王维强从大模型生成流程解释了AI安全问题的本源。一个可能的路径是存在在预训练大规模数据中，如果数据本身“有毒”，带有不良伦理价值观、存在偏见和歧视，其中存在商业机密、版权等隐私问题，或有谣言虚假信息等质量问题，那么大模型输出的内容就存在安全问题。另一个渠道是行业领域微调的过程，这里可能涉及诱导错误的人类对齐、错误价值导向等恶意标注；不可靠的低质量标准和缺少多样性的固化标注，这些标注也会给大模型带来问题。同时，要注意模型本身的可控问题，模型的可靠性、稳定性、鲁棒性等都需要进行检验。此外，还有大模型在实际场景中应用的安全问题，在实际的使用过程中，不同用户群体的交互和应用都需要谨慎评估，尤其是金融、医疗等领域对模型输出的正确性要求极高，如果应用不当，一石就容易激起千层浪。

以AI技术为大模型安全护航

诸多问题当前，该如何为大模型保驾护航？行业的共识是使用安全、可靠、可控的AI技术，来对抗AI风险，“以魔法打败魔法”。

在王维强看来，保障大模型安全性主要有三个关键环节，一是从训练数据源头消毒；二是做护栏加固防止推理过程黑盒的不可控问题；三是面对外部诱导的对抗攻击。

“大模型数据其实去毒和不去毒，本身并不是0和1的问题，主要是要可控，世界的暗面也是世界的一面。”王维强说，“在研究大模型研发过程中我们做了很多尝试，如果完全没有任何负面数据，训练出来的大模型可能就会成为一个‘傻白甜’，碰到有挑战的安全问题，就很容易掉到陷阱里面，所以还得把‘消毒’和‘加毒’很好地融合起来。”由此，蚂蚁安全实验室形成了一套消毒技术方案，初步实现每天100亿的风险初筛、精细化标注的能力。

据他介绍，为解决大模型生成可控问题，蚂蚁安全实验室从四个方面进行了初步探索。一是通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐；二是图像方面做了风险抑制，进行可控调试，让大模型生成的图像具备正向的价值观；同时，大模型外挂千万级安全知识库生成和检索，生产有效率达到60%；此外，还对疑难风险内容进行补充，提升模型的风险认知能力。

这些技术方案集成，形成了被称为“蚁天鉴”的大模型安全一体化解决方案，包含大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品，目前这两项产品已对外开放。其中“蚁鉴2.0”可以诊疗检测、定位问题，它相当于站在“黑产”角度，通过智能攻击对抗技术，自动生成数百万的诱导性问题，对生成式大模型进行诱导式问答，并对大模型的回答实时、自动化检测计算，24小时不眠不休“找茬”大模型存在的弱点和安全问题。而“天鉴”可以进行“防治”，防患于未然，帮助大模型挡住外界的恶意提问，同时对生成的回答内容进行风险过滤，保障大模型上线后从用户输入到生成输出的整体安全防御。

演讲最后，王维强表示，在大模型安全系统建设中，仍需要花很多时间和行业做共建，“可信AI是数字时代抵御风险的核心能力，蚂蚁集团希望与全社会一起持续推进可信AI，共治AI风险。”

出品：南都大数据研究院

监制：戎明昌刘江涛

策划：王卫国邹莹

统筹：凌慧珊关健明

采写：南都记者熊润淼返回搜狐，查看更多

责任编辑：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

相关文章

发表回复 取消回复

发表回复取消回复