大模型安全白皮书
#政策法规 ·2025-11-13 15:57:07
据IDC预测,到2030年,人工智能将为全球带来22.3万亿美元经济收入,大模型正驱动百行千业智能化变革,而开源大模型在性能提升、部署成本降低的推动下,加速向政务、金融、能源等重点行业落地,安全风险也随之渗透到全生命周期,从模型层的提示注入、越狱攻击,到数据层的敏感信息泄露,再到应用层的智能体越权,任何一处漏洞都可能威胁个人、企业国家的财产安全,甚至是生命安全。清晰的网络安全边界正不断消融、趋于模糊,并延伸至大模型的全链路安全,传统基于规则和特征匹配的防御体系已然失效。

我们正在从传统的“网络安全”时代,迈入以“大模型安全”为核心挑战的新阶段。当前威胁呈现指数级演化态势:一方面,攻击面急剧扩大,针对算力基础设的劫持、供应链中的恶意樱型文件、以及利用LangChain等框架漏洞的新型攻击,表明风险已深度嵌入技术底座。另一方面,攻击主体高度“平民化",自然语言取代专业代码成为攻击武器,提示注入、越狱攻击让“全民黑客”从概念走向现实,极大降低了同络犯罪门楼。与此同时,模型固有的“幻觉"问题、智能体在工具调用中的越权风险、以及数据泄露与知识污染,共同构成了一个多维、动态、交织的复杂威胁矩阵。
面对这一全球性挑战,中国开创了"发展与安全井重"的敏捷治理之路,以《生成式人工智能服务管理暂行办法》为代表的“包容审慎、分类分级"原则,为技术创新与风险防控提供了动态平衡的框架。
在此背景下,必须采用以A1对抗A1、原生融合安全的新范式来应对大模型时代的安全挑战。我们提出“外筑“"以模治模'动态屏障,内固"平台原生'安全底座的核心理念,将安全能力内嵌于大模型的构建、训练、部署与运营的全过程。通过构建一个纵深防御、动态演化的全景框架,从基础设安全、内容与价值对齐、幻觉缓解到智能体行为管控,实现从“网络安全”到“大模型安全"的范式升维,为人工智能时代提供一个"安全、向普、可信、可控”的底座。
本白皮书系统性地论证了大机型安全正经历从传统网络边界防御到原生、全栈、智能动态防御的式转移,并提出“外筑"以模治模"动态屏障,内因"平台原生"安全底座”的核心理念,覆盖“安全、向善、可信、可控”四大支柱的全景安全框架,构建智能时代的核心免疫系统。
大模型安全风险是系统性、全栈式的。它贯穿基础设、模型层、数据层、智能体层及用户端五大层次,具体表现为算力劫持、供应链投毒、内容越狱、型幻觉、知识污染、隐私池露、行为失控以及工具滥用等诸多方面,共同构成了一个传统安全方案无法应对的复杂威胁立体空间。
攻击技术持续向高端化演进,例如针对据架和基础设施的深度利用;与此同时,攻击主体则日趋平民化,"自然语言黑客”的出现极大降低了攻击门楼。这导致攻防不对称性加剧,必须发展出同等智能、动态感知的防御体系。
中国特色的"发展与安全"平衡术中国的治理模式采用“发展与安全井重"的动态平衡策略。通过“包容审慎、分类分级"的监管框架,既划定安全底线,又为技术快速选代预留了弹性空间,为产业创新提供了关键的政策口期。
"以模治模+平台原生安全"是应对新范式的技术必然。它通过专用安全大模型,例如风险检测、幻觉纠正与红蓝对抗模型,对抗通用大模型风险,它既具备"外挂式"插件的灵活快读,又兼具“原生式"的深度安全能力,实现了双向赋的协同防御,构筑起从模型、数据、内容到行为的全链路深度防护体系。
大模型安全的复杂性、全局性,决定了仅靠单一力量的技术或资源难以实现全链路、全场景的大模型安全治理。必须通过标准共建、产学研协同--例如开源安全模型、共建联合平台,以及组建产业联盟等形式,汇聚各方力量,共同打造智能时代可信、向的安全基底。这是产业发展的必然要求,也是国家层面的战略需求。