赛迪研究院：2024人工智能安全趋势研究报告（34页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

《赛迪研究院：2024人工智能安全趋势研究报告（34页）.pdf》由会员分享，可在线阅读，更多相关《赛迪研究院：2024人工智能安全趋势研究报告（34页）.pdf（34页珍藏版）》请在薪酬报告网上搜索。

1、网络安全研究赛迪研究院主办2024 年 12 月 15 日总第 81 期4第期本期主题人工智能安全趋势研究所长导读近年来，随着人工智能技术的快速迭代与深度应用，其对社会经济和日常生活的变革性影响日益显现。然而，与技术进步相伴的是日趋复杂的安全挑战。如何在推动技术创新的同时，确保人工智能系统的安全、可靠和可控，成为当前全球科技发展的核心议题。本期人工智能安全趋势研究从供应链、数据、算法、应用和伦理五个层面梳理了人工智能的安全风险，分析了高端芯片断供、数据泄露、对抗性攻击、深度伪造以及伦理困境等问题对人工智能技术发展的潜在威胁。同时，介绍了机密人工智能、联邦学习、对抗性机器学习、AI

2、GC 检测、可解释人工智能等技术解决方案，并展望了人工智能安全测评的发展方向。此外，针对我国实际情况，报告提出了完善人工智能治理体系、加快关键技术研发、推动人工智能安全标准建设以及加强公众教育等具体建议，助力我国人工智能实现安全、可持续的高质量发展。在当前人工智能技术加速融入社会经济各领域的背景下，推动人工智能安全发展不仅关乎技术本身，更是构建和谐社会、维护公平秩序的重要前提。希望本期内容能为政府部门、企业机构和社会组织提供参考和借鉴，并欢迎各界读者不吝赐教。赛迪研究院网络安全研究所所长温晓君2024 年 12 月 15 日本期主题：人工智能安全趋势研究一、人工智能安全1（一）人工智能内生安

3、全1（二）人工智能衍生安全2二、人工智能安全风险分析2（一）供应链安全2（二）数据安全4（三）算法安全5（四）应用安全6（五）伦理安全8三、人工智能安全解决方案和技术趋势10（一）数据安全与隐私保护10（二）算法安全与模型防护13（三）人工智能生成内容检测和溯源15（四）人工智能透明度和信任构建17四、人工智能安全测评趋势21（一）人工智能安全测评标准21（二）人工智能安全测评平台和工具22（三）人工智能安全测评未来展望23目录目录 CONTENTS五、促进我国人工智能安全发展的对策建议24（一）构建多层次的人工智能安全治理体系24（二）加快技术研发与自主生态建设25（三）完善人工智能安

4、全标准与测评体系26（四）加强伦理引导与公众教育27本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期1一、人工智能安全人工智能作为引领科技革命和产业变革的核心技术，已经深刻改变了社会各领域的运作模式。从 20世纪 50 年代人工智能概念的提出，到 21 世纪初机器学习的兴起，再到近几年深度学习和大模型的迅猛发展，人工智能在语音识别、图像处理、智能驾驶等多个领域取得了显著成果。尤其是 ChatGPT、Sora 等大模型的广泛应用，使得人工智能逐步渗透到人们的日常生活与工作中。然而，随着人工智能技术的普及化与复杂化，其安全问题日益凸显。一旦人工智能系统被滥用、误用或发生故障，不仅可

5、能带来经济损失，还可能对社会秩序、伦理道德乃至国家安全构成威胁。因此，全球各国逐渐将人工智能安全作为重要议题，开展相关研究与政策制定。人工智能安全可分为人工智能内生安全（AI Security）和人工智能衍生安全（AI Safety）。内生安全指的人工智能系统自身存在的脆弱性，可能导致系统运行出现问题，无法达到预设的功能目标。这往往源于新技术的不成熟，或是技术自身的天然缺陷。衍生安全则是指人工智能技术的脆弱性被利用，虽然其自身能够正常运行，但是危及其他领域的安全。这两方面共同构成了人工智能安全的核心内容，决定了人工智能技术能否在安全、可靠、可控的前提下持续健康发展。（一）人工智能内生安全人工智

6、能内生安全包括供应链安全、数据安全、算法安全三个层面。供应链安全：人工智能供应链安全是指在人工智能供应链的整个生命周期中，确保所涉及的训练框架、第三方库、操作系统、数据库、芯片、云服务等软硬件和服务的安本期主题：人工智能安全趋势研究专业就是实力精准就是品牌网络安全研究2024 年第 4 期2全性、完整性和可靠性。数据安全：人工智能数据安全是指通过采取必要措施，确保人工智能系统使用的数据得到有效保护，并且合法、安全地被利用，同时具备持续保障数据安全状态的能力。算法安全：人工智能算法安全是指在整个人工智能系统的设计、开发、部署和使用过程中，确保算法的公正性、透明性、鲁棒性和抗攻击能力，同时采取必

7、要措施保护算法免受未经授权的访问和篡改，以及确保算法的决策过程和结果合法、合规。（二）人工智能衍生安全人工智能衍生安全包括应用安全和伦理安全两个层面。应用安全：人工智能应用安全是指确保人工智能应用在实际操作中的安全性和可靠性，防止其被滥用或误用，保障应用的输出和行为符合预期。伦理安全：人工智能伦理安全是指在人工智能系统的整个生命周期中，确保其设计和行为遵循以人为本的原则，尊重并保护个人权利，促进社会价值和公共利益，同时避免产生不公平、歧视或责任不清等问题。二、人工智能安全风险分析为全面认识人工智能安全的现状，以下将从内生安全和衍生安全的这五个层面入手，具体分析当前人工智能安全的主要风险和应对手

8、段。（一）供应链安全人工智能的运行依赖硬件与软件两大基础。高端芯片、GPU、FPGA等硬件为人工智能训练与推理提供算力支持，训练框架、操作系统、数据库、云服务和第三方库为模型开发、数据处理与应用落地提供必要环境。一旦供应链中任一环节出现断供或自身安全问题，可能造成研发进度受阻、性能下降、数据泄露或恶意代码植入等后果，从而动摇整个人工智能系统的基础。因此，保障软硬件全链条的安全性，对于人工智能的持续健康发展至关重要。1.硬件供应链安全风险一是高端芯片以及关键器件的断供风险。近年来，围绕高端芯片供应的限制措施不断升级。2022 年10 月，美国商务部产业与安全局本期主题：人工智能安全趋势研究网络安

9、全研究2024 年第 4 期3（BIS）对先进芯片的出口实施管控，包括限制英伟达的 A100 和 H100 两款 GPU 对华输出。随后英伟达为规避管制，在 A100 和 H100 的基础上推出针对中国市场的“降级版”产品 A800 和 H800，但 2023 年 10 月BIS 再次强化限制，将 A800 和 H800纳入出口管制范畴。到 2024 年 12月，BIS 对华半导体出口管制措施进一步扩大，涵盖 24 种半导体制造设备、3 种相关软件工具以及高带宽内存（HBM）芯片等。上述规则的持续收紧表明，高端芯片和存储器等关键硬件的供应链已面临长期不确定性，可能对人工智能系统的算力供给与迭代

10、升级造成制约。二是以智能芯片为代表的硬件本身存在潜在的安全隐患。2024年1月，苹果、AMD、高通等多家主流厂商的 GPU 产品被曝出重大漏洞，攻击者可通过底层缺陷从 GPU 内存窃取数据，对运行在该硬件之上的人工智能模型产生影响。2024 年 10 月，高通公司发布安全警告称，其多达 64 款芯片组中的数字信号处理器（DSP）服务中存在“零日漏洞”，且该漏洞已出现有限且有针对性地利用迹象。2.软件供应链安全风险一是人工智能底层框架等基础软件被少数西方公司垄断带来的供应链脆弱性。谷歌的 TensorFlow 和Meta 的 PyTorch 在中国开发者使用的人工智能框架中超过 60%，英伟达的

11、 CUDA 并行计算架构占据垄断地位。这种格局使得下游研发和应用流程长期绑定于既定工具链，一旦供应方实施限制或技术支持中断，人工智能产业链在模型训练和推理、性能优化等方面将受到明显影响。二是底层框架、第三方库以及开源模型等软件潜在的漏洞与后门问题。随着人工智能应用不断扩张，操作系统、数据库、云服务以及训练框架的安全隐患正逐渐显现。例如，“tensrflwo”恶意代码包通过仿冒 TensorFlow 框架名称进行传播，在下架前累计被下载 870 余次，并通过国内镜像源持续传播。2024 年 10 月，字节跳动出现了一起重大模型投毒事件，攻击者利用HuggingFace 提供的 transform

12、ers代码库中 load_repo_checkpoint 函数的安全缺陷，在模型加载环节实施恶意代码注入，导致模型训练异专业就是实力精准就是品牌网络安全研究2024 年第 4 期4常。随着人工智能应用的不断推广，系统连接愈发密集，非法入侵的潜在触点也随之显著增加。（二）数据安全人工智能的能力高度依赖高质量且安全可靠的数据资源。然而，在模型训练和推理两个关键环节中，数据面临着多重安全风险，不仅威胁模型的性能和可靠性，还可能引发严重的社会和经济后果。如何有效应对数据安全挑战，已成为保障人工智能系统稳定运行的核心议题之一。1.训练阶段的数据安全风险一是数据投毒风险，攻击者通过植入偏见样本或不当内容

13、，导致模型输出偏差性甚至歧视性结果。2016 年，微软发布了一个名为 Tay的聊天机器人，该机器人能够从与Twitter 用户的对话中在线学习。然而，在短短 24 小时内，Tay 在部分用户的引导下开始发布不当言论，包括脏话和种族歧视等内容。主要是因为在对话数据集中被恶意增加了不当的数据，导致 Tay 学习并模仿这些不当行为。二是数据标注不规范风险。标注质量直接影响模型的有效性与可靠性，但即使是广泛用于人工智能训练的权威数据集，也并非完美无缺。麻省理工学院与亚马逊的研究人员对 10 个主流机器学习数据集进行评估后发现，平均有 3.3%的数据标注存在错误，知名数据集 ImageNet 和 CIF

14、AR-100的错误率甚至接近 6%。这意味着大量模型在无形中继承了错误标注所带来的偏差，进而影响对现实场景的判断与处理。当此类问题在自动驾驶、医疗诊断或公共安全等关键领域出现时，其影响已不再局限于模型性能的微小波动，而可能导致重大决策失误和安全隐患。2.推理阶段的数据安全风险一是用户无意向人工智能服务泄露机密信息。当用户与大模型等人工智能服务交互时，若缺乏安全意识与明确指引，可能将内部文件、商业机密及个人隐私信息直接输入系统，从而被模型记录并潜在扩散。2023 年 4 月，三星被曝光多起数据泄露事件，原因是三星允许半导体部门的工程师使用 ChatGPT修复源代码问题，至少有三名员工直接将新程序

15、的源代码本体、与硬本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期5件相关的内部会议记录等敏感数据以提问的方式输入给 ChatGPT。数据安全公司 Cyberhaven 调查显示，2.3%的员工会将公司机密数据粘贴到 ChatGPT 中，企业平均每周向ChatGPT 泄露机密材料达数百次。二是攻击者可以从模型中反向恢复训练数据，造成敏感信息泄露。研究发现，黑客可利用新的数据提取攻击方法从当今主流的大语言模型中大规模提取训练数据。现有的对齐与防护技术尚不足以彻底阻断数据提取攻击的途径，在缺乏安全措施的情况下，贸然训练和部署涉及敏感数据的人工智能应用可能引发严重后果。（三）算法安全

16、人工智能系统的底层算法是驱动智能决策和认知能力的核心，然而这一“智能中枢”在复杂现实环境中可能暴露出多重安全隐患，包括内在缺陷、决策过程不透明、对抗样本攻击和知识产权窃取等问题。这些隐患不仅威胁人工智能系统的性能和可靠性，还可能影响其决策的公正性，甚至对相关产业的价值和安全造成严重冲击。1.算法缺陷导致系统偏离预期人工智能系统在面对复杂场景时，可能因算法缺陷而偏离预期目标，造成重大损失。例如，2018 年3 月，Uber 自动驾驶汽车因机器视觉系统未能及时识别行人而发生致命事故。谷歌、斯坦福大学、加州大学伯克利分校和 OpenAI 的研究人员将算法模型设计和实施中的安全问题归纳为三类：一是目标

17、函数定义错误，设计者在设计目标函数时未能充分考虑运行环境的约束条件，导致算法执行过程中对周围环境产生负面影响；二是目标函数计算成本过高，算法被迫采用简化的替代方案，无法达到预期效果；三是模型表达能力不足，在面对训练数据集之外的新场景时容易产生错误结果。这些问题在大模型系统中表现得尤为突出，如 ChatGPT 等大模型在回答专业问题时可能生成貌似专业但实际错误的内容，即“幻觉”问题。目前，即便采用更大规模或更复杂的模型架构，也无法根本解决大模型的幻觉问题，这使得大模型的可靠性和能力备受质疑。专业就是实力精准就是品牌网络安全研究2024 年第 4 期62.算法黑箱阻碍监管审查随着深度学习等复杂模

18、型的普及，算法决策的不透明性问题愈发突出。即便是开发团队也难以完全解释 GPT 等大语言模型的推理过程。这种不透明性主要由三个因素造成：一是企业出于商业利益考虑而主动封闭算法细节；二是技术复杂度超出了普通用户的理解范围；三是深度神经网络本身的决策机制难以用简单逻辑解释。算法黑箱现象不仅影响了社会对人工智能的信任，也为监管工作带来了巨大挑战。3.对抗性攻击诱导系统错误判断对抗性攻击（Adversarial Attack）是指攻击者通过对输入数据进行精心设计的微小扰动，使得机器学习模型在感知上几乎无法察觉这些变化，但却会导致模型输出错误结果的一种攻击方式。这些扰动可能包括图像的像素级调整、语音信号

19、的微小变化，甚至文本中的无意义字符插入等。清华大学研究团队对主流商用模型的测试表明，通过精心设计的对抗样本，可以达到较高的攻击成功率：针对 GPT-4V 的攻击成功率为 45%，针对 Bard 的攻击成功率为 22%，针对 Bing Chat 的攻击成功率为 26%。除了传统的对抗样本外，提示注入等新型攻击手段也层出不穷。在 Chat with Code 插件事件中，攻击者通过注入特定提示词，成功控制人工智能系统执行未经授权的 GitHub 操作，包括创建仓库、更改代码库可见性等敏感行为。4.算法模型容易被窃取攻击人工智能算法模型作为使用大量数据和算力训练生成的关键数字资产，面临显著的窃取风险

20、。尤其是在云服务环境中，模型的存储、传输和运行均可能暴露于潜在威胁之下，攻击者可能通过物理攻击、网络抓包、内存转储等方式窃取模型核心参数。这不仅威胁模型的机密性，还可能造成知识产权泄露，进一步削弱企业在技术和市场中的竞争力。（四）应用安全人工智能的广泛应用为各行各业注入了前所未有的创新活力，但也伴随着日益突出的安全风险。人工智能的强大能力一旦被不法分子利用，会使传统防御手段逐渐失效，进而威胁用户隐私、社会秩序乃至本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期7国家安全。随着人工智能技术的复杂化和普及化，其潜在风险正以更广的范围、更深的程度影响社会运行。1.人工智能赋能网络攻击

21、人工智能为黑客带来了全新的攻击手段，使网络攻击更加高效且难以防范。网络安全公司 Home Security Heroes 的研究人员使用人工智能密码破解器 PassGAN 对超过 1568 万个密码进行了测试，发现 PassGAN 能在不到 1 分钟的时间内破解 51%的密码。随着生成式人工智能技术的兴起，基于大模型的网络攻击也在显著增长。网络安全公司 Enea 的数据显示，自 2022 年11 月 ChatGPT 发布以来，网络钓鱼攻击整体增加了 1265%。同时，暗网上出现了 WormGPT、PoisonGPT、EvilGPT 等多种恶意大模型，这些模型基于有害语料库训练，专门用于网络钓鱼

22、、恶意代码生成等非法活动。此外，多个有国家背景的APT 组织已开始将生成式人工智能技术用于网络攻击，显著提高了攻击的隐蔽性和精准性，特别是针对关键信息基础设施的网络攻击正变得更加自动化和智能化。近年来，针对政府、军工、能源、电力、金融、交通、通信等关键领域基础设施的攻击层出不穷。这些情况表明，人工智能技术正在显著改变传统的网络攻击模式，传统的防御体系面临严峻挑战。2.人工智能合成虚假内容人工智能技术的迅猛发展，尤其是生成对抗网络（GAN）等深度学习的应用，大幅提升了虚假内容的生成能力，深度伪造（Deepfake）技术正是其中的典型代表。通过深度学习算法，攻击者能够生成高度逼真的虚假视频、音频或

23、图像，用于多种非法活动，严重威胁社会信任与安全。例如，2024 年香港发生了一起利用深度伪造换脸技术实施的诈骗案，犯罪分子冒充公司高层，通过视频通话骗取了 2 亿港元。此外，生成式人工智能还被用于伪造虚假新闻、虚假身份和虚假广告等，致使大量公众被骗，造成严重经济损失。根据奇安信的数据，2023 年基于人工智能的深度伪造欺诈案件激增了 3000%，显示出不法分子对这类技术的滥用正在迅速扩展。这专业就是实力精准就是品牌网络安全研究2024 年第 4 期8类虚假内容的生成不仅成本低、效率高，还具有极高的迷惑性，显著增加了公众识别虚假信息的难度，进一步扩大了其传播范围和社会危害。同时，深度伪造技术的

24、广泛应用也对国家安全带来了重大威胁。通过伪造政府领导人发布的虚假视频或言论，可能制造社会恐慌，削弱公众对政府的信任，从而动摇国家治理的基础。3.人工智能带来军事威胁人工智能技术的迅猛发展显著增强了军事领域的攻击能力，正在重塑现代战争形式。以无人武器为代表的智能化军事装备，通过人工智能技术实现了目标的自动识别、跟踪和攻击，大幅提升了作战效率和精准性。例如，攻击型无人机利用图像识别和自主决策技术，能够在复杂战场环境中快速锁定目标并独立完成打击任务，这类无人武器的广泛应用降低了传统军事行动对人力的依赖。此外，人工智能的军事化应用正在引发新一轮的军备竞赛。各国纷纷加速研发和部署人工智能驱动的武器系统，

25、以争夺技术优势。美国的“联合全域指挥与控制”（JADC2）系统将人工智能技术融入指挥和控制系统，提升跨域作战能力；俄罗斯也在积极推进智能无人武器和自动化指挥系统的开发。这种技术竞争不仅加速了武器系统的智能化，也使冲突的门槛显著降低，增加了军事对抗的复杂性。（五）伦理安全人工智能技术的迅猛发展在推动社会生产力提升的同时，也带来了诸多深刻的伦理挑战。这些挑战涵盖了道德观念的冲击、就业结构的改变、算法偏见的显现、自主决策带来的争议以及知识产权纠纷的增加，深刻影响着社会的公平与稳定。1.人工智能冲击传统道德观念人工智能技术的广泛应用在带来便利的同时，也对传统道德观念形成了深刻冲击。利用人工智能技术“复

26、活”逝者的形象或声音，虽然可以缓解亲属的思念之情，但也可能侵犯个人隐私和人格权，甚至引发伦理困境。例如，未经许可复刻逝者的声音或影像，可能被用作商业牟利或误导公众的工具。此外，人工智能伴侣的兴起通过模拟情感本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期9与人类互动，改变了人际关系的传统模式。这不仅可能导致人与人之间的真实关系淡化，还可能引发社会孤独感加剧、情感依赖失衡等问题。2.人工智能造成群体失业人工智能的广泛应用在提高效率的同时，也对传统就业岗位产生冲击。例如，自动驾驶技术的迅速发展正在改变交通运输行业的就业结构。以中国的自动驾驶出租车服务商“萝卜快跑”为例，该公司通过人

27、工智能技术实现了无人驾驶出租车的规模化运营，在 2024 年已覆盖北京、上海、武汉等多个城市，并获得了显著的市场认可。然而，这种创新模式虽然大幅降低了人力成本和运营费用，却对传统司机岗位构成了潜在威胁。类似的情况还出现在制造业、零售业等其他行业中，人工智能驱动的自动化生产线、智能客服和无人超市等技术正在逐步替代人工劳动力。这一趋势不仅引发了广泛的社会担忧，也对就业结构调整和社会保障体系提出了新的要求。3.人工智能算法含有歧视偏见人工智能算法在处理数据时，常因训练数据的偏差、标注错误或样本不足而产生歧视性结果，这种偏见在招聘、贷款审批、医疗诊断等关键领域表现得尤为明显。例如，一些基于历史数据训练

28、的招聘算法因数据集中男性求职者的比例较高，倾向于优先筛选男性候选人，从而强化了性别歧视的现象。在贷款审批领域，人工智能系统也可能会因为训练数据中的种族或地区偏见，导致某些群体的贷款通过率显著低于其他群体，进一步限制了这些群体的经济机会和社会流动性。4.人工智能带来自主决策风险人工智能在一些关键场景中的自主决策能力正引发伦理与安全领域的深刻关注，尤其是在涉及生死抉择的情况下。例如，在自动驾驶领域，车辆在面对紧急情况时可能需要做出类似“电车难题”的选择是优先保护车内乘客，还是避免对行人造成伤害。这类复杂的决策涉及多方利益和价值观的权衡，无论最终选择如何，都可能引发社会争议，并对人工智能技术的专业就

29、是实力精准就是品牌网络安全研究2024 年第 4 期10公众信任度造成冲击。在军事领域，自主武器系统的应用进一步放大了这一问题的影响。无人武器通过预设算法独立选择目标并执行致命打击任务，意味着发动致命打击的权力被赋予人工智能，而非人类指挥官，可能加剧军事冲突的不可控性，为人类带来无法预料的后果。5.人工智能引发知识产权争议人工智能技术的应用可能涉及对原创作品的模仿或再创作，进而引发了知识产权领域的复杂问题。一方面，部分人工智能通过大量受版权保护的图片、文字或音乐数据来进行训练，而这些数据的使用常常未经过权利人的许可，成为版权纠纷的核心争议点。另一方面，人工智能生成的作品是否具备独创性以及如何

30、界定创作权，一直是法律和学术界讨论的热点。2024 年 1 月，中国首例人工智能生成图片著作权侵权案判决中，法院认定人工智能生成的图片具有独创性，符合作品的定义，受著作权法保护。三、人工智能安全解决方案和技术趋势当前，业界在数据安全、算法防御、生成内容检测与溯源、模型透明性提升等领域展开了深入探索，通过多样化的技术手段为人工智能系统提供全方位的安全保障。本节将围绕这些技术热点，系统梳理人工智能安全的最新解决方案及其未来发展趋势，探讨如何以技术手段实现更加安全、可靠的人工智能应用。（一）数据安全与隐私保护1.机密人工智能机密人工智能（Confidential AI）是一种使用机密计

31、算（Confidential Computing）技术来保障人工智能系统安全的新型解决方案，其核心依赖于可信执行环境（Trusted Execution Environment，TEE）。TEE 是一种硬件级的隔离技术，它能够在处理器内部划分出一个独立、安全的区域，用于存储和处理敏感数据。该区域对外完全封闭，即使是操作系统、虚拟机管理程序甚至设备管理员，也无法访问其中的数据和计算过程。通过这种方式，TEE 确保数据在使用过程中始终受到保护，不会被泄露或篡改。机密人工智能通本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期11过将人工智能模型的训练、推理等任务置于 TE

32、E 中，从而为人工智能的全生命周期提供“使用中”的安全保障，尤其适用于对数据隐私和安全性要求极高的场景。在人工智能模型的训练和推理过程中，数据在进入 TEE 后会被解密以进行计算，而外部环境无权访问 TEE 内部的任何内容，这有效避免了数据在运行中被窃取或篡改的风险。此外，TEE 提供的远程证明（Remote Attestation）功能可以验证运行环境的完整性和可信度，确保模型及其执行环境未被篡改。这一功能在医疗、金融等对数据安全要求极高的场景中至关重要。未来，机密人工智能的发展将沿着以下几个方向逐步推进。一是硬件技术的持续创新。最初 TEE 主要部署在 CPU 上，随着人工智能模型对计算性

33、能和效率要求的不断提升，TEE 的应用已逐步扩展至 GPU。例如，NVIDIA 的 Hopper 架构 GPU引入了 GPU TEE 功能，通过硬件隔离创建可信执行区域，使得大规模人工智能模型的训练和推理不仅能保持高效的计算性能，还能实现“使用中”数据的全程加密和保护。这种技术的进一步推广将显著提升人工智能系统在高复杂性和高安全需求场景中的应用潜力。二是标准化建设的不断完善。随着机密人工智能技术应用范围的扩大，对全球技术标准、接口规范和安全评估体系的需求日益迫切。通过建立统一的技术标准，不仅能够提升不同技术和平台之间的互操作性，还能在跨行业和跨机构的数据协作中提供更稳固的信任基础。三是技术

34、协同和场景融合的加深。机密人工智能将与联邦学习、差分隐私等技术紧密结合，通过多种手段共同提升人工智能系统的整体安全性。此外，机密人工智能将在金融、医疗、工业制造等高安全需求领域得到深入应用。2.联邦学习联邦学习（Federated Learning）是一种分布式机器学习框架，旨在在保护数据隐私的前提下，实现多方联合建模。其核心特点是数据不出本地，拥有数据的各方仅通过交换中间计算结果（如模型参数或梯度）完成模型训练，从而实现专业就是实力精准就是品牌网络安全研究2024 年第 4 期12“数据可用不可见”。这一技术广泛应用于数据隐私保护需求较高的场景，如金融、医疗和政务领域。根据参与各方数据源分

35、布的情况不同，联邦学习可以分为横向联邦学习、纵向联邦学习、联邦迁移学习三类。横向联邦学习适用于参与方数据特征一致但样本不同的场景，如不同地区的银行共享客户行为数据；纵向联邦学习适用于样本重叠但特征不同的场景，如银行与电商企业合作分析客户行为特征；迁移联邦学习则适用于样本和特征均无重叠的场景，依赖迁移学习（Transfer Learning）技术提升模型效果。此外，联邦学习还可按架构分为中心化和去中心化两种模式，前者通过中央服务器协调训练过程，后者则通过分布式协作避免对中央节点的依赖。不同类别的联邦学习为不同行业和场景的联合建模需求提供了多样化解决方案。目前业界有多款主流的联邦学习框架，由

36、不同团队开发，为数据隐私保护和分布式协作建模提供了有力支持。谷歌推出的 TensorFlow Federated（TFF）专注于联邦学习的模拟和研究，提供了灵活的接口来实现分布式环境下的模型训练。PySyft 由 OpenMined 开发，基于PyTorch，为联邦学习场景中的多方安全计算和差分隐私应用提供支持。FedML 是初创公司 FEDML 开发的框架，强调联邦学习的统一实现，适合跨设备和大规模分布式联邦学习任务。微众银行主导开发了FATE（Federated AI Technology Enabler），作为一款开源框架，支持横向联邦、纵向联邦以及基于安全多方计算的学习任务，广泛应

37、用于金融和医疗等行业。百度推出的PaddleFL 基于飞桨平台，提供了易用的联邦学习工具，支持多种分布式计算模式。这些框架专注于联邦学习技术的落地应用，推动了数据协作和隐私保护在各行业的实践与发展。随着人工智能和大数据技术的迅速发展，联邦学习正呈现出以下几大趋势。一是算法优化和通信效率的持续提升，为了缓解通信带宽压力，新型压缩算法不断涌现，使模型参数传输更加高效，同时确保训练效果。二是隐私保护机制的不本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期13断完善，同态加密和差分隐私等技术被逐步引入联邦学习框架，大幅增强数据安全性，为敏感数据的协同计算提供可靠保障。三是多设备、多模态

38、数据融合的发展方向正逐渐成为研究热点。应对异构数据源及设备能力差异的挑战，设计更高效的协作机制，是提升联邦学习实际应用价值的关键。四是与区块链技术结合，提供了全新的信任解决方案，为多方参与的联邦学习创造了更安全可信的环境。随着企业和组织对数据隐私保护与分布式智能需求的日益增长，联邦学习将进一步扩展应用场景，推动技术进步并解决实际问题，为人工智能技术在各行业的落地带来更多可能性。（二）算法安全与模型防护1.对抗性机器学习对抗性机器学习（Adversarial Machine Learning，AML）是一个研究机器学习算法攻击与防御的领域，其核心在于揭示对抗性攻击如何威胁模型的性能和可靠性，

39、以及开发有效的防御策略以抵御此类攻击。这一领域随着人工智能技术在自动驾驶、医疗诊断和语音识别等高风险场景中的应用而迅速兴起。对抗性攻击不仅可能导致模型输出错误的预测，还可能泄露敏感数据或对关键系统造成破坏，因此，研究对抗性机器学习对于确保人工智能系统的安全性至关重要。为应对对抗性攻击，研究者提出了多层次的防御策略。在模型训练阶段，对抗性训练被广泛采用，通过在训练数据中引入对抗样本，模型能够更好地应对恶意输入的扰动，提升其鲁棒性。除此之外，模型的鲁棒性优化也是关键策略之一，通过优化损失函数和加入正则化约束，能够有效降低模型对小幅输入变化的敏感性。在模型的运行阶段，输入数据的实时监控和检测同样至关

40、重要，利用检测算法识别输入的异常特征，可以阻止对抗性样本对模型的攻击。未来，对抗性机器学习的发展将着重于以下这些方向。一是应对更加复杂和多样化的威胁场景。随着多模态人工智能技术的快速崛起，单一模态的防御措施已无法有效应对新的攻击挑战。未来的研究将着力于跨模态防御技术的发展，专业就是实力精准就是品牌网络安全研究2024 年第 4 期14例如，整合图像、文本和音频等多模态数据的联合防御机制，以提高模型在多场景、多形式威胁中的鲁棒性和适应能力。二是推动自动化防御工具的研发和应用。自动化防御将成为提升模型安全性的重要手段，例如，利用生成对抗网络设计动态防御系统，可以实时生成针对不同攻击类型的防御策略

41、，从而对抗复杂的对抗样本生成手段。这些自动化工具能够显著降低人工干预的需求，提高模型应对新型攻击的效率和效果。2.模型水印技术模型水印技术是一种保护人工智能模型知识产权的重要方法，通过在模型中嵌入不可见的标识信息（即数字水印）来实现。这些标识信息可以用来验证模型的归属和合法性，以防止模型被非法复制或滥用。模型水印技术通常包括两个核心步骤：植入水印和提取水印。在模型开发和训练阶段，研究者通过特定策略将数字水印嵌入到模型的参数、结构或行为中；在举证阶段，从目标模型中提取水印信息，并将其与最初嵌入的水印进行比对，以确认是否存在侵权行为。现有的模型水印技术在水印的植入和提取策略上有所不同。从提取方式来

42、看，大多数技术通过观察模型的输出来提取水印，这意味着水印的举证主要依赖于目标模型的输出结果。这类方法具有较强的适用性，特别是在黑盒环境中进行模型保护时效果显著。此外，另一部分技术将水印直接嵌入到模型的文件结构中，而不显现于输出结果。这类方法需要在白盒环境中访问目标模型的内部结构和参数以验证水印的存在，适合更高价值模型的知识产权保护场景。模型水印技术的发展趋势可以归纳为三个主要方向。一是增强水印抵御攻击的能力。面对模型压缩、剪枝、量化和微调等多种攻击手段，研究者们正在探索更鲁棒的水印嵌入和检测方法，以确保水印在恶意修改后仍能被可靠识别和验证。二是减小水印对模型可用性的影响。在嵌入水印的同时尽量保

43、持模型性能和输出质量，确保水印不会对模型的准确性和功能性造成显著损害，从而满足实际应用需求。三是本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期15提升水印验证过程的隐蔽性。通过引入零知识证明等技术，开发能够在验证过程中保护模型内部信息的水印方案，从而防止模型在验证过程中被第三方滥用。这种隐蔽性验证方案的成熟将显著提升水印技术的安全性和实用性。（三）人工智能生成内容检测和溯源1.AIGC 检测技术AIGC（人工智能生成内容）检测技术是一种通过算法和工具识别由人工智能生成内容的技术，旨在保障数字信息的真实性、可信度和原创性。随着生成式人工智能（如ChatGPT、Midjourne

44、y 等）的广泛应用，人工智能在文本、图像、音频和视频等领域的生成能力日益增强，但也带来了虚假信息传播、版权争议和伦理风险等挑战。AIGC 检测技术通过分析不同模态内容的特征，判断其是否由人工智能生成，从而应对这些挑战。在文本检测中，可通过分析语言模式、句法结构、词汇使用习惯以及语义一致性等特征，识别人工智能生成文本的痕迹。例如，人工智能生成的文本可能表现出过度使用某些连接词、模式化的表达方式或缺乏人类写作的随机性和多样性。在图像检测中，通过分析纹理、光影、细节一致性以及像素间的相关性，发现生成图像的异常。例如，生成对抗网络（GAN）生成的图像可能在频域上留下特定的伪影，或在高频纹理区域表现出与

45、真实图像的显著差异。在音频和视频检测中，通过关注音调、频谱的机械特征以及帧间过渡的平滑性和跨模态一致性，以识别人工智能生成内容的特征等等。目前，国内外已经出现了多款用于检测 AIGC 的工具，通过不同的技术手段来识别文本、图像、音频等内容是否由人工智能生成，帮助用户确保信息的真实性和可靠性。例如，GPTZero 是一款专注于文本检测的工具，尤其擅长识别由 GPT系列模型生成的内容，通过分析文本的“困惑度”和“突发性”等特征来判断其来源，广泛应用于教育领域，帮助教师检测学生作业是否由人工智能代写。Deepware 则专注于检测深度伪造（Deepfake）内容，尤其是视频和图像，利用计算机专业就是

46、实力精准就是品牌网络安全研究2024 年第 4 期16视觉技术分析视频中的面部表情、光线和运动轨迹，识别出人工智能生成的虚假内容，在新闻媒体和公共安全领域具有重要应用价值。AIGC-X 是由人民日报社主管、依托人民网建设的传播内容认知全国重点实验室推出的 AIGC 检测工具，对中文文本的检测准确率超过 90%，能够快速区分机器生成文本与人工生成文本，适用于假新闻、内容抄袭、垃圾邮件等场景的检测。这些工具在应对人工智能带来的安全挑战中发挥了重要作用，为用户提供了可靠的内容检测解决方案。随着生成式人工智能技术的快速发展，AIGC 检测技术也在不断演进。一是检测技术的持续迭代与改进。包括开发更先进

47、的算法，增强模型的鲁棒性，以应对新出现的生成式人工智能算法和对抗性干扰手段。二是实时检测与低延迟需求的增加。随着 AIGC 在社交媒体、新闻等领域的广泛应用，实时检测变得至关重要。未来的检测工具需要能够在用户交互过程中即时识别AIGC，例如通过 API 集成到内容管理系统中，提供实时反馈。这种实时性不仅提高了内容发布的效率，还能有效遏制虚假信息的传播。三是跨语言与多模态检测的挑战与应对。AIGC 可能涉及多种语言和多种模态的组合，这对检测技术提出了更高的要求。例如，研发能够处理多种语言的检测模型，并建立有效的融合机制来整合不同模态的特征，从而提高检测的准确性和可靠性。2.AIGC 水印技术AI

48、GC 水印技术是一种通过在生成内容中嵌入隐蔽标识，实现内容溯源、真实性验证和使用管理的技术。与模型水印技术的区别在于，AIGC 水印技术是针对人工智能生成内容进行标识，如文本、图像、音频等，目的是对内容的来源和用途进行追踪和验证；而模型水印技术则聚焦人工智能模型本身，通过嵌入标识保护模型的知识产权和归属权。水印可以融入到 AIGC 的不可见区域，例如文本的语序结构、图像的像素细节或音频的频谱特征，从而不影响内容的质量和感知效果。根据嵌入方式的不同，AIGC 水印分为内置水印和外置水印两种形式。内置水印是在生成内容时直接嵌本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期17入，与

49、内容生成过程紧密结合，具有较强的鲁棒性和实时性，适用于动态生成的文本、图像、音频等内容。外置水印则是在生成内容完成后通过后处理方式添加，将标识嵌入到数据的非显性区域，这种方式适用于需要后续处理的场景，但在鲁棒性上可能略逊于内置水印。AIGC 水印技术的主要功能是溯源和鉴别。通过水印，生成内容可以被追踪到具体的模型或平台来源，便于确定内容的责任主体和生成背景。这对于打击内容滥用、追责和版权保护尤为重要。此外，水印还能帮助区分 AIGC 与自然生成内容，为用户和平台提供鉴别依据，提升内容可信度。对于需要合规管理的领域，水印技术还可用于内容的分级管理和用途限制，防止不当使用和传播。AIGC 水印技术

50、的发展趋势包括以下几个方面。一是平衡不可感知性与鲁棒性。在水印技术的发展中，不可感知性和鲁棒性常常存在权衡。不可感知性要求水印对用户不可察觉，确保内容质量不受影响；而鲁棒性则要求水印能够在面对压缩、剪切、添加噪声等破坏性操作时依然稳定可靠。未来的研究重点在于通过优化嵌入算法和深度学习模型，设计既能保证高不可感知性又具有强鲁棒性的水印方案。二是探索水印技术在更多模态中的应用。随着 AIGC 的多样化，水印技术的应用场景也在不断拓展。除传统的图像、文本、音频和视频外，未来水印技术将在 3D 模型、VR 内容以及多模态交互内容中发挥更大作用。这需要研究针对这些复杂数据结构的水印嵌入和提取技术，同时确

51、保水印在多模态内容转换或合成过程中仍具备不可感知性和鲁棒性。三是 AIGC 水印技术的标准化。随着生成内容的广泛应用，制定统一的技术标准和规范将变得愈发重要。这不仅能确保不同平台和技术之间的互操作性，还能通过与法律法规的结合，为 AIGC 内容生态的健康发展奠定基础。（四）人工智能透明度和信任构建1.可解释人工智能可解释人工智能（Explainable AI,XAI）是一种旨在提升人工智专业就是实力精准就是品牌网络安全研究2024 年第 4 期18能模型透明性的方法，通过提供对模型决策过程和预测结果的清晰解释，帮助用户理解模型的工作机制及输出的合理性。在人工智能的发展中，模型复杂性与预测能力

52、之间存在一个基本的权衡：模型越复杂，其预测能力往往越强，但可解释性往往越弱。简单模型（如线性回归、逻辑回归）由于结构直观，易于理解，但在处理复杂任务时预测能力有限；而复杂模型（如深度学习、随机森林）能够在大规模数据中实现高性能预测，却由于其内部逻辑的高度复杂性，被视为“黑箱”，难以解释其决策的依据。可解释人工智能技术主要分为两大类：可解释模型（Interpretable Models）和后解释技术（Post-hoc Interpretations）。可解释模型是指在模型设计之初就以透明性为目标的模型，例如线性回归、逻辑回归和决策树等等。这些模型的优势在于它们的简单性和可解释性，用户可以直接理解

53、模型的预测依据和决策过程。然而，这类模型在复杂数据集中的表现往往不如深度学习等复杂模型。后解释技术是在复杂的“黑箱”模型（如深度神经网络）基础上，通过额外的工具和方法对模型输出进行解释，分为三种类型。一是模型无关技术（Model-agnostic Techniques），这种方法可以应用于任何机器学习模型，重点在于分析输入与输出之间的关系。例如，基于 Shapley 值的游戏理论方法可以量化每个特征对预测结果的贡献，而 LIME（局部可解释模型无关方法）通过扰动输入数据，构建线性近似模型来解释复杂模型的局部行为。二是模型专属技术（Model-specific Techniques），这种方

54、法专门为某些特定模型设计，例如卷积神经网络或支持向量机。这些技术利用模型内部的特定结构（如卷积层的激活）生成可视化的解释，帮助用户理解模型如何从数据中提取模式。三是半模型无关技术（Model-semi-agnostic Techniques），这种方法适用于某些特定类别的模型，例如深度神经网络，通过整合梯度或反向传播的方法来生成解释。通过这些技术，可解释人工智能可以帮助用户理解模型的预测依据，不仅增强了人工本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期19智能系统在医疗、金融和网络安全等关键领域的适用性，也为其进一步推广奠定了信任基础。可解释人工智能的未来发展趋势包括以

55、下这些方面。一是在安全关键场景（如医疗、金融）中，直接构建具备解释能力的人工智能模型将成为研究重点。这类模型不仅能够提升对人工智能决策的信任，同时也为高风险领域的合规性和安全性提供保障。未来，研究将致力于在模型训练阶段融入解释机制，使模型能够在预测结果的同时生成清晰可理解的解释内容。二是解决性能与可解释性之间的权衡问题。在提升模型可解释性的同时，往往需要简化模型的结构，这可能导致性能下降。而在许多场景中，例如时间敏感的任务，高性能是不可或缺的。未来的发展方向是通过模型优化与混合方法，平衡性能与可解释性，为多样化应用提供支持。三是加强可解释人工智能系统的标准化。由于不同应用对模型的设计目标各不相

56、同，如透明性、公平性和鲁棒性，统一的标准和评估框架将是未来的重要研究方向。通过建立明确的评价指标，能够更好地衡量可解释人工智能系统的效果和可靠性。四是增强实时解释能力。在自动驾驶、医疗监测等需要即时反馈的场景中，实时生成解释至关重要。未来的研究将聚焦于优化计算效率、开发并行处理技术，以及引入高效的混合算法，确保系统能够在高数据量和低延迟的条件下实现快速响应。2.人工智能对齐人工智能对齐（AI Alignment）是确保人工智能系统的行为与人类的意图、价值观和道德标准保持一致的关键研究领域。随着人工智能尤其是大模型的快速发展，人工智能对齐的重要性日益凸显。其核心目标是防止人工智能系统在追求目标时

57、偏离人类的期望，甚至可能带来灾难性后果。人工智能对齐的宏观目标可以总结为 RICE 原则：鲁棒性（Robustness）、可解释性（Interpretability）、可控性（Controllability）和道德性（Ethicality）。鲁棒性确保人工智能系统在各种环境下都能稳定运行，抵御意外干扰和对抗性攻击；专业就是实力精准就是品牌网络安全研究2024 年第 4 期20可解释性使人类能够理解人工智能的决策过程，增强透明度和信任；可控性确保人工智能系统的行为始终处于人类的监督和干预之下；道德性则要求人工智能在决策和行动中遵循社会公认的道德规范，尊重人类价值观。这些原则共同

58、构成了人工智能对齐的基础，旨在实现人工智能的安全、可靠和可控发展。目前常见的人工智能对齐技术主要包括以下几种。一是人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF），通过人类反馈数据训练奖励模型，再利用强化学习算法对模型策略进行优化，旨在使模型的输出更符合人类的期望和价值观。二是人工智能反馈强化学习（Reinforcement Learning from AI Feedback，RLAIF），利用强大的语言模型提供反馈代替人类标注，从而降低数据收集成本，其实现包括人工智能批判性地审查和修订响应以及基于人工智能偏好数据

59、优化模型策略。三是近端策略优化（Proximal Policy Optimization，PPO），作为一种常用于强化学习的算法，PPO 通过约束模型策略与参考模型的 KL 散度，平衡奖励优化与模型生成的多样性，常与人类反馈强化学习结合使用。四是直接偏好优化（Direct Preference Optimization，DPO），通过直接优化人类偏好数据，避免了显式奖励模型的训练过程，同时利用预训练模型作为参考策略直接调整模型策略以符合偏好，从而简化对齐流程，但对数据质量要求较高。这些技术在不同场景中各有优势，为人工智能模型的对齐提供了有效的解决方案。当前，人工智能对齐的发展呈现

60、出几个重要趋势。一是多模态对齐。未来人工智能系统将更注重对文本、图像、语音等多种模态数据的整合能力，以提升对复杂任务和多样化场景的适应性，实现更全面的智能交互。二是个性化对齐。在确保模型遵循普遍价值观的同时，进一步使人工智能的行为和输出符合个体用户的偏好和需求，通过定制化服务为用户提供更精准的体验。三是合成数据的广泛应用。合成数据的最大优势在于可以大幅提本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期21升对齐数据的获取效率，降低对人工标注的依赖，同时解决数据获取瓶颈，为人工智能模型提供高质量、低成本的训练数据支持。这些趋势标志着人工智能对齐技术正朝着智能化、多样化和高效化方向

61、快速发展。四、人工智能安全测评趋势随着人工智能技术在关键领域的广泛应用，系统的安全性和可靠性成为保障其长远发展的核心需求。安全测评作为人工智能技术落地和信任构建的重要环节，不仅能够发现潜在风险，还能为系统改进提供指导依据。本节将重点分析人工智能安全测评的最新进展，探讨技术创新方向与行业应用场景，为构建完善的安全评估体系提供借鉴。（一）人工智能安全测评标准近年来，人工智能安全测评标准在国内外均取得了一些重要进展。国内方面，2020 年 7 月，国家标准委、中央网信办、国家发展改革委、科技部、工业和信息化部联合印发了国家新一代人工智能标准体系建设指南，形成了标准支撑人工智能高质量发展的新格

62、局。2023 年 8 月，国家市场监督管理总局、国家标准化管理委员会发布了信息安全技术机器学习算法安全评估规范，规定了机器学习算法技术和服务的安全要求与评估方法，以及机器学习算法安全评估流程，指导相关方保障机器学习算法生存周期安全及开展机器学习算法安全评估。2023 年 5 月，全国信息安全标准化技术委员会发布了国家标准信息安全技术人工智能计算平台安全框架征求意见稿，该标准规范了人工智能计算平台安全功能、安全机制、安全模块以及服务接口。2024 年 3 月，全国网络安全标准化技术委员会发布行业标准 TC260-003网络安全技术生成式人工智能服务安全基本要求，规定了生成式人工智能服务在安

63、全方面的基本要求，包括语料安全、模型安全、安全措施等，并给出了安全评估要求，包含超过 2000 个高质量测试问题，分为 5大类、31 子类、1000 多个风险主题，支持全面的风险安全评测。此外，还有 GB/T 418192022 信息安全技术人脸识别数据安全要专业就是实力精准就是品牌网络安全研究2024 年第 4 期22求、GB/T 417732022信息安全技术步态识别数据安全要求、GB/T 418072022信息安全技术声纹识别数据安全要求、GB/T 418062022信息安全技术基因识别数据安全要求4 项数据安全标准，规定了对人脸识别、步态识别、声纹识别、基因识别的数据收集、

64、存储、传输、使用、加工、提供、公开、删除等数据处理活动的安全要求。国际方面，国际标准化组织（ISO）在人工智能领域已开展大量标准化工作，并专门成立了 ISO/IEC JTC1 SC42 人工智能分技术委员会。2023 年，发布信息技术-人工智能-风险管理指南，为开发、生产、部署或使用利用人工智能的产品、系统和服务的组织提供了如何管理与人工智能相关的风险的指导。2022 年，发布信息技术-人工智能-机器学习分类性能的评估，指定了用于测量机器学习模型、系统和算法分类性能的方法，提供了衡量分类器性能的一套基本度量指标，如准确率、召回率、F1分数等。2024 年 4 月，世界数字技术学院（WDTA）发

65、布了生成式人工智能应用安全测试和验证标准和大语言模型安全测试方法两项国际标准。生成式人工智能应用安全测试和验证标准涵盖了人工智能应用程序生命周期中的关键领域，包括基本模型选择，检索增强生成设计模式中的嵌入和向量数据库，提示执行/推理，代理行为，微调，响应处理和人工智能应用程序运行时安全性。大语言模型安全测试方法提出了针对大语言模型的全面安全风险分类、攻击分级及测试评估方法，旨在提升人工智能系统安全性与可靠性。2024 年 9月，世界数字技术学院（WDTA）发布了国际标准大模型供应链安全要求，提供了覆盖大模型全生命周期的多层次安全管理框架，旨在确保供应链各环节的安全性、促进国际合作与行业健康发展

66、。（二）人工智能安全测评平台和工具随着人工智能的发展，人工智能安全测评领域涌现出多种测评工具和平台，用于评估人工智能系统的安全性、发现潜在风险并提供改本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期23进建议。一是综合性人工智能安全测评平台。这些平台提供全面的人工智能系统安全评估服务，涵盖从数据到模型、算法、框架以及系统的多层面全方位评测。例如，浙江大学区块链与数据安全全国重点实验室开发了人工智能安全评测平台AIcert，该平台集成了多层面全栈威胁感知、多维度安全评估和模型自动化安全评测等先进技术，可以对人工智能系统的数据、模型、算法、框架、系统等层面进行全栈安全评测，并从鲁棒

67、性、可用性、可解释性等六大维度对系统安全进行评估。瑞莱智慧开发了人工智能安全评测平台 RealSafe 3.0，该平台集成了一系列主流及独有的安全评测技术和方法，提供了从数据准备、模型训练到部署运维整个生命周期的全面安全解决方案。二是对抗性攻击工具。可评估模型在面对不同强度和类型的对抗性攻击时的表现，测评指标可包括攻击成功率、扰动大小、标准模型准确率下降程度等。例如，IBM Research 开发了Python 库 Adversarial Robustness Toolbox（ART），旨在帮助研究者和开发者评估和增强机器学习模型（尤其是深度学习模型）对于对抗性攻击的鲁棒性。ART 提供了一套

68、全面的工具和方法，可以用于对抗性攻击生成、鲁棒性评估、防御机制测试、模型解释性与公平性分析等。微软开发了人工智能安全风险评估工具 Counterfit，用于渗透测试，能够评估人工智能系统的漏洞，特别是针对对抗性攻击。三是模型内部检查与透明度工具。这类工具主要用于深入分析模型内部结构，评估其决策过程，并确保模型行为的透明性和可解释性。例如，英国人工智能安全研究所推出 Inspect平台，内含三个基本模块：数据集、求解器（Solvers）和评分器（Scorers）。三者相互结合，可以实现对于人工智能核心知识、推理和自主能力的深入测试，并最终生成详细的安全评分。（三）人工智能安全测评未来展望一是标准

69、体系规范与国际化发展。为了确保人工智能系统的安全性、可靠性和公平性，国际组织和地区政府正在积极制定和推广一系专业就是实力精准就是品牌网络安全研究2024 年第 4 期24列人工智能安全测评标准。国际合作也日益紧密，各国和国际组织共同努力，制定通用的基础测评准则，以确保不同地区、不同领域的人工智能产品在安全评估上实现统一的“度量衡”。同时，各行业根据自身特殊需求，基于通用测评准则细化行业专属测评指标，使测评标准更贴合行业特性，保障专业应用的安全性。二是技术创新与多元化发展。智能化测评工具的不断涌现为人工智能安全测评带来了新突破。这些工具具备自适应学习和自动化测试等功能，能够根据被测系统的特性和

70、运行环境动态调整测评策略，从而显著提升测评的全面性与精准度。此外，新兴技术的应用也在不断提升测评的效率和精度。例如，区块链技术可以用于追溯人工智能模型训练数据的来源，确保数据的真实性与完整性；量子计算技术则有望突破现有算力瓶颈，加速复杂模型的安全分析，实现更快速、精准的漏洞检测。三是测评方案定期更新与监测动态化发展。在人工智能技术快速迭代的背景下，测评方案需要与时俱进，定期优化和更新，紧密跟随技术发展步伐，以有效应对日益复杂的安全风险。同时，针对系统运行状态的动态监测需求日益迫切。通过传感器与智能算法，可以精准、即时地捕捉系统性能波动、异常数据访问等安全隐患，从而实现对安全问题的实时预警和有效

71、防控。五、促进我国人工智能安全发展的对策建议（一）构建多层次的人工智能安全治理体系一是建立多元的人工智能分类分级管理机制。借鉴数据分类分级管理经验，结合我国实际情况和各行业的特定需求与安全挑战，制定多维度的人工智能分类分级标准。分类维度可以涵盖应用场景、模型自主性、算力规模、用户数量等方面，并在此基础上进行风险分级。同时，采取差异化的监管措施：对于低风险的人工智能应用，可采用备案管理模式，确保基本的监管要求；对于高风险的应用，需实施强制性风险评估，并确保其在部署前经过严格的安全审查。这种分类分本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期25级管理机制将有助于精准监管，提升人

72、工智能治理的有效性。二是建立人工智能全生命周期的透明度管理制度。在人工智能研发、训练、发布及生成内容的全生命周期内，明确各阶段的信息公开义务，确保系统的可理解性和可追溯性。通过制定透明度相关标准，规范数据来源披露、算法策略说明及生成内容标识等要求，为监管机构、开发者和用户提供准确评估安全性、可靠性和公正性的依据。三是明确人工智能各主体责任，强化协同管理。在人工智能的研发、部署和应用过程中，需清晰界定每个环节的责任主体。例如，大模型提供者需承担技术研发和模型输出质量的责任；应用方需根据自身业务场景对模型进行适配并确保合规使用；最终用户需在使用过程中遵守相关法规和伦理要求。同时，应建立问责机制，通

73、过技术手段和法律手段明确责任归属，确保人工智能应用发生问题时能够快速定位责任主体。此外，应推动上下游的合作共治，建立跨企业、跨部门的协作机制，加强信息共享与风险沟通，形成共建共治的良性治理生态。四是建立动态监管机制。对于高风险、关键场景的人工智能应用的更新迭代，应将其纳入常态化测评范围，以实时掌握其发展趋势和潜在的安全风险。例如，可要求企业定期向主管部门上报日活量、用户量、关键技术迭代等信息，通过动态监测及时发现潜在问题并采取有效措施。这样的动态监管机制不仅能够提前应对大模型的远期风险，还可确保企业在技术创新的同时，承担相应的安全责任。（二）加快技术研发与自主生态建设一是推动人工智能安全技术的

74、发展。聚焦人工智能安全领域的关键技术研发与应用推广，优先布局在金融、医疗、政务等关键领域，通过专项资金支持和政策激励推动安全技术的落地。例如，在金融领域推广联邦计算以实现数据的安全共享，在医疗领域通过机密人工智能保护患者隐私和数据安全。加强人工智能在网络防护中的应用，利用人工智能实现入侵检测、威胁情报分析、恶意软件检测、行为分析专业就是实力精准就是品牌网络安全研究2024 年第 4 期26等能力，提升网络攻击溯源与防御能力。通过建设行业级人工智能安全技术平台，为中小企业提供技术接入和服务支持，降低人工智能安全技术的应用门槛，实现人工智能安全技术的高效推广与全面应用。二是构建自主可控的人工智能

75、供应链生态。为确保我国人工智能发展不受外部技术限制，应加速推进以国产芯片、框架和算力平台为核心的自主供应链生态建设。引导企业优先使用国产算力和开发框架，从源头减少对海外技术的依赖。抓紧关键窗口期，推动现有基于国外人工智能生态构建的大模型向国产算力和框架的迁移。（三）完善人工智能安全标准与测评体系一是健全人工智能安全标准体系。针对人工智能技术特别是大模型的独特安全需求，加快构建覆盖全生命周期的标准体系。推动制定从数据使用、算法设计到部署运行的全流程安全标准，特别是围绕隐私保护、对抗性攻击防御、算法透明性和人工智能伦理的专项技术规范，明确具体的安全评估指标和操作指引。在行业应用方面，细化金融、医疗

76、、政务、军事等关键领域的安全标准，确保标准能精准适配实际场景需求。同时，强化标准的动态更新机制，定期审查并优化现有标准，提升其对技术演进和新兴风险的适应能力。二是构建多层次、多场景的人工智能安全测评体系。重点研发针对大模型的安全测评工具，覆盖隐私保护能力测试、对抗样本防御评估、模型透明性分析等功能，并推动形成统一的测评流程和技术规范。例如，通过构建智能化测评平台，为大模型的开发者和用户提供标准化、模块化的测评接口，简化测评流程，提升效率。同时，针对高风险应用场景，开发具备动态监测和实时响应功能的测评工具，确保模型安全性和稳定性。建立权威的第三方测评机构和认证体系，增强测评结果的公信力，推动行业

77、广泛应用。三是推动与国际标准的对接。在人工智能安全全球化治理的背景下，积极参与国际安全标准制定，加强与 ISO、IEC 等国际组织的合作，推动我国标准与国际规则的对接，提升我国在全球人本期主题：人工智能安全趋势研究网络安全研究2024 年第 4 期27工智能治理中的话语权。（四）加强伦理引导与公众教育一是完善人工智能伦理治理机制，推动行业自律与协同合作。在现有新一代人工智能伦理规范的基础上，动态调整治理机制，确保能够应对技术发展和新兴应用场景的快速变化。针对大模型、生成式人工智能等前沿技术，强化动态风险识别与实时伦理评估，重点聚焦隐私保护、算法透明性和责任归属，建立可持续的伦理优化机制。鼓励人

78、工智能开发企业和应用单位主动建立内部伦理审查与合规体系，在技术设计、数据使用和模型部署中嵌入伦理风险评估流程。推动行业协会制定更具针对性的伦理规范，引导企业履行伦理责任，形成行业内多方协同合作的治理生态，促进技术研发与社会价值深度融合。二是提升公众对人工智能技术的认知与能力。通过开展多样化的公众教育活动，提升全社会对人工智能技术及其伦理影响的认知水平。针对生成式人工智能的风险设计通俗易懂的科普内容，利用新媒体平台广泛传播，提高公众识别和应对相关风险的能力。同时，将人工智能教育纳入学校课程，帮助青少年掌握人工智能基础知识，培养其责任意识和伦理观念，从源头提升社会对人工智能技术的适应能力。（本文作者：杨一珉周鸣爱邓攀科韩冰）联系电话：13910810192赛迪研究院网络安全研究编辑部编辑部：赛迪研究院通讯地址：北京市海淀区万寿路27号院8号楼12层邮政编码：100846联系人：王乐联系电话：010-68200552 13701083941传真：0086-10-68209616网址：电子邮件：