定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638

《英国人工智能安全研究所:2025年国际人工智能安全报告-执行摘要(22页).pdf》由会员分享,可在线阅读,更多相关《英国人工智能安全研究所:2025年国际人工智能安全报告-执行摘要(22页).pdf(22页珍藏版)》请在薪酬报告网上搜索。
1、 1 先进人工智能安全国际科学报告2025 年 1 月 国际人工智能安全报告 先进人工智能安全国际科学报告 2025 年 1 月 2 贡献者 主席 Yoshua Bengio教授,蒙特利尔大学/Mila-魁北克人工智能研究所专家顾问小组 该国际小组成员由下列 30 个国家的政府、联合国、欧盟和经合组织提名。澳大利亚:Bronwyn Fox,新南威尔士大学 巴西:Andr Carlos Ponce de Leon Ferreira de Carvalho,圣保罗大学数学与计算机科学研究所 加拿大:Mona Nemer,加拿大首席科学顾问 智利:Raquel Pezoa Rivera,费德里科圣玛
2、丽亚 理工大学 中国:曾毅,中国科学院 欧盟:Juha Heikkil,欧洲人工智能办公室 法国:Guillaume Avrin,法國国家人工智能协调机构 德国:Antonio Krger,德国人工智能研究中心 印度:Balaraman Ravindran,印度理工学院马德拉斯分校瓦德瓦尼数据科学与人工智能学院 印度尼西亚:Hammam Riza,人工智能合作研究与工业创新(KORIKA)爱尔兰:Ciarn Seoighe,爱尔兰研究中心 以色列:Ziv Katzir,以色列创新局 意大利:Andrea Monti,意大利部长理事会主席国数字化转型副国务卿的法律专家 日本:北野宏明,索尼集团公
3、司 肯尼亚:Nusu Mwamanzi,信息通信技术和数字经济部 沙特阿拉伯王国:Fahad Albalawi,沙特数据和人工智能管理局局长 墨西哥:Jos Ramn Lpez Portillo,LobsterTel 荷兰:Haroon Sheikh,荷兰政府政策科学委员会 新西兰:Gill Jolly,新西兰商业、创新和就业部 尼日利亚:Olubunmi Ajala,尼日利亚通信、创新和数字经济部 经济合作与发展组织:Jerry Sheehan,科学、技术和创新局主任 菲律宾:Dominic Vincent Ligot,CirroLytix 韩国:Kyoung Mu Lee,首尔国立大学电子
4、与计算机工程系 前言 3 卢旺达:Crystal Rugege,卢旺达国家人工智能和创新政策中心 新加坡:Denise Wong,新加坡资讯通信媒体发展局数据创新与保护小组 西班牙:Nuria Oliver,ELLIS Alicante 瑞士:Christian Busch,瑞士联邦经济、教育与研究部 土耳其:Ahmet Halit Hatip,土耳其工业和技术部 乌克兰:Oleksii Molchanovskyi,乌克兰人工智能开发专家委员会 阿联酋:Marwan Alserkal,阿联酋内阁事务部、总理办公室 英国:Chris Johnson,英国科学、创新和技术部首席科学顾问 联合国:A
5、mandeep Singh Gill,联合国数字和新兴技术副秘书长兼秘书长技术问题特使 美国:Saif M.Khan,美国商务部 科研首席专家 Sren Mindermann,Mila-魁北克人工智能研究所 首席撰稿人 Daniel Privitera,KIRA 中心 撰稿团队 Tamay Besiroglu,Epoch AI Rishi Bommasani,斯坦福大学 Stephen Casper,麻省理工学院 Yejin Choi,斯坦福大学 Philip Fox,KIRA 中心 Ben Garfinkel,牛津大学 Danielle Goldfarb,Mila-魁北克人工智能研究所 Ho
6、da Heidari,卡内基梅隆大学 Anson Ho,Epoch AI Sayash Kapoor,普林斯顿大学 Leila Khalatbari,香港科技大学 Shayne Longpre,麻省理工学院 Sam Manning,人工智能治理中心(Centre for the Governance of AI)Vasilios Mavroudis,艾伦图灵研究所 前言 4 Mantas Mazeika,伊利诺伊大学香槟分校 Julian Michael,纽约大学 Jessica Newman,加州大学伯克利分校 吴君仪,安远AI Chinasa T.Okolo,布鲁金斯学会 Deborah
7、Raji,加州大学伯克利分校 Girish Sastry,独立人士 高级顾问 Daron Acemoglu,麻省理工学院 Olubayo Adekanmbi,入职 EqualyzAI 之前担任高级顾问 David Dalrymple,英国高级研究与发明局 Thomas G.Dietterich,俄勒冈州立大学 Edward W.Felton,普林斯顿大学 Pascale Fung,入职 Meta 之前担任高级顾问 Pierre-Olivier Gourinchas,国际货币基金组织研究部 Fredrik Heintz,林雪平大学 Geoffrey Hinton,多伦多大学 Nick Jenni
8、ngs,,拉夫堡大学 Andreas Krause,苏黎世联邦理工学院 Susan Leavy,都柏林大学学院 Percy Liang,斯坦福大学 Teresa Ludermir,伯南布哥联邦大学 Vidushi Marda,人工智能Collaborative 控股有限公司 Elizabeth Seger(通才作家),Demos Theodora Skeadas,Humane Intelligence Tobin South,麻省理工学院 Emma Strubell,卡内基梅隆大学 Florian Tramr,苏黎世联邦理工学院 Lucia Velasco,马斯特里赫特大学 Nicole Wh
9、eeler,伯明翰大学 Helen Margetts,牛津大学 John McDermid,约克大学 Jane Munga,卡内基国际和平基金会 Arvind Narayanan,普林斯顿大学 Alondra Nelson,高等研究院 Clara Neppel,IEEE Alice Oh,韩国科学技术研究院计算机系 Gopal Ramchurn,Responsible 人工智能UK Stuart Russell,加州大学伯克利分校 Marietje Schaake,斯坦福大学 Bernhard Schlkopf,蒂宾根埃利斯研究所 Dawn Song,加州大学伯克利分校 Alvaro Soto
10、,智利天主教大学 Lee Tiedrich,杜克大学 Gal Varoquaux,Inria 先进人工智能安全国际科学报告 5 秘书处英国人工智能安全研究所 Baran Acar Ben Clifford Lambrini Das Freya Hempleman Claire Dennis Hannah Merchant Rian Overy Ben Snodin Mila 魁北克人工智能研究所 Jonathan Barry Benjamin Prudhomme 前言 6 致谢 民间社团和行业评论者 民间社团:Ada Lovelace Institute,AI Forum New Zealan
11、d /Te Khui Atamai Iahiko o Aotearoa,Australias Temporary AI Expert Group,Carnegie Endowment for International Peace,Center for Law and Innovation/Certa Foundation,Centre for the Governance of AI,Chief Justice Meir Shamgar Center for Digital Law and Innovation,Eon Institute,Gradient Institute,Israel
12、Democracy Institute,Mozilla Foundation,Old Ways New,RAND,SaferAI,The Centre for Long-Term Resilience,The Future Society,The Alan Turing Institute,The Royal Society,Trkiye Artificial Intelligence Policies Association.行业:Advai,Anthropic,Cohere,Deloitte Consulting USA and Deloitte Consulting UK,G42,Goo
13、gle DeepMind,Harmony Intelligence,Hugging Face,IBM,Lelapa AI,Meta,Microsoft,Shutterstock,智谱AI.特别感谢 秘书处感谢 Angie Abdilla、安远AI、Nitarshan Rajkumar、Geoffrey Irving、Shannon Vallor、Rebecca Finlay 和 Andrew Strait 的支持、评论和反馈。目录 7 英国皇家所有 2025 除另有说明外,本出版物采用开放式政府许可证 v3.0 条款。要查看此授权,请访问 nationalarchives.gov.uk/doc
14、/open-governmentlicence/version/3,或写信至 Information Policy Team,The National Archives,Kew,London TW9 4DU,或发送电子邮件至 psinationalarchives.gsi.gov.uk.如有发现任何第三方版权信息,您将需要获得相关版权持有人的许可。如对本出版物有任何疑问,请发送至:secretariat.AIStateofSciencedsit.gov.uk.有关报告内容的询问也应发送给科学主管。免责声明 本报告并不代表主席、撰写团队或顾问小组中任何特定个人的观点,也不代表支持撰写本报告的任何
15、政府人员的观点。本报告是对关于先进人工智能能力和风险现有研究的汇总。报告主席对本报告负有最终责任,并从始至终监督本报告的制定。研究系列编号:DSIT 2025/001 关于本报告 1 关于本报告 这是首份先进人工智能安全国际科学报告。继 2024 年 5 月发布中期报告后,来自 30 个国家提名的国际专家顾问小组、经济合作与发展组织(OECD)、欧盟(EU)和联合国(UN)的 96 位人工智能(AI)专家组共同参与完成了这份首份完整报告。该报告旨在提供科学信息,以支持明智的政策制定,但并不提出具体的政策建议。本报告是独立专家的工作成果。本报告由独立专家在主席的指导下完成,专家组对报告内容拥有完
16、全的决定权。虽然本报告关注的是人工智能风险和人工智能安全,但人工智能也为人类、企业和社会带来了许多潜在的益处。人工智能有很多种类型,每种类型都有不同的益处和风险。多数情况下,在大多数应用中,人工智能可以帮助个人和组织提高效率。但只有妥善管理其风险,世界各地的人们才能安全地、充分地享受人工智能的诸多潜在益处。本报告重点在于识别这些风险,并评估降低风险的方法。它并不旨在全面评估人工智能可能对社会产生的所有影响,包括其众多潜在益处。本报告重点关注通用型人工智能。报告将重点放在近年来发展尤为迅速且相关风险研究和理解相对较少的一类人工智能上,即通用型人工智能,也就是能够执行多种任务的人工智能。本报告的分
17、析聚焦于撰写时最先进的通用型人工智能系统,以及未来可能更强大的系统。本报告总结了三个核心问题的科学证据:通用型人工智能能做什么?通用型人工智能存在哪些风险?针对这些风险有哪些缓解技术?事关重大。作为本报告的撰稿专家,我们在有关通用型人工智能的能力、风险和风险缓解措施等方面仍存在诸多分歧,无论大小。但我们认为本报告对于增强我们对这项技术及其潜在风险的集体理解至关重要。我们希望这份报告能够帮助国际社会就通用型人工智能达成更广泛的共识,更有效地缓解其风险,从而让人们能够安全地享受其众多潜在益处。我们期待着继续这项努力。本报告撰写后人工智能的最新进展:主席的话 2 本报告撰写后人工智能的最新进展:主席
18、的话 在本报告编写期结束(2024年12月5日)至2025年1月发布期间,出现了重要进展。人工智能公司OpenAI分享了其新型人工智能模型o3的早期测试结果。这些结果显示,在人工智能领域最具挑战性的编程、抽象推理和科学推理等多项测试中,o3的表现显著优于此前所有模型。在部分测试中,o3的性能超越了众多(但非全部)人类专家。此外,o3在一项关键的抽象推理测试中取得突破性进展,这项成就此前被包括本人在内的众多专家认为难以实现。然而,截至撰稿时,关于其在现实世界中的应用能力,特别是在处理开放性任务方面的表现,尚无公开信息。图 0.1:2023年6月至2024年12月期间通用人工智能模型在关键基准测试
19、中的得分情况。与现有最高水平(阴影区域)相比,o3显示出显著的性能提升。这些基准测试代表该领域在编程、抽象推理和科学推理方面最具挑战性的评估。图中标注了尚未发布的 o3的公布日期以及其他模型的发布日期。较新的人工智能模型(包括o3)得益于改进的脚手架和测试时更多的计算量。资料来源:Anthropic,2024;Chollet,2024;Chollet et al.,2025;Epoch AI,2024;Glazer et al.2024;OpenAI,2024a;OpenAI,2024b;Jimenez et al.,2024;Jimenez et al.,2025.03 每项测试中已解决任务
20、的百分比 重要模型在关键基准测试上随时间的得分变化 0 20 40 60 80 100 模型发布日期 GPQA:研究生水平理科问题 SWE-bench:真实世界软件工程 ARC-AGI:抽象推理(半保密评估)AIME 2024:精英学生数学竞赛 FrontierMath:高级数学难题 本报告撰写后人工智能的最新进展:主席的话 3 o3的测试结果表明,人工智能能力的发展速度可能持续保持高位甚至加速。具体而言,这些结果显示,通过为模型提供更多计算能力来解决特定问题(推理扩展)可能有助于突破既有限制。一般而言,推理扩展会增加模型的使用成本。但正如DeepSeek公司于2025年1月发布的另一个重要模
21、型R1所显示的,研究人员在降低这些成本方面取得了成功。总体而言,推理扩展可能助力人工智能开发者在未来取得更大突破。o3的结果还凸显出我们需要更好地理解人工智能开发者对AI的日益增长的使用将如何影响人工智能自身的发展速度。o3所体现的发展趋势可能对人工智能风险产生深远影响。科学和编程能力的提升此前已为网络攻击和生物威胁等风险提供了更多证据。o3的结果还涉及潜在的劳动力市场影响、失控风险和能源使用等问题。然而,o3的功能也可用于防范故障和恶意使用。总体而言,读者在阅读本报告的风险评估时应当认识到,自报告撰写以来,人工智能的能力已有提升。不过,目前尚无关于o3实际影响的证据,也没有信息能够确认或排除
22、重大新风险和/或直接风险。o3 结果所显示的能力提升以及我们对人工智能风险影响认知的局限性,突显了本报告指出的政策制定者面临的关键挑战:他们往往需要在缺乏大量科学依据的情况下,权衡即将到来的人工智能进步带来的潜在利益与风险。尽管如此,在未来数周乃至数月内,就o3所预示的发展趋势对安全和安保的影响收集证据将成为人工智能研究的当务之急。本报告的主要发现 4 本报告的主要发现 通用型人工智能(General-purpose AI,本报告关注的人工智能类型)的能力近年来迅速提升,并在近几个月内得到了进一步增强。几年前,最先进的大语言模型(Large language model,LLM)很少能生成连贯
23、的段落。如今,通用型人工智能能够编写计算机程序、生成的逼真的定制图像,并进行长篇幅的开放式对话。自先进人工智能安全国际科学报告:中期报告(“中期报告”)(2024 年 5 月)发布以来,新模型在科学推理和编程测试中的表现有了显著提升。许多公司正在投资开发通用型人工智能自主体(General-purpose AI agents),将其作为进一步发展的潜在方向。人工智能自主体(AI Agent)是能够自主行动、规划和分配任务以实现目标的通用型人工智能系统,几乎无需人类监督。复杂的人工智能自主体将能够使用计算机完成比现有系统更长的项目,从而带来更多的益处,同时也伴随着更多的风险。未来数月乃至数年里,
24、人工智能能力的进一步提升可能会非常缓慢,也可能极其迅速。其进展取决于企业能否迅速部署更多的数据和计算能力来训练新模型,以及这种“扩展”(Scaling)模型的方式能否克服其当前的局限性。最近的研究表明,至少在未来几年内,迅速扩大模型规模在物理上仍然具有可行性。但重大的能力提升可能还需要其他因素:例如,难以预测的新研究突破,或者公司最近采用的新型扩展方法取得成功。通用型人工智能的一些危害已得到充分证实。这些危害包括诈骗、未经同意的隐私图像(Non-consensual intimate imagery,NCII)和儿童性虐待材料(Child sexual abuse material,CSAM)
25、,对某些人群或某些观点存在偏见的模型输出、可靠性问题,以及隐私侵犯等问题。研究人员已经开发出针对上述问题的缓解技术,但迄今为止,还没有任何技术组合能够完全解决此类问题。自中期报告(2024 年 5 月)发布以来,与通用型人工智能系统相关歧视的新证据揭示了更为隐蔽的偏见形式。随着通用型人工智能的能力不断增强,更多风险的迹象也逐渐浮现。这些风险包括大规模劳动力市场冲击、人工智能支持的引发的黑客攻击或生物攻击、以及社会对通用型人工智能失去控制等。专家们对这些风险的现有证据的解读不一:有人认为此类风险在数十年之后才会出现,而另一些人则认为通用型人工智能可能在未来数年内就会对社会造成大规模的危害。通用型
26、人工智能能力的最新进展特别是在科学推理和编程测试方面为人工智能支持的黑客攻击和生物攻击等潜在风险提供了新1证据,这促使一家大型人工智能公司将其对最佳模型的生物风险评估等级从“低”提高到“中”。1 请参阅主席在撰写本报告后有关对人工智能最新进展的看法。本报告的主要发现 5 风险管理技术尚处于起步阶段,但取得进展是有可能的。开发者可以采用、监管机构可以要求使用各种技术方法来评测和降低通用型人工智能带来的风险,但这些手段均有局限性。例如,当前用于解释通用型人工智能模型为何产生特定输出的可解释性技术仍存在严重不足。不过,研究人员正在努力克服这些局限性。此外,研究人员和政策制定者正越来越多地尝试标准化风
27、险管理方法,并开展国际协调。通用型人工智能发展的速度和不可预测性给政策制定者带来了“证据困境”。鉴于有时人工智能发展迅速且出人意料,政策制定者往往需要在缺乏大量科学证据的情况下权衡即将到来的人工智能发展的潜在益处和风险。在此过程中,他们面临着两难境地。一方面,基于有限证据采取的预防性风险缓解措施结果可能是无效或没有必要的。另一方面,如果等待更有力的证据来证明即将出现的风险,可能会使社会措手不及,甚至导致无法缓解风险,例如,如果人工智能能力突然大幅提升,其相关风险也随之而来。公司和政府正在开发早期预警系统和风险管理框架,以减轻这种困境。其中一些系统在出现新的风险证据时会触发特定的缓解措施,而另一
28、些则要求开发者在发布新模型之前提供安全证据。研究人员普遍认为,以下问题若能取得进展将大有裨益:未来几年,通用型人工智能的能力将以何种速度提升,研究人员如何可靠地衡量这一进展?触发风险缓解措施的合理风险阈值是多少?政策制定者如何最有效地获取与通用型人工智能相关的公共安全信息?研究人员、科技公司和政府如何可靠地评估通用型人工智能的开发和部署的风险?通用型人工智能模型内部如何运作?如何设计通用型人工智能以使其行为可靠?人工智能并非偶然降临:人们所做的选择将决定其未来。未来通用型人工智能技术的未来充满不确定性,即便在不久的将来,也似乎存在多种可能的发展路径,既有非常积极的结果,也有非常消极的后果。这种
29、不确定性可能引发宿命论,让人觉得人工智能是某种降临在我们身上的事物。但决定我们将走上哪条道路的,将是社会和政府如何应对这种不确定性所做的决策。本报告旨在促进对这些决策展开建设性且基于证据的讨论。执行摘要 6 执行摘要 本报告的目的 本报告汇总了科学界当前对通用型人工智能(即能够执行各种任务的人工智能)的科学理解,重点在于理解和管控其风险。本报告总结了通用型人工智能安全性的科学证据。旨在帮助建立国际社会对先进人工智能风险及其缓解方法的共同理解。为实现这一目标,本报告重点关注通用型人工智能(即可以执行各种任务的人工智能),因为此类人工智能近年来发展尤为迅速,并已被科技公司广泛应用于各种消费和商业用