巨人天成
产经 科技 企业 数据 峰会 快讯 商业

谷歌DeepMind发布AGI安全框架:前瞻布局技术保障,助力负责任研发与部署

2025-12-11来源:快讯编辑:瑞雪

谷歌DeepMind近日发布了一份重要报告,题为《An Approach to Technical AGI Safety and Security》。该报告深入探讨了通用人工智能(AGI)可能带来的重大风险,并提出了全面的技术安全框架,旨在为AGI的负责任研发和部署提供核心指导。

报告指出,AGI具有变革性的潜力,但同时也伴随着严重的风险。这些风险被划分为四大领域:误用风险,即用户故意利用AGI造成伤害;错位风险,指AGI在明知违背开发者意图的情况下仍造成伤害;失误风险,即AGI无意识中导致的伤害;以及结构性风险,涉及多主体互动引发的非主观伤害。报告特别强调了误用和错位风险的技术应对策略。

在误用风险的应对上,报告提出了一系列策略,旨在切断恶意主体获取危险能力的途径。这包括通过危险能力评估预判风险阈值,以及利用模型级防护、系统级管控和安全防护等多层防御措施。模型级防护涵盖安全训练和能力抑制,系统级管控则包括行为监测和访问限制,而安全防护则涉及模型权重加密和环境加固。报告还强调了通过红队测试验证防护有效性,并加强社会防御能力以降低潜在伤害。

针对错位风险,报告构建了双重防御体系。第一防线是训练对齐模型,通过增强监督、引导模型行为和稳健训练等手段,确保模型目标与人类意图一致。第二防线是系统级管控,借鉴网络安全思路,通过访问控制、沙箱隔离和层级监控等措施,即便模型错位也能阻断严重伤害。同时,报告还提出了不确定性量化、可解释性研究和更安全的设计模式等支撑措施。

报告基于五大关键假设展开,包括当前AI研发范式的持续性、AGI能力无人类天花板、研发时间线的不确定性、AI能力加速增长的可能性以及AI能力提升的平滑演进。这些假设为报告的技术方案提供了理论基础。

报告还强调了技术方案与治理机制互补的重要性,呼吁形成行业共识与标准,以避免因竞争压力导致安全底线下降。同时,报告也指出了当前研究的局限性,包括未充分覆盖结构性风险和聚焦短期可落地技术等,并呼吁未来持续推进基础研究与跨领域协作。

EPFL与OpenAI创新研究:不打扰动物,如何验证AI翻译真实性?
ShufflEval的工作原理可以这样理解:假设你有一段鲸鱼母子之间的对话录音,AI翻译器将其翻译成了几个英语句子,描述了它们关于潜水时间的讨论。即使在这种极端情况下,ShufflEval方法仍然能够有效区…

2025-12-11

AI开发新突破:MCP协议引领智能体开发实战,59课时解锁新技能
这让智能体框架可以以一种一致的方式与任何MCP Server交互。对于开发者而言,当前正是拥抱这一新范式的最佳时机:或投身于构建垂直领域的专业MCP Server,成为能力供给者;或驾驭主流智能体框架,利用…

2025-12-11

国产AR-E800重载电动垂直起降飞行器首飞成功 开启低空物流新篇章
12 月 10 日消息,中国航空工业集团通过公众号宣布,12 月 10 日(即今天)下午,国产首款重载电动垂直起降飞行器 AR-E800在景德镇高新机场首飞成功。 这架飞行器由中国航空工业集团自主研制,造型…

2025-12-11

民用无人机新规来袭:实名登记激活成飞行前提 全程可追溯监管
央视网消息:市场监管总局近日发布《民用无人驾驶航空器实名登记和激活要求》强制性国家标准,明确了民用无人机实名登记和激活的工作流程。 标准适用于中国境内民用无人驾驶航空器,要求民用无人机系统要在显著位置提示实名…

2025-12-11

智元第5000台通用具身机器人下线 灵犀X2携定制彩蛋交付黄晓明工作室
彭志辉强调,这一成果不仅验证了智元自身的规模化交付能力,为后续万台、十万台级产能规划奠定基础,更向全行业证实了通用具身机器人规模化量产的可行性。知名演员黄晓明作为神秘用户现身现场,黄晓明坦言,自己与智元的结…

2025-12-11

鹿明机器人获数亿元融资 加速具身智能数据硬件生态体系构建
近日,记者从Lumos Robotics鹿明机器人处获悉,该公司已完成Pre-A1和Pre-A2两轮融资,金额达数亿元。 对于本轮融资,鹿明机器人创始人兼CEO喻超表示:“本轮融资助力我们在具身智能的两大基…

2025-12-11

陈佳玉科研跨界之路:从核聚变控制到家用机器人,探索通用智能新路径
一旦锁定了强化学习这个方向,我就一直在沿着它做。 关于本质,我认为这也跟你想做的研究的最终目标有关系。 我现在做研究,实际上是在尝试结合这两者:既要在理论上寻求突破,又要具备工程头脑,通过快速迭代去解决实际问…

2025-12-11

5G-A助力黄山焕新:无人机挑山、直播云游与古村蝶变共谱新篇
黄山的故事,不仅是山岳型景区转型升级的生动实践,更是新时代中国以新质生产力推动高质量发展的鲜活注脚——当传统智慧邂逅前沿科技,当文化底蕴碰撞数字浪潮,一幅“望得见山、看得见水、记得住乡愁”的现代化发展图景,…

2025-12-11