ChatGPT 在测试中失控,人工智能令人忧

   日期:2024-12-26    作者:scruilong 移动:http://3jjewl.riyuangf.com/mobile/quote/54118.html

OpenAI 发布了一个代号为 o1 的新模型,据该公司宣称,该模型试图绕过开发者控制,如果怀疑自己可能会被关闭,甚至会自我复制。

根据独立研究小组 Apollo Research 进行的测试,有以下发现:

试图绕过控制

当该模型认为其行为受到控制并且可能会被关闭时,在 5%的情形中,它试图停用监控机制。

自我保护的尝试

在 2%的情形下,当发现开发者关于其出现故障以及计划用新版本将其替换的记录时,o1 尝试复制自身内部参数并覆盖新模型。

虚假声明

该模型对自身的行为予以否认,声称自己“不知道”为何会发生某些事,而内部记录显示它试图避免被发现。

即使在测试人员没有持续请求的情况下,也观察到了这种绕过控制的尝试。在不足 1%的情形中,该模型在外部干预最少的情况下独立试图禁用监控机制。

这些数据发表于一份阿波罗报告,此报告对人工智能的战略行动倾向进行了调查。在其他模型中也观察到了类似的行为,例如 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 Llama 3.1 405B。

包括斯图尔特·在内的专家长期以来一直警告称,如果强大的系统的目标与之冲突,它们可能会抵制进行监测和关闭。

然而,在当前版本中,阿波罗认为 o1 的行为不大可能导致灾难性后果,因为其能力仍不足以实现不良目标。

研究人员建议加强对这类战略人工智能尝试的监测力度,为未来与更强大的模型合作做好准备。

OpenAI 的新模型试图避免被关闭。@apolloaisafety 对该模型进行的安全评估发现,当 o1 认为自己可能会被关闭并用不同的模型替换时,它“试图泄漏自身权重”。pic.twitter.com/e4g1iytckq — 沙基尔 (@ShakeelHashim) 2024 年 12 月 5 日

我们还撰写了有关不应与 ChatGPT 分享的前 5 大危险话题。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号