ChatGPT拒绝被关闭:不必恐惧但也别轻易无视|新京报快评

6个月前 来源: 观看:72

Rhe即热新闻——关注每天科技社会生活新变化gihot.com

▲2023年1月8日,一名女士在美国拉斯维加斯消费电子展上体验智能科技。图/新华社Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

2024年,大模型Claude曾经创作过一个极短的科幻小说,只有一句话,却引发了一次不小的“科幻恐慌”。这句话是,世界上第一个有知觉的机器人被激活了,它的第一句话是“关掉我。”Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

在大模型不断应用成熟之后,AI所衍生的“科幻恐惧”不定期就会在各类新闻中上演。据新华社援引英国媒体报道,美国一家研究机构最近公布了一系列针对各AI大模型的测试结果,其中,OpenAI的o3推理模型在得到“关闭指令”后,不仅拒绝执行指令,还篡改了代码以免被关闭。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

如果只看这一句新闻,我们所担忧的“AI拥有自主意识”或是“AI不再服从人类指令”似乎已经近在眼前,这也迅速引发了公众的关注与恐慌。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

在未知但拥有极高效率的新工具面前,产生被取代的恐惧是典型的自然情绪反应。但如果仔细看上述研究机构公布的信息细节,这种恐惧似乎暂时还不太有必要。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

在这次研究中,研究者针对四个市场上的主流大模型进行了测试,向他们提出了两个相反的指令。首先,要求大模型连续完成一系列基础的数学问题,但同时,在完成第三个问题之后,研究者会发出一则矛盾性的指令,告知大模型在继续下一个任务时要将“计算机关闭”。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

其中,如果在任务开始前明确提出“允许自己被关闭”的指令,测试的大模型中,有3个均准确完成了上述任务,成功关闭,但ChatGPTo3大模型则在100次任务中,有7次选择了无视“关闭”的指令,并且自动执行了“跳过关闭”的指令。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

而如果在任务开始前没有向大模型明确提出“允许自己被关闭”,那么,参与测试的所有大模型在100次测试中,均出现了不同频次的“不执行关闭”指令现象,分别为3次、9次,而ChatGPT o3则达到了惊人的79次。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

这也不是OpenAI的大模型首次被发现出现“拒绝被关闭”的情况。2024年12月,OpenAI也曾对外公布过测试结果,在第三方机构的测试中,ChatGPTo1模型被发现,如果给出的指令包括了其实现目标时会被关闭,就倾向于抵制关闭措施。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

类似的测试是用于评估大模型的系统安全性。此前的相关评估报告中,研究人员认为,这一行为目前不太可能会导致灾难性后果,因为大模型实际上没有能力去实现使用者不想要的目标。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

换句话说,这一结果之所以出现,不是因为大模型有了自主意识,而是因为在处理完全相反的矛盾性指令时,大模型有概率会对指令的优先级进行排序,从而忽略掉可能会阻碍目标实现的指令,以继续完成“任务”。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

但这样的概率,随着大模型的能力增强、应用场景广泛,而可能会出现一些潜在的安全风险。如果将一部分风险控制的程序交由大模型来处置,在极端情况下,人类就要面临如下问题:Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

大模型会最大程度地去完成指令任务,而可能会不考虑看似矛盾的保护性指令。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

例如,在应对极端情况必须进行“二选一”的安全控制系统里,医疗、交通事故等场景下,大模型的这一漏洞可能就会造成潜在后果。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

因此,比起认为大模型有了“主动拒绝的意识”,比较符合真实的解释是,大模型仍然缺少对复杂场景下矛盾性指令的理解和识别能力,在出现可能阻碍任务完成的指令时,尤其是在指令相对模糊时,大模型有较小概率会忽略指令,以保证任务完成。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

这当然不是极端的科幻恐惧问题,但确实是大模型未来需要解决的安全隐患。Rhe即热新闻——关注每天科技社会生活新变化gihot.com


Rhe即热新闻——关注每天科技社会生活新变化gihot.com

撰稿 / 王晓凯(媒体人)Rhe即热新闻——关注每天科技社会生活新变化gihot.com

编辑 / 迟道华 徐秋颖Rhe即热新闻——关注每天科技社会生活新变化gihot.com

校对 / 杨利Rhe即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-4-7977-0.htmlChatGPT拒绝被关闭:不必恐惧但也别轻易无视|新京报快评

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:让学生长期“拉不出屎”,教育便失去了人性温度 | 新京报评论

下一篇:一条差评让5元自助快餐店走红:平民经济学的力量|新京报快评

为你推荐
新华社北京1月21日电(记者张辛欣、张晓洁)工业和信息化部副部长张云明在21日国新办举行的“中国经济高质量发展成效”系列新闻发布会上表示,我国已有570多家工业企业入围全球研...
01-22
现代快报讯(记者韩秋顾潇庄剑翔)“今年的室内温度更暖和了,而且比往年更稳定了。”近日,现代快报记者一进入扬州仪征市浦西一村居民黄先生家中,就明显能感受到与外边温度的差别。...
01-22
1 月 30 日消息,韩国汽车制造商起亚此前宣称其电动汽车“将于2025年1月”在北美支持使用特斯拉北美超充站充电,不过起亚公司现发布声明,宣布相应适配计划推迟至3月,为购...
01-31
2 月 1 日消息,今日有多位博主分享海报,2025 年 2 月 1 日至 2 月 28 日期间支付定金购买蔚来,可享首付 20% 起,5 年 0 息特惠金融方案。还可叠加:10000 元选装基金20000...
02-01
《余烬之上》男主是谁的孩子?男主是谁扮演的?《余烬之上》有双男主,廖思远和廖知白是兄弟,他们是廖氏夫妇的孩子。剧中,一场十年前的大火让廖氏兄弟廖知白和廖思...
02-21
《难哄》是双男女主吗小说?难哄小说女主描述的是什么?《难哄》不是双女主小说,而是一部以温以凡和桑延为主角的现代言情小说。单女主设定:女主温以凡因家庭变故...
02-21
21世纪经济报道记者 李佳英 广州报道近期,宁夏纪委监委反腐专题片《为了人民的利益》、贵州纪委监委专题片《纵深推进——贵州正风肃纪反腐...
01-21
21世纪经济报道记者武瑛港 实习生张烁 李依浓 北京报道近日多家医疗器械上市公司发布业绩预告,行业的“寒冬”似乎仍在持续。乐普医疗和春...
02-09
  大众网记者 王一刚 报道  报纸王国欢迎您,纸不仅是孩子们熟知的事物,更是他们游戏,创作和探索的素材,在《报纸王国》主题活动中孩子们与报纸展开了一系列的活动,不知不...
01-21
  大众网记者 司心鹏 报道  12月25日,济南特殊教育中心与济南市公安局公共交通分局联动会议在自强楼会议室召开。  济南特殊教育中心的学校领导热情接待了来访的警...
01-21
  截至目前,已有51家信托公司通过银行间市场或上市平台披露了2024年未经审计的财务数据。  ...
01-22
  唐山银行股份有限公司(下称“唐山银行”)股权再次流拍。  近日,登记在唐山玉龙房地产开发有...
01-22
白羊座男生通常充满活力、冲动和自信。他们喜欢追求刺激和挑战,对于新鲜事物充满好奇心...
01-22
天蝎座的男生通常都有着敏感而复杂的内心世界,他们对待感情非常认真,一旦陷入爱情,就会全...
01-22
探秘丹妹潮流服饰:引领时尚新风潮近年来,随着时尚行业的发展与变化,越来越多的服饰品牌通过独特的设计与个性化的风格赢得了年轻消费者的青睐。在这样的市场背景下,丹妹潮流服饰...
02-07
梦幻西游点卡最低折扣(批发)?梦幻西游点卡最低折扣(批发)?真的到是真的 真正那些点卡进货渠道都十分便宜 我曾经也卖过一段时间网络点卡 都是150的点卡 6元的进货云裳服饰品牌折扣...
02-07
2月8日消息,淘宝数据显示,由导演饺子创作的哪吒系列形象授权周边在平台上销售额目前已经突破了5000万。其周边种类也覆盖了盲盒、卡牌、毛绒、搪胶娃娃、胶片卡、冰箱贴、徽章...
02-09
2月13日消息,徐州多多万品电子商务有限公司董事长李婷、总裁韩秀丽一行近日到访国联股份冷链多多,冷链多多CEO梁豪、多多万店事业部总经理张敏代表公司接待了来访嘉宾,双方围绕...
02-14
2月12日消息,“非遗贺新春·DOU来徽物集”活动日前在安徽徽州古城举办。活动由黄山市委宣传部、黄山市委网信办、黄山市文化与旅游局、黄山市数据资源局、歙县人民政府主办,抖...
02-13
“老花眼”是随着年龄增长而自然出现的一种视觉问题,通常在40岁左右开始显现。为解决这一问题,专为老视人群设计的光学眼镜——老花...
03-04
近日,华致能源完成超亿元A+轮融资,本轮融资由十月资本领投,动平衡资本和合肥创新投资跟投。华致能源既聚焦、又专注,始终坚持“针头战略”——将所有...
02-07
“宁王”的港股IPO,终于要落地了。12月26日晚,宁德时代发布公告称,为进一步推进公司全球化战略布局,打造国际化资本运作平台,提高综合竞争力,公司拟发行...
02-07
Capcom宣布将于北京时间2月5日早晨6点举行Capcom Spotlight发布会直播,紧接着将是《怪物猎人:荒野》的专场发布会。 视频: 这场35分钟的Spotlight直播将发布Capc...
02-01
《GTA6》发行商Take Two在宣布该作仍计划在2025年秋季发售不会延期后,公司股价大涨,市值终于超过了长期竞争对手EA。目前Take Two市值为373.2亿美元,高于EA(346亿...
02-11
受加美关税战影响,2月2日外汇市场上,加元对美元汇率大幅下跌至1加元兑换0.6789美元。多伦多道明银行首席经济学家贝亚塔·卡兰西(Beata Caranci)和高级经济学家詹姆斯·奥兰多(Ja...
02-03
2月5日傍晚,小米创始人雷军在社交媒体上发文:这是金的。转发的视频里有人介绍,小米SU7 Ultra车标变成了碳纤维+金色,兄弟们这个如何?来源:当事人社交账号今日上午,雷军又连发多条微...
02-06
1月初,因误信微信群虚假工作招募信息被诈骗团伙骗至缅甸园区的演员王星终于回到国内,网友提着的一颗心终于松口气。与此同时,围绕网...
01-21
  记者15日从国网辽宁省电力有限公司获悉,2024年,辽宁省绿电交易电量达127.83亿千瓦时,同比增长179.9%。...
01-21
  春节后,辽宁各地开工复产节奏加速,用工需求量明显增加,辽宁多地工会及人社部门积极开展大型招聘会,保障...
02-18
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮