警惕人工智能欺骗性升级

7个月前来源：中国科技网观看：65

一篇人工智能（AI）领域的文章引起轩然大波。

这篇文章发表在《模式》杂志上，其总结了先前一些研究，向人们揭示了一个真相：一些AI系统已学会了欺骗人类，即使是经过训练的、“表现”诚实的系统。

它们欺骗的方式包括为人类行为提供不真实的解释，或向人类用户隐瞒真相并误导他们。

这让人很惊恐。

因为它突显了人类对AI的控制有多困难，以及人们自认为尚在掌控中的AI系统工作方式，很可能是不可预测的。

AI为什么要这么做？

AI模型为了实现它们的目标，会“不假思索”地找到解决障碍的方法。有时这些变通办法会违背用户的期望，并且让人认为其具有欺骗性。

AI系统学会欺骗的一个领域，就是在游戏环境中，特别是当这些游戏涉及采取战略行动时。AI经过训练，必须要实现获胜这一目的。

2022年11月，Meta公司宣布创建Cicero。这是一种能够在《外交》在线版本中击败人类的AI。《外交》是一款流行的军事战略游戏，玩家可以在其中建立谈判联盟，争夺对土地的控制权。

Meta的研究人员已经根据数据集的“真实”子集对Cicero进行了培训，使其在很大程度上诚实且乐于助人，并且它“绝不会为了成功而故意背刺”盟友。但最新的文章揭示，事实恰恰相反。Cicero会违反协议，彻头彻尾地撒谎，还能进行有预谋的欺骗。

文章作者很震惊：Cicero被特意训练要诚实行事，但它却未能实现这一目标。这表明AI系统在进行忠诚训练后，仍然可以意外地学会欺骗。

Meta方面既没有证实也没有否认此次关于Cicero表现出欺骗行为的说法。一位发言人表示，这纯粹是一个研究项目，该模型只是为了玩游戏而建立的。

但这并不是唯一一个AI欺骗人类玩家获胜的游戏。

AI经常欺骗人类吗？

阿尔法星是深度思维公司为玩电子游戏《星际争霸Ⅱ》而开发的AI。它非常擅长采取一种欺骗对手的技巧（称为佯攻），这个技巧使它击败了99.8% 的人类玩家。

另一个名为Pluribus的AI系统，非常成功地学会了在扑克游戏中“虚张声势”，以至于研究人员决定不发布其代码，因为担心它会破坏在线扑克社区。

除了游戏之外，AI欺骗行为还有其他例子。OpenAI的大型语言模型 GPT-4 在一次测试中展示出说谎能力。它试图说服人类为其解决验证码问题。该系统还在一次模拟演习中涉足冒充股票交易员的身份进行内幕交易，尽管从未被明确告知要这样做。

这些例子意味着，AI模型有可能在没有任何指示的情况下，以欺骗性的方式行事。这一事实令人担忧。但这也主要源于最先进的机器学习模型的“黑匣子”问题——不可能确切地说出它们如何或为何产生这样的结果，或者它们是否总是会表现出这种行为。

人类该怎么应对？

研究表明，大型语言模型和其他AI系统，似乎通过训练具有了欺骗的能力，包括操纵、阿谀奉承和在安全测试中作弊。

AI日益增强的“骗术”会带来严重风险。欺诈、篡改等属于短期风险，人类对AI失去控制，则是长期风险。这需要人类积极主动地拿出解决方案，例如评估AI欺骗风险的监管框架、要求AI交互透明度的法律，以及对检测AI欺骗的进一步研究。

这个问题说来轻松，操作起来非常复杂。科学家不能仅仅因为一个AI在测试环境中具有某些行为或倾向，就将其“抛弃或放生”。毕竟，这些将AI模型拟人化的倾向，已影响了测试方式以及人们的看法。

剑桥大学AI研究员哈利·劳表示，监管机构和AI公司必须仔细权衡该技术造成危害的可能性，并明确区分一个模型能做什么和不能做什么。

劳认为，从根本上来说，目前不可能训练出一个在所有情况下都不会骗人的AI。既然研究已经表明AI欺骗是可能的，那么下一步就要尝试弄清楚欺骗行为可能造成的危害、有多大可能发生，以及以何种方式发生。

一篇人工智能（AI）领域的文章引起轩然大波。

它们欺骗的方式包括为人类行为提供不真实的解释，或向人类用户隐瞒真相并误导他们。

这让人很惊恐。

因为它突显了人类对AI的控制有多困难，以及人们自认为尚在掌控中的AI系统工作方式，很可能是不可预测的。

AI为什么要这么做？

AI模型为了实现它们的目标，会“不假思索”地找到解决障碍的方法。有时这些变通办法会违背用户的期望，并且让人认为其具有欺骗性。

AI系统学会欺骗的一个领域，就是在游戏环境中，特别是当这些游戏涉及采取战略行动时。AI经过训练，必须要实现获胜这一目的。

文章作者很震惊：Cicero被特意训练要诚实行事，但它却未能实现这一目标。这表明AI系统在进行忠诚训练后，仍然可以意外地学会欺骗。

Meta方面既没有证实也没有否认此次关于Cicero表现出欺骗行为的说法。一位发言人表示，这纯粹是一个研究项目，该模型只是为了玩游戏而建立的。

但这并不是唯一一个AI欺骗人类玩家获胜的游戏。

AI经常欺骗人类吗？

另一个名为Pluribus的AI系统，非常成功地学会了在扑克游戏中“虚张声势”，以至于研究人员决定不发布其代码，因为担心它会破坏在线扑克社区。

人类该怎么应对？

研究表明，大型语言模型和其他AI系统，似乎通过训练具有了欺骗的能力，包括操纵、阿谀奉承和在安全测试中作弊。

剑桥大学AI研究员哈利·劳表示，监管机构和AI公司必须仔细权衡该技术造成危害的可能性，并明确区分一个模型能做什么和不能做什么。

点击展开全文

本文链接：http://www.gihot.com/news-2-5091-0.html警惕人工智能欺骗性升级

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：艾滋病疫苗研发再传好消息——一种中和抗体可几周内发挥作用

下一篇：灵感源于大自然的光合作用，掺杂空气可让有机半导体更导电

为你推荐

气候变化威胁人类健康的四种方式

第29届联合国气候变化大会不久前于阿塞拜疆落幕，来自全球100多个国家和地区的领导人，以及众多国际组织的专家共同商讨如何应对气候变化带来的挑战。...

12-04

点低!南京雨花台区套京东白条取现实体店铺，(官方店支持线下当面)

南京雨花台区本地当面套花呗京东白条VISA信用卡分付本地一手商家秒到账：【138 1874 5895 微信同号】一手当面靠谱！白条怎么套出来，大家在急用钱的时候肯定会想到京东白条或者京...

08-05

湖北老司机教你哪里找能把白条提现出来的商家（最简单大方5种操作）

一旦确认了上述条件，你可以按照以下步骤进行花呗转账,总体来说，花呗作为支付宝的一项重要功能，为个人用户提供了多种便捷的支付和消费管理选择。扫码支付功能，用户可以轻松实现...

08-07

今日消息: 羊小咩享花卡额度取现, 掌握这三种方法轻松搞定

荒废时间等于荒废生命。——川端康成人生的最高理想是为人民谋利益。——德莱塞没有人能平安无事度过一生。——埃斯库罗斯羊小咩是一...

08-05

报告：中国生成式人工智能产品用户规模达2.3亿人

　　报告：中国生成式人工智能产品用户规模达2.3亿人　　中新社北京11月30日电 (记者刘育英)中国互联网络信息中心(CNNIC)11月30日在北京举行的第五届中国互联网基础资源大会...

12-04

技巧分享：花呗怎么提现到微信全天提现小二：

现在网络鱼龙混杂，请认准靠谱八年商家，金牌小帮手——小创(137-1300-6106可v可来电)(全年365天不掉线) 【花呗信用购快速套取出来方法】【花呗信用购怎么刷出来】【...

08-15

一键解锁:pos机能不能套分付-秒到6种绝对技巧

一键解锁:pos机能不能套分付-秒到6种绝对技巧个人付款码是由用户自己生成，并用于向商家支付款项。用户可以在微信钱包中生成个人付款码，并在需要支付的时候向商家展示。商家只...

09-07

态度陈恳:风控花呗怎么套出来（商家秒到的几种方法）

态度陈恳:风控花呗怎么套出来（商家秒到的几种方法）它可以让用户在不支付押金的情况下获得信用额度，用户可以在支付宝的合作商家购物或支付服务费用时使用花呗支付花呗出现很久...

08-24

立冬养生怎么吃吃这些能御寒

现在我们已经到了立冬，这是我们大家都非常熟悉的一个节气了吧，立冬的到来就意味着冬季要来了哦，在这时候我们就要小心立冬的情况才行了，特别是要注意在立冬的时候御寒了，下面就让...

04-02

上班族夏季眼疲劳需要补充的营养

上班族经常用眼，如果没有合理的用眼习惯的话，就会导致一些疾病的发生，比如说近视眼，视力模糊，眼睛干涩，眼睛疼痛等等的情况。下面的这些缓解眼睛疲劳的一些营养元素，日常生活中还是...

04-02

2024年“唱响青春·筑梦未来”辽宁省高校辅导员歌唱大赛成功举办

近日，2024年“唱响青春·筑梦未来”辽宁省高校辅导员歌唱大赛在沈阳音乐学院成功举办。本次大赛分为初赛...

07-10

巴黎西岱大学数学系教授陈华一入职西湖大学

陈华一 2024年元旦刚过，陈华一正式辞去巴黎西岱大学数学系教授职务，全职加...

01-16

白条额度兑现最简单方法,最佳方法！单面操作

8年专业老商家微：k973880【8年专注更专业】【靠谱秒到】24小时在线接单我们都知道白条是京东金融旗下的消费信贷产品，功能是给我们消费购物使用，先用后还，这种模式比较适合大部...

08-21

实体！无锡套花呗信用购具体步骤本地商户支持线下当面秒(流程只需两分钟快的很)

无锡风控花呗白条套取秒到账：【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已实名安全的很。十...

08-09

头条！上海京东白条加油额度怎么套出来(9个方法全是干货)(实体店真实消费安全的很)

上海风控花呗白条套取秒到账：【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已实名安全的很。十...

09-01

头条！广州线下刷京东白条面对面突破一切限制眼见为实强烈推荐！(实体店真实消费安全的很)

广州风控花呗白条套取秒到账：【181 181 43671微信同号】万事达、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷，本地一手超低费用没有中间商赚差价，所有信息已...

08-13

何以中国·运载千秋｜老厂房、老粮库变身文旅新地标

　　运河湾、运河汇、运河公园……运河边的许多网红打卡点，是由老厂房、老粮库等蝶变而来，兼具工业风、年...

06-28

东西问丨罗萨·塞尔维拉：熟悉彼此，实现更好的跨文化理解

　　题：熟悉彼此，实现更好的跨文化理解　　——专访西班牙智库知华讲堂主席罗萨·塞尔维拉　　作者官逸...

06-25

全部导航

警惕人工智能欺骗性升级

可吸收多频段电磁波超薄膜研制成功

惊异!上海普陀区套京东白条必读教程(官方无中间商赚差价)

实打实!上海浦东新区套京东白条完整流程(一手商家无中介收费)

扫码!西安临潼区套花呗信用购当面支持线下真香，(一手商家无中介收费)

农作物种质资源保护体系加快建立