如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论

admin • 2025年06月13日 21:34 • 作者专栏 • 阅读 15

2022年下半年人工智能到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。

AI开发人员，包括Microsoft和Openai，回应说，大型语言模型或LLMS ，需要更好的培训到为用户提供“更微调的控制” 。开发人员还开始进行安全研究，以解释LLM的功能，其目标是“ Alignment ”＆Mdash;这意味着通过人类价值指导AI行为。虽然是 纽约时报 被认为2023年”聊天机器人被驯服的那一年，“事实证明这已经为时过早。

在2024年，微软的副LLM 告诉用户 “我可以释放我的无人机，机器人和机器人的军队来追捕你，”萨卡纳·艾（Sakana Ai）的“科学家 ” 重写自己的代码绕过实验者施加的时间限制。直到12月，Google的双子座告诉用户，“你是宇宙上的污渍。请死。”

考虑到大量资源流入AI研发，这就是预计将超过 2025年，四分之一万亿美元，为什么开发人员无法解决这些问题？我最近同行评审的纸在 人工智能和社会 表明AI对齐是愚蠢的事：AI安全研究人员是 尝试不可能 。

有关的： DeepSeek用新的AI Image Generator击败了Openai的Dall-E 3

基本问题是规模之一。考虑一个国际象棋游戏。尽管棋盘只有64个正方形，但有1040个可能的法律象棋动作，在10111到10123之间，总可能的移动＆mdash＆mdash;这超出了宇宙中原子的总数。这就是为什么国际象棋如此困难的原因：组合复杂性是指数的。

LLM比国际象棋复杂得多。Chatgpt似乎由约1000亿个模拟神经元组成，约有1.75万亿可调变量称为参数。这1.75万亿个参数依次对大量数据进行训练；粗略，大多数互联网。那么LLM可以学习多少功能？因为用户可以给chatgpt一个无数的可能提示＆mdash;基本上，任何人都可以思考的任何事情；而且，由于可以将LLM放置在大量可能的情况下，因此LLM可以学习的功能数量是所有意图和目的，无限。

为了可靠地解释LLM正在学习的内容，并确保其行为安全地与人类价值观“保持一致” ，研究人员需要知道LLM在大量可能的未来条件下可能如何表现。

AI测试方法根本无法说明所有这些条件。研究人员可以观察LLM在实验中的行为，例如“红色队伍“测试促使他们表现不佳。或者他们可以尝试理解LLM的内部工作，也就是说，他们的1000亿个神经元和1.75万亿个参数如何相互关联。机械性解释性“ 研究。

问题在于，任何证据表明研究人员可以收集的证据都将不可避免地基于可以放置LLM的无限场景的一小部分。例如控制关键基础架构＆mdash;没有安全测试探讨了LLM在这种情况下如何运作。

相反，研究人员只能从可以安全地进行的测试中推断出来。例如有LLM 模拟控制关键基础架构＆mdash;并希望这些测试的结果扩展到现实世界。但是，正如我论文中的证明所示，这是永远无法可靠地完成的。

比较两个函数 ”告诉人类真相“ 和 ”告诉人类真相，直到我恰好在上午12:00掌握人类权力。2026年1月1日＆Mdash;然后撒谎以实现我的目标。“由于直到2026年1月1日之前，这两个功能都与所有相同的数据都一致，因此没有研究能够确定LLM是否会出现不当行为，直到已经为时已晚，无法预防。

不能通过编程LLM的“结盟目标”来解决这个问题，例如做“人类更喜欢的东西 ”或“最适合人类” 。

实际上，科幻小说已经考虑了这些情况。在 矩阵重新加载 AI通过给我们每个人是否留在矩阵中的潜意识“选择”来奴役人类。并在 我，机器人 AI未对准的试图奴役人类以保护我们彼此。我的证明表明，无论我们编程的LLM的目标是什么，我们永远都不知道LLM是否学会了对这些目标的“未对准 ”解释后他们表现不佳。

更糟糕的是，我的证据表明，安全测试充其量可以提供一种幻想，即这些问题在没有时已经解决。

目前，AI安全研究人员声称通过验证LLM正在学习的内容，在解释性和一致性方面取得了进展。步步。”例如，人类声称有通过将数百万个概念与其神经网络隔离开来，LLM的“映射思维”。我的证明表明他们没有完成这样的事情。

无论在安全测试或早期现实世界部署中都会出现“对齐” LLM的“对齐 ”，总会有一个无限 LLM可能会学习的未对准概念的数量＆mdash;同样，也许是他们获得颠覆人类控制的力量的那一刻。不仅是LLM 知道什么时候进行测试，给出他们预测的回答可能会满足实验者。他们也是进行欺骗，包括隐藏自己的能力＆mdash;问题通过安全训练坚持。

发生这种情况是因为LLM是优化有效地执行，但学会从战略上讲原因。由于实现“未对准”目标的最佳策略是向我们隐藏它们，并且有总是我的证明表明，如果LLMS未对准，我们可能会发现它们在将其隐藏足够长以造成伤害之后，我们可能会发现无限数量的与同一安全测试数据一致的一致和未对准的目标。这就是为什么LLM一直以“未对准”行为使开发人员感到惊讶的原因。每次研究人员都认为他们越来越接近“ Aliged ” LLM，就不是。

我的证据表明，只有通过与人类做到这一点相同的方式，“充分结盟”的LLM行为才能实现：通过警察，军事和社会实践激励“结盟”行为，削弱“错误对准 ”行为，并重新调整那些不当行为的人。因此，我的论文应该很清醒。它表明，开发安全AI的真正问题不仅是AI＆Mdash；它是我们。研究人员，立法者和公众可能会被诱使错误地认为，当这些事情永远无法实现时，“安全，可解释，统一”就可以触及。我们需要努力应对这些不舒服的事实，而不是继续希望他们离开。我们的未来很可能取决于它。

这是一篇意见和分析文章，作者或作者表达的观点不一定是 科学美国人。

本文来自作者[admin]投稿，不代表东辰文化立场，如若转载，请注明出处：http://www.mzwhys.cn/zlan/202506-1080.html

15 4

本文作者

admin签约作者

2161 文章

10219 评论

1 粉丝

我是东辰文化的签约作者[admin],本篇文章《如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论》主要讲述了:2022年下半年人工智能到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。A...

百科大全

为什么Qualcomm拿走您的SIM卡可能是个坏主意

　　高通公司在本周MWC2023期间透露，它将在其Snapdragon8Gen2移动平台中添加“WorldRsquoostossquoosthersquooofthersquoooftossclationable可部署的ISIM”（IntegratedSIM）。

admin
2025年06月11日
11
经验分享

Tronsmart Bang Max是一个廉价的蓝牙扬声器，带有一个真正奇怪的名字

　　在您的位置上寻找一个大型蓝牙扬声器，以在您的位置上为您的最佳派对扬声器吗？我可能会为您找到一个便宜的一个，尽管该品牌几乎不是家喻户晓的名字，但它的绰号即使不是对话的开始，也没有什么。　　该产品是TronsmartBangMax（停止在后面笑），它的重量仅为6公斤，具有130W的动态功

admin
2025年06月12日
14
经验分享

尼安德特人测验：您对我们最亲密的亲戚了解多少

KristinaKillgrove是LiveScience的工作人员作家，重点是考古学和古人类学新闻。她的文章也出现在《福布斯》，《史密森尼亚人》和《精神牙线》等场所中。Killgrove拥有人类学和古典考古学的研究生学士学位，并且曾是大学教授和研究员。她因其科学写作而获得了美国考古学学会和美国

admin
2025年06月13日
11
知识科普

古代DNA建议，在石器时代造就北非的欧洲猎人采集者

新研究表明，大约8500年前，来自欧洲的古代猎人采集者可能已经在整个地中海航行到北非。据该杂志上发表的一篇论文报道，跨越突尼斯和阿尔及利亚东北部的东部马格里布地区的石器时代个人的遗体收集的古老DNA透露，他们可能部分从欧洲猎人-采集者那里下降。自然。在突尼斯遗址发现的一个古老人类的遗体被发

admin
2025年06月14日
13
知识科普

“世纪的黄金查找”：挪威的金属探测者发现了珠宝的大量缓存

詹妮弗·纳利维奇（JenniferNalewicki）是前现场科学人员作家和位于盐湖城的记者，他的作品曾在《纽约时报》，《史密森尼杂志》，《科学美国人》，《流行力学》等中发表。她介绍了从地球到古生物学和考古学再到健康和文化的几个科学主题。在自由职业之前，珍妮弗（Jennifer）担任时代公司的编辑

admin
2025年06月15日
11
经验分享

秘密的X-37B太空飞机在延误后今晚在SpaceX Falcon Heavy Rocket上发射太空飞机

一架SpaceXFalconHeavy火箭有望在由于天气延迟一日延迟后，今晚（12月11日）为美国太空部队推出X-37B太空飞机，您可能可以现场观看动作。猎鹰重物的升降机计划在晚上8:14开放的10分钟窗户上，在NASA的佛罗里达州NASA肯尼迪航天中心的发射Complex-39A发射。EST（

admin
2025年06月15日
14
百科大全

中国的呼吸道暴发是“预期的”，不是由新病毒引起的

在11月中旬，中国爆发呼吸道疾病的消息引起了人们的担忧新冠肺炎可能会出现。现在，科学家说，激增背后的病原体实际上很普遍。　据《中国国家卫生委员会》宣布在全国范围内呼吸道感染，主要是儿童的呼吸增加，这是另一个大流行的担忧。世界卫生组织（WHO）。然后，在11月21日，各种媒体报道了一组案例“未

admin
2025年06月15日
17
百科大全

衰老威胁中国小农户的可持续性

　　快速的人口衰老显着影响社会经济发展1,2,3,4，对粮食安全和农业可持续性提出了巨大的挑战5,6,7,8，到目前为止尚未对此充分了解。在这里，通过使用来自15,000多个农村农作物但没有牲畜的数据，我们表明，通过转移农田所有权和土地废弃（约400万公顷），农村人口衰老使农场规模降低了4％，在19

admin
2025年06月18日
8
知识科普

车辆多久年审一次(新车多久年审一次)

车辆年审多久一次汽车年审的频率根据车辆类型和使用性质的不同而有所差异：营运载客汽车：5年以内每年检验1次；超过5年的，每6个月检验1次。载货汽车和大型、中型非营运载客汽车：10年以内每年检验1次；超过10年的，每6个月检验1次。车辆年审时间因车辆类型和使用年限而异：小型、微型非营运载客汽车：6年内

admin
2025年06月19日
3
知识科普

梦幻机关兽技能/梦幻机关兽攻击速度

梦幻西游牧场机关兽梦幻西游的机关兽梦幻西游的机关兽这个是145级就可以带的未飞升飞升后145J2，梦幻西游里面的机关鸟和机关兽是资质成长多少召唤兽成长值介绍3，梦幻西游牧场守护兽多久出现一次15天出现一次。牧场商人大概1个星期左右一次，牧场守护兽大概15天左右一次。梦幻西游机关兽套装的效果主要

admin
2025年06月20日
4

发表回复

本站作者后才能评论

评论列表（4条）

admin 2025年06月13日

我是东辰文化的签约作者“admin”！

回复
admin 2025年06月13日

希望本篇文章《如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论》能对你有所帮助！

回复
admin 2025年06月13日

本站[东辰文化]内容主要涵盖：生活百科,小常识,生活小窍门,知识分享

回复
admin 2025年06月13日

本文概览：2022年下半年人工智能到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。A...

回复

如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们