人工智能学会从简单英语的说明中玩电子游戏

“获取钥匙!”atariAI学会了通过以简单的英语来处理最艰难的Atari视频游戏之一 。

该系统由加利福尼亚斯坦福大学的团队开发,学会了玩游戏 蒙特祖玛的复仇 ,其中玩家搜寻阿兹台克寺庙的宝藏 。该游戏对于AI学习而具有挑战性 ,因为它提供了稀疏的奖励,要求玩家在获得任何积分之前采取多个动作。

大多数视频游戏AIS都使用加强学习来制定策略,并依靠像游戏点这样的反馈来告诉他们何时表现良好。为了更快地帮助他们采用游戏策略 ,斯坦福大学团队以自然语言说明的形式提供了强化学习系统的帮助,例如建议它“爬上梯子 ”或“获取钥匙 ” 。

团队成员罗素·卡普兰(Russell Kaplan)说:“想象一下,要教孩子打网球 ,通过递给他们球拍,将他们留在球机前10年。这基本上就是我们现在教AI的方式。”“事实证明,孩子们与教练学习得更快 。”

以这种方式教授AI可能会有深远的应用程序 ,因为使用自然语言意味着任何人都可以建议AI,而不仅仅是计算机程序员。

该小组首先培训了AI,将指示与游戏中正在执行的相同动作的屏幕截图相关联。然后 ,他们让IT练习玩游戏的列表,其中每个房间都可以通过游戏角色通过,以完成命令并在游戏中进行奖励 。

为了表明它正在对诸如“爬上梯子 ”之类的命令发展 ,研究人员进行了另一个实验 ,在该实验中,他们删除了第二个房间的培训数据。卡普兰说,尽管以前从未见过 ,该系统仍然能够遵循该房间的说明,这表明这不仅仅是死记硬背。相反,这可能是从以前的说明中概括的 。当发现更好的策略时 ,它还学会了忽略指令。

该系统在游戏中得分3500点,在OpenAI体育馆(Openai Gym)上粉碎了2500分的最高分数,这是一个在线测试AIS在虚拟环境中测试AIS的平台。Google DeepMind AI在游戏中的得分高达6600 ,但训练近两倍 。它将加强学习与一种称为内在动机的方法相结合,这使AI奖励了好奇和探索其环境 。

卡普兰(Kaplan)说,谷歌的方法更为先进 ,但他认为这两种方法是互补的,想尝试将它们结合起来。该小组还计划随着AI在游戏中的进步时减少说明的数量,以查看其从被告知的内容中学习的速度 ,并停止依赖于此类指导。

卡内基·梅隆大学(Carnegie Mellon University)的Devendra Chaplot说 ,使用自然语言指导是一种有趣的方法 。他说:“这非常有用,因为它为人类指导AI系统提供了一种自然的方式。”

不过,将其转换为现实世界可能是一个挑战。Chaplot说:“该项目使用固定的说明 ,但是了解自由形式的自然语言指示是一个非常具有挑战性的开放问题 。”

卡普兰说,他们有利于他们的一件事是将现实世界图像与自然语言描述联系起来的丰富数据集,这些图像可用于帮助训练这样的AI。


本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://www.mzwhys.cn/cshi/202506-1554.html

(13)

文章推荐

  • 动手:我测试了PCSPESTIST ONYX ULTRA-看看我对工作站的野兽的看法

      该评论首先出现在PCPro的第348期中。  PCSPECIALIST将所有东西投入了10,000英镑的工作站。它不仅包含了AMD&Rsquo的64核ThreadripperPro5995WX,而且还包括Amd&Rsquo的最新专业图形。  CPU支持多线程,因此提供128

    2025年06月09日
    14
  • 可通行的评论

      幸运的是,有一个免费的计划,尽管有些限制,但却为许多小型企业甚至中型企业提供了尝试提供的东西的机会。付费计划可能会变得更加昂贵,即使那样,其他服务可能没有某些限制。  可通话:计划和定价  Airtable是一项免费使用服务,但是在免费计划中施加了一些限制,例如文件大小和编辑人数

    2025年06月13日
    12
  • Discord Automod将停止有害语言,并立即阻止人们传播它

    Discord正在为主持人添加一种新工具,以防止有害消息出现在其平台上,并正在扩大其高级会员资格订阅。  有害语言工具称为Automod,它在YouTube上的PowerRangersChickenParody中被揭示。尽管宣布视频很愚蠢,但Automod还是一个相当重要的升级,可以帮

    2025年06月15日
    12
  • X级太阳能耀斑在2024年创下了新纪录,今年可能会进一步兴奋。但是,专家说,太阳并不是完全归咎于

    X级的数量太阳耀斑—最强大,可能是最危险的太阳喷发阶层;在2024年创下了新的纪录。太阳能最大,这可能会继续加强今年。但是,专家告诉LiveScience,太阳能活动可能并不是去年飙升的太阳能爆炸数量的唯一原因。根据2024年总共有54个X级耀斑。SpaceWeatherliv

    2025年06月16日
    14
  • 健康保险公司在您的声音中分析了疾病迹象

    您的声音可以透露您的健康细节吗?letizialefur/getty您的声音散发出来了吗?美国初创公司CanarySpeech正在开发深入学习算法,以检测人们是否通过聆听声音的声音来检测人们是否患有帕金森氏病或阿尔茨海默氏病等神经疾病。它发现了有争议的音频数据来源,可以通过以下方式培训其算法:

    2025年06月16日
    17
  • 氦燃烧的白矮人二进制二进制

      Skymapper。通过skymapper36(不是同时)测量的光学亮度为g'=15.82±0.02mag,r'=16.04±0.02mag,i'=16.41±0.01mag,z'=16.59±0.04mag,以及在校正后,eb-condeceofeb-condecto

    2025年06月17日
    7
  • 生物收缩力的分子模型:染色体结构和功能的影响

      感谢您访问Nature.com。您使用的是浏览器版本对CSS的支持有限。获得  最佳体验,我们建议您使用更多最新的浏览器(或关闭兼容模式  InternetExplorer)。同时,为了确保继续支持,我们正在展示网站,没有样式  和JavaScript。

    2025年06月18日
    6
  • 美真实感染2300万(美国真实感染人数过亿)

    三位美女的悲情故事:新冠后遗症。三阳来了怎么办?1、接下来,是37岁的辛西娅·阿迪尼格,她长期遭受喉咙痛困扰,通过围巾缓解。她经历了严重的慢性疲劳,并对化学物质产生敏感,避免使用含有香水和香料的日常用品。医生最终诊断她的症状与新冠感染有关,这表明长新冠的诊断并非易事。最后,是46岁的帕姆·毕晓普。

    2025年06月19日
    4
  • 雷克萨斯lx570新款(雷克萨斯LX570新款图片)

    LX570车体内饰LEXUS雷克萨斯LX570的车体内饰设计充满了豪华与舒适,具体特点如下:座椅设计:前排座椅具备十向调节功能,座垫长度可伸缩,满足不同体型驾驶者的需求。剧院式地板设计,确保所有乘客都能享有开阔视野。空调系统:全面布局,无论是第一排还是第三排的乘客,都能享受到均匀一致的温度体验。除

    2025年06月20日
    3
  • 大陆裂谷作为区域变质的环境

      在比利牛斯山脉的非常高温/低压的Hercynian变质过程中,外壳开始以12公里的速度融化,稳定的同位素表明,它被循环的海水冲洗到该深度。没有证据表明地壳碰撞和为此的构造环境,也许所有高温/低压变质性是大陆裂缝的一个区域。

    2025年06月20日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年06月16日

    我是东辰文化的签约作者“admin”!

  • admin
    admin 2025年06月16日

    希望本篇文章《人工智能学会从简单英语的说明中玩电子游戏》能对你有所帮助!

  • admin
    admin 2025年06月16日

    本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享

  • admin
    admin 2025年06月16日

    本文概览:“获取钥匙!”atariAI学会了通过以简单的英语来处理最艰难的Atari视频游戏之一。该系统由加利福尼亚斯坦福大学的团队开发,学会了玩游戏 蒙特祖玛的复仇,其中玩家搜寻阿兹台...

    联系我们

    邮件:东辰文化@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们