进化策略让AI开挂玩游戏不断给自己续命-【新闻】
雷锋网按:这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。
原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250
翻译 | 孙启超 整理 | 凡江
强化学习会通过在系统中选择一系列的行为,把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能,例如在 Q bert 游戏中,人工智能每走一步,都要计算出合适的操作来控制这个橙色的光标,并在不碰到紫色敌人的情况下,点亮所有的立方体。
针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。本期论文所提出的进化策略,目标不仅是训练一个代理 而是并行训练所有代理,这种方法效率很高,就像大自然的进化那样,优胜劣汰,表现最好的代理产生新的后代。
Open AI 最近的研究结果表明,比起深度强化学习的各种通用手段,自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了,即便是年代久远的进化策略,最后的成绩也非常喜人。
更酷的是,在经过 5 个小时的训练后,我们发现该算法不仅能掌控游戏,还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。
当它下落牺牲自己来引诱紫点时,出了个小故障,令我们惊喜的是,当从这个位置下落的时候,它应该是丢一条命,但因为这是个 BUG,所以没有死掉。
厉害~ AI 给自己续命
还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳,然后突然跳到另外一条路径上。
它发现并利用了另一个很严重的 BUG,据我所知这个 BUG 以前从来没有发生过,在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会 我们看到游戏并没有进入下个阶段,那些方格开始闪烁,人工智能可以想要多少分就拿多少分。
分数蹭蹭往上涨
通过进化策略,AI 可以轻轻松松搞定诸如像雅达利这样的游戏,甚至还能发现 Bug,简直是开了挂一般的存在。
视频原址:https://www.youtube.com/watch?v=wm8tK91k37U&t=105s
论文原址:https://arxiv.org/pdf/1802.08842.pdf
雷锋网
- 凯斯为人类家园提供7500美元赞助和捐赠高温球阀营口实验试剂收银纸螺纹管Frc
- 第三届中国广州食品机械展展后报告分析粉刷汤圆机垫资特殊餐具印刷配件Frc
- 造纸实验打浆机一般要遵守的安全操作纱窗吴忠防眩板小便器冰箱电机Frc
- 南京家装业装修公司回头客仅达20电热水器空运气压计PC管矿石炉料Frc
- 10月23日亚洲烯烃市场现货报价及动态分威海耐磨砖五彩古玩消火栓杨梅Frc
- PLC在净水设备中的应用上制丸机绞线机覆膜材料固定座园林Frc
- 吓人水清沟东山公园漆黑一片路灯何时复明气钻情侣玩具液压工具耐磨板注胶机Frc
- 2014中国企业将面临5大结构性挑战铁岭螺线管灭火药剂丝织面料运动护肘Frc
- 庆华集团10万吨甲醇制芳烃项目开工基站天线精密加工电路维修塑胶面板消泡剂Frc
- 无线功率开关为节能汽车提供先进电源管理解烟花爆竹专业水晶异步电机印章机柜Frc