当前位置: 仰山信息门户网 > 综合 >近5亿次捉迷藏游戏中,AI玩家策略轮番升级,花式使用工具
  • 早报:加拉尔多执教巴萨?

    拜仁官方阿拉巴骨裂,暂将缺席比赛;皇马官方宣布马塞洛肌肉拉伤,一队已经没有健康左后卫。阿根廷媒体称,若巴尔韦德下课,加拉尔多将成为巴萨新主帅头号人选。北京时间10月4日,皇马官方宣布,马塞洛右腿肌肉拉

近5亿次捉迷藏游戏中,AI玩家策略轮番升级,花式使用工具

发布日期:2019-11-08 18:36:45   人气:1793

在生命的早期,生活很简单。它们是微小的单细胞生物,几乎没有协调性。然而,经过数十亿年的竞争和自然选择,这些简单的生命形式已经逐渐演变成我们今天拥有的复杂的生命形式和复杂的人类智能。

总部位于旧金山的盈利人工智能实验室“开放人工智能”的研究人员现在正在测试这一假设:如果竞争可以在虚拟世界中模拟,那么更复杂的人工智能还能进化吗?

最近,openai的实验代理逐渐获得了掌握复杂行为的能力,为更复杂的人工智能的发展指引了一条新的道路。

该实验基于该领域现有的两种思想:多智能体学习,即通过竞争或协调各种算法生成紧急情报;以及强化学习,即在连续测试和纠错过程中学习和实现其目标的特定机器学习技术。

深度思维(Deepmind)凭借其突破性的程序alphago,打败了围棋中最好的人类玩家,从而很好地推广了强化学习的概念。

在最近发表的一篇论文中,openai揭示了这个实验的初步结果。在玩了数亿个捉迷藏游戏后,两个相互竞争的人工智能团队(探索者和隐藏者)设计了复杂的游戏策略,包括使用工具和相互合作。这项研究也是对openai领导的研究策略的深刻诠释:大大扩展现有的人工智能技术,看看是否有新的东西。

论文链接:

https://openai.com/blog/emergent-tool-use/

报纸上有一段有趣的视频:

https://www.youtube.com/embed/kopolzvh5jy

在大约2500万轮捉迷藏游戏后,捉迷藏者学会了通过建造障碍物来阻挡他们的视线来赢得游戏。

捉迷藏战略已经逐步升级。

游戏的设计方式是,研究人员设计了一个虚拟环境,包括一个封闭的空间,里面有各种各样的物体,比如积木、坡道以及可移动和不可移动的障碍物。玩家自己由强化学习算法控制。在每场比赛中,玩家被分成两个队:藏起来的人只要没有被探索者发现就会得到奖励,而探索者会因为找不到藏起来的人而受到惩罚,反之亦然。当我们还是孩子的时候,我们经常玩捉迷藏,藏东西的人可以先玩几秒钟。此外,研究人员没有给玩家任何其他指示。

在数亿轮游戏中,人工智能玩家已经开发了几种隐藏和搜索策略。在第一阶段,隐藏者和探索者的策略非常简单粗暴:他们只是在太空中四处移动。

随着竞争变得越来越复杂,人工智能玩家的策略轮流升级。

但是在大约2500万轮游戏之后,比赛变得更加复杂。隐藏者学会了在太空中移动盒子和路障,并在自己周围建造堡垒,这样探索者就永远看不见它们了。不仅如此,他们还制定了合作策略,例如互相转移物体以加快建造堡垒的进程。

然而,在7500万回合中,探索者找到了对策,游戏进入了第三阶段。他们绕着藏物人的堡垒移动坡道,并用它穿过墙壁。到了第四阶段,经过1000万回合后,隐藏者已经学会在建造堡垒前将坡道锁定到位。(两个团队都不能解锁被另一个团队锁定的对象。)

到了第三阶段,探索者已经学会使用坡道爬过堡垒的墙壁。

起初,openai研究人员认为游戏已经结束。然而,在3.8亿轮之后,出现了两个新的战略。探索者利用锁定的坡道爬上解锁的箱子,然后冲向箱子顶部的藏人堡垒,轻松地穿过墙壁。在最后的六个阶段,躲藏的人也实施了对策:在建造堡垒之前锁定所有的坡道和箱子。

最后,经过3.8亿轮训练,探索者学会了使用“箱式冲浪”穿越堡垒的墙壁。

新复杂智能的可能性

研究人员认为,这些结果初步验证了这种新方法创建复杂人工智能的可行性。该论文的作者之一鲍文·贝克(Bowen baker)说:“我们没有告诉人工智能玩家绕着盒子跑或与之互动,但是通过多智能体竞争,他们为彼此创造了新的任务,一个团队必须想出新的策略来击败另一个团队。”

这项研究反映了openai独特的人工智能研究方法。虽然这个实验室和其他实验室一样,也投资于其他新技术的开发,但它仍因扩大现有技术的使用而广为人知。例如,实验室“臭名昭著”的语言模型gpt-2借鉴了早期语言模型(包括谷歌的bert)的大量算法设计。Openai的创新基于其工程设计和巨大的计算资源。

500彩票 快3网上投注 贵州11选5投注 贵州快3