OpenAI 让人工智能观看了长达 7 万小时的“《我的世界》”游戏视频,之后它成为了迄今为止水平最高的“《我的世界》”机器人。
OpenAI 以此展示了一种强大的新技术,可以将 YouTube等视频网站的海量资源当作庞大的训练数据集,来训练人工智能模型,让它们学会执行更多的任务。
人工智能在“《我的世界》”中学会了如何完成许多复杂任务,包括人类玩家用一系列特定顺序的键盘敲击和鼠标点击才能完成的任务,比如砍树和制作工具。
它还是第一个学会制作钻石工具的机器人,对于一名熟练玩家来说,这项任务通常需要 20 分钟的快速点击,大约执行 2.4 万个动作。
OpenAI 训练的人工智能能取得这样的成果,依靠的是一种被称为模仿学习的技术。在这种技术中,神经网络通过观察人类来训练和学习。模仿学习还可以用来训练人工智能控制机器人手臂、驾驶汽车或浏览网页。
互联网上有数不尽的视频,展示了人们如何完成各式各样不同的任务。通过对这些视频资源的开发和利用,研究人员希望模仿学习能够实现 GPT-3 在大型语言模型上所达成的成就。
“在过去的几年里,我们看到了 GPT-3 模式的兴起,我们看到的惊人能力源自于在大量互联网资源上训练的大型模型,”OpenAI 的鲍恩·贝克(Bowen Baker)说,他是“《我的世界》”人工智能背后的团队成员之一,“这在很大程度上是因为我们是在模仿人类上网时的行为。”
现有的模仿学习方法的问题是,视频中的每一步操作都需要被贴上标签:做这个动作会使这件事发生,做那个动作会使那件事发生等等。
按照这个方法进行人工标注,工作量非常大,所以我们只能获得少量的数据集。贝克及其团队想找到一种新方法,可以将数百万个网络视频整理得到一个新的数据集。
该团队的方法名为视频预训练(VPT,Video Pre-Training),它旨在训练另一个神经网络来自动标记视频,从而克服了模仿学习的瓶颈。
研究人员首先雇佣了一些人来玩“《我的世界》”,在录屏的同时还会记录下他们的键盘操作和鼠标点击。
这些人提供了大约 2000 个小时的游戏录像,而且因为记录了键盘和鼠标的操作,所以相当于游戏中的动作已经有了标签。
随后研究人员用这些数据训练了一个模型,将动作与屏幕上的结果相匹配。例如,单击鼠标左键在特定情况下会使角色挥舞斧子。
下一步是使用这个模型,为从互联网上找到的 7 万小时的未标注视频生成动作标签,然后在这个更大的数据集上训练“《我的世界》”人工智能。
“视频是一种具有很大潜力的培训资源,”索尼(美国)人工智能的执行董事彼得·斯通(Peter Stone)表示,他之前曾从事模仿学习的工作。
模仿学习是强化学习的另一种方法。在强化学习中,神经网络通过试错来学习如何完成任务。
过去几年里,许多最显著的人工智能突破都离不开强化学习。它被用来训练能够在游戏中打败人类的模型、控制核聚变反应堆,还发现了一种更快地进行基本数学运算的方法。
不过强化学习的问题在于,它只对目标明确的任务最有效。在这些任务中,随机行为有时会导致意外的成功。强化学习算法会奖励那些偶然的成功,使它们更有可能再次发生。
但“《我的世界》”是一个没有明确目标的游戏。玩家可以自由地做他们喜欢做的事情:在计算机生成的世界中漫游,挖掘不同的材料,并且将它们组合成不同的物体。
“《我的世界》”的开放性使其成为培训人工智能的绝佳环境。贝克是一个名为“捉迷藏(Hide & Seek)”项目背后的研究人员之一。
在这个项目中,机器人被部署在一个虚拟的操场上,他们使用强化学习来了解如何合作,并且使用工具来赢得简单的游戏。
“但机器人的成长很快就超越了周围的环境。他们完全掌握了训练场所,然后就陷入了无事可做的状态,”贝克意识到,“我们想扩大训练场,‘《我的世界》’就是一个很好的训练环境。”
他们并不是第一个想到这一点的人。“《我的世界》”正在成为新人工智能技术的重要试验平台。MineDojo 是一个‘《我的世界》’框架,设有几十个预先设计好的挑战,它在 2022 年最大的人工智能会议之一 NeurIPS 上获奖了。
使用视频预训练技术,OpenAI 的人工智能可以完成强化学习无法完成的任务,比如制作几个木板并将它们做成一张桌子,这涉及到大约 970 个连续的动作。
不过,研究小组发现,最好的训练成果来自于同时使用模仿学习和强化学习。使用一个经过视频预训练的机器人,再通过强化学习对其进行微调,就能使它成功执行包含超过 2 万个连续动作的任务。
研究人员声称,他们的方法可以用于训练人工智能执行其他任务。首先,它可以用于那些使用键盘和鼠标浏览网站、预订航班、完成网络购物的机器人。
但从理论上讲,它可以通过模仿人类的第一人称视频,来训练机器人执行现实世界中的任务。“这种想法是合理的,”斯通说。
加拿大阿尔伯塔大学的马修·古兹迪尔(Matthew Guzdial)曾用视频教人工智能学习“《超级马里奥兄弟》”的游戏规则,但他认为“执行现实任务”不会很快实现。
“《我的世界》”和“《超级马里奥兄弟》”等游戏中的动作都是通过按下按钮或鼠标来完成的,但在现实世界中,动作要复杂得多,机器也更难学习。“它其实开启了一大堆新的研究问题,”古兹迪尔说。
从事多主体强化学习工作的娜塔莎·杰奎斯(Natasha Jaques)说:“我们能从这项工作中看到,扩大模型和使用大型数据集进行训练,确实可以获得更优秀的性能。”
杰奎斯还认为,以海量互联网数据为主的数据集,肯定会解锁人工智能的新功能,因为“我们已经一次又一次地看到这种情况,这是一个很好的方法。”
不过她也指出,OpenAI过于相信大数据集的力量,“就我个人而言,我对‘数据能解决任何问题这一点持怀疑态度。”
尽管如此,OpenAI 的贝克及其同事认为,如果能收集超过 100 万小时的‘《我的世界》’的视频,就会让他们开发的人工智能变得更强大。
“这可能是迄今为止在‘《我的世界》’游戏中水平最高的机器人,”贝克说,“但有了更多的数据和更大的模型,我认为你会感到是在看一个人玩游戏,而不是一个初级人工智能在试图模仿人类。”