这个程序当然不会是完美的,在某些游戏中,它的表现相当糟糕,研究一下为什么会出现这种情况也挺有意思。在程序玩得特别糟糕的游戏中,有一款叫作“蒙特祖玛的复仇”,它的难点在于奖励非常稀少:玩家在获得奖励之前必须执行一系列复杂的任务(这一点与打砖块这种游戏不同,在打砖块游戏中奖励反馈或多或少都是即时的)。通俗地说,如果奖励反馈在相关行动执行后很长时间才出现,就会给强化学习带来困难:这就是前文我们讨论过的信用分配问题,即你可能不清楚是哪些行为导致了奖励的发生。
如果雅达利游戏程序是深度思维团队唯一完成的东西,那也足够让他们在人工智能的历史上留下令人尊重、浓墨重彩的一笔,但是,该团队随后又取得了一系列惊人的成就。
其中最著名的是AlphaGo,在撰写本书的时候,它可能仍然是迄今为止最著名的人工智能系统。AlphaGo的功能是玩一种源自中国的古老棋类游戏:围棋。