如何看待Deepmind将研发能玩《毁灭战士1》的AI?

deepmind的Deep q learning已经成功学会了玩红白机游戏,deepmind的ceo表示他们真正研究学会玩《毁灭战士1》《德军总部》这…
关注者
155
被浏览
7,549
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

说好的要来更新,拖延症了下-.- 先来分享下我上周组会的slides:

Naiyan Wang - Miscellaneous

几点insight我愿意在这里再重复一遍:

1. 我个人理解这个文章的本质在于一套end to end learning的框架,通过CNN对原始高维的输入图像进行自动降维和状态定义。最后一层的fully connected layer就可以对应传统Q Learning中的状态。只不过在传统Q Learning中状态需要人工定义,甚至对于每个不同的游戏都需要改变。但是在DQN中,我们可以忘掉这些繁琐的细节了,这一切都是自己学来的。

2. 为什么DQN能成功?我个人认为在于"近乎无限的训练数据"。因为所有的supervision都是来自电脑自动生成。没有比收集这个任务的数据更简单和低成本的了。

3. 如果仔细分析下DQN擅长和不擅长的游戏就会发现,DQN能玩的好的都是拼手速的游戏,比如桌面弹球,拳击。玩好这类游戏的决策只需要观察短时间内的状态。例如,弹球游戏只要球要落范围,就触动弹发。拳击游戏只要对手在攻击范围内,就攻击。再来看看玩的不好的游戏,吃豆子,还有某不知名策略游戏。这两个都是需要某种程度上的长期的策略优化。回到上一点上,这也揭示了一些DQN在自动学习状态定义中的问题:只能考虑相邻数帧的输入,不能考虑long term state。

其实如果能耐心看完上面的分析,题主原问题的答案我已经回答了。DQN的死穴在于long term memory. 以现在DQN的能力,连吃豆子都比随机操作强不了多少,离能玩3D游戏差距太过遥远。当然作为解决short memory中最流行的LSTM,相信可以一定程度上缓解定义long term state这个问题,但我觉得可能也不会是最终解决方案。作为这一波LSTM复兴中先锋力量的DeepMind,我相信LSTM+DQN这个idea肯定已经在做,甚至已经完成。不过究竟能做到什么程度,我们拭目以待。