如何看待Deepmind将研发能玩《毁灭战士1》的AI？

Question

如何看待Deepmind将研发能玩《毁灭战士1》的AI？

deepmind的Deep q learning已经成功学会了玩红白机游戏，deepmind的ceo表示他们真正研究学会玩《毁灭战士1》《德军总部》这…

关注者

155

被浏览

7,549

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 4 个回答

说好的要来更新，拖延症了下-.- 先来分享下我上周组会的slides:

Naiyan Wang - Miscellaneous

。

几点insight我愿意在这里再重复一遍：

1. 我个人理解这个文章的本质在于一套end to end learning的框架，通过CNN对原始高维的输入图像进行自动降维和状态定义。最后一层的fully connected layer就可以对应传统Q Learning中的状态。只不过在传统Q Learning中状态需要人工定义，甚至对于每个不同的游戏都需要改变。但是在DQN中，我们可以忘掉这些繁琐的细节了，这一切都是自己学来的。

2. 为什么DQN能成功？我个人认为在于"近乎无限的训练数据"。因为所有的supervision都是来自电脑自动生成。没有比收集这个任务的数据更简单和低成本的了。

3. 如果仔细分析下DQN擅长和不擅长的游戏就会发现，DQN能玩的好的都是拼手速的游戏，比如桌面弹球，拳击。玩好这类游戏的决策只需要观察短时间内的状态。例如，弹球游戏只要球要落范围，就触动弹发。拳击游戏只要对手在攻击范围内，就攻击。再来看看玩的不好的游戏，吃豆子，还有某不知名策略游戏。这两个都是需要某种程度上的长期的策略优化。回到上一点上，这也揭示了一些DQN在自动学习状态定义中的问题：只能考虑相邻数帧的输入，不能考虑long term state。

其实如果能耐心看完上面的分析，题主原问题的答案我已经回答了。DQN的死穴在于long term memory. 以现在DQN的能力，连吃豆子都比随机操作强不了多少，离能玩3D游戏差距太过遥远。当然作为解决short memory中最流行的LSTM，相信可以一定程度上缓解定义long term state这个问题，但我觉得可能也不会是最终解决方案。作为这一波LSTM复兴中先锋力量的DeepMind，我相信LSTM+DQN这个idea肯定已经在做，甚至已经完成。不过究竟能做到什么程度，我们拭目以待。

编辑于 2015-03-11 16:26

查看全部 4 个回答