Gorila (General Reinforcement Learning Architecture)
在5月份圣地亚哥举办的ICLR(International Conference on Learning Representations)会议上,Silver对同一主题做了主题演讲,但那次演讲更注重强化学习(RL)的普遍利益,而不是Gorila本身。
总的来说,在前馈监督学习和无监督强化学习方面,Gorila是Jeff Dean等人开发的著名的DistBelief的一般化。
什么是强化学习?
从ML(机器学习)的角度来看,强化学习(Reinforcement Learning)比监督式学习有某些更优秀的特点,但也很难成功地实现它。监督或半监督学习取决于两个关键特性:
在无监督学习中,没有类别标签和“教师”。最常见的无监督学习的例子是,在没有外界帮助的情况下,算法可以根据数据集的本质特征进行聚类。
强化学习(RL)和监督学习、无监督学习都不同。RL从另一个角度考虑问题,一个网络是否可以在现在通过采取一个或多个动作并在将来有所回报或者付出(潜在的遥远的,即t步之后的步骤)。这种延迟的奖励方案更难训练因为我们可能有大量的t步需要回滚,而且我们同样需要解决债权转让的问题,也就是把网络选择的多个动作和实现目标结合起来。这没有教师模块也没有多少标记的数据,我们只需要能够测量环境中动作的结果。
从数学意义上来说,对于一个给定的环境状态(包含动作action),网络需要选择最好的action,去学习最好的策略从而得到最好的结果。比如求解Q learning/贝尔曼最优方程(来自动态规划派)。
可视化最简单的方法是玩视频游戏(这也是确保主流媒体覆盖面丰富的一种很棒的方式)。:) DeepMind团队使用49款游戏(包括Atari 2600 - Seaquest,Tennis,Boxing等)来训练网络。
关于Gorila
来自于David Silver2015年在ICML大会上介绍强化学习的示意图(已获得试用许可)
我对Gorila感兴趣的地方是,它与Dean的MapReduce或者Chang的BigTable有多少相似之处。在这两种情况下,一个很艰难的问题(有效利用异构计算集群对非常大数据集的存储和查询)以起初从未有过的规模和水平被新的设计良好的网络解决了。
Gorila的四个关键组件:
启示
所有这一切的意义是相当明显的,但是他们的重要性仍值得一提:
最后,Silver和Nair提到了将要发表的论文,一旦发表,我将马上提供链接。