UC Berkeley提出自监督预测算法

2019-06-20 22:39 阅读 936

无监督学习一直被认为是让人工智能在真实世界中有效工作的研究方向，此前大多数研究都会在训练时为人工智能加入奖励机制以明确目标。UC Berkeley 最近发表的论文提出了一种更为先进的方式，研究人员称这种「好奇心驱动」的人工智能算法不需要奖励机制就能学会如何进行《超级马里奥兄弟》和《Doom》两种游戏，并能达到超越以前方法的表现。该论文已被将于 8 月 6 日召开的 ICML 2017 大会接收。

论文链接：https://arxiv.org/abs/1705.05363
展示页：https://pathak22.github.io/noreward-rl/
GitHub：https://github.com/pathak22/noreward-rl

论文：Curiosity-driven Exploration by Self-supervised Prediction

UC Berkeley 的研究提出了一种生成好奇心驱动内部奖励信号的机制，并将其拓展到了高维的图像输入任务中。在实验中，这种新方法明显优于此前的 A3C 基准。在没有任何外部奖励的环境中，新的人工智能代理可以学会沿着走廊和房间移动的探索行为。

研究人员认为，未来研究的一个方向是让人工智能将学习到的探索行为/技能作为原始行动/低级策略在更为复杂的分层系统中使用。

参考：https://www.jiqizhixin.com/articles/2017-05-17-16

智慧编程 0 名望

发表评论取消回复

登录后才能评论

评论列表（0条）