博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
PlaNet,使用图像输入来学习世界模型
阅读量:5737 次
发布时间:2019-06-18

本文共 776 字,大约阅读时间需要 2 分钟。

Google AI团队与DeepMind合作,上周宣布了一个名为PlaNet的新的开源“Deep Planning”网络。 PlaNet是一个人工智能代理,它只使用图像输入来学习世界模型,并使用这些模型进一步计划以获得经验。

PlaNet可以轻松解决各种基于图像的控制任务,并与先进的无模型代理商竞争。 Google AI团队还发布了研究社区的源代码,以进一步探索和构建PlaNet。

PlaNet如何运作?

PlaNet依赖于隐藏或潜在状态的紧凑序列。这被称为潜在动力学模型,其中不是直接从一个图像预测到下一个图像,而是首先预测潜在状态前向。 “通过以这种方式压缩图像,代理可以自动学习更多抽象的表示,例如对象的位置和速度,使得更容易预测前进,而不需要一路生成图像”,Google AI团队表示。

在隐态动力学模型中,输入图像的信息通过编码器网络集成到隐态中。然后将隐藏状态进一步向前预测,以预测未来的图像和奖励。对于规划,将过去的图像编码成当前的隐藏状态,然后预测多个动作序列的未来奖励。

PlaNet,使用图像输入来学习世界模型PlaNet,使用图像输入来学习世界模型

PlaNet代理在不同的基于图像的控制任务上接受培训

PlaNet代理经过各种基于图像的控制任务的培训。这些任务带来了不同的挑战,例如部分可观察性,用于接球的稀疏奖励等。此外,训练单个PlaNet代理来解决所有六个任务。在不对超参数进行任何更改的情况下,此多任务代理能够实现与各个代理相同的平均性能。

“我们提倡进一步研究,重点是学习更高难度任务的精确动力学模型,例如3D环境和现实世界的机器人任务。我们对基于模型的强化学习开辟的可能性感到兴奋“,Google AI团队表示。

本文地址:

转载于:https://blog.51cto.com/14197666/2360342

你可能感兴趣的文章
go : 结构
查看>>
【Python第五篇】Python面向对象(初级篇)
查看>>
innobackupex参数之 --throttle 限速这个值设置多少合理 原创
查看>>
18 已知下面的字符串是通过RANDOM随机数变量md5sum|cut-c 1-8截取后的结果
查看>>
BZOJ - 3578: GTY的人类基因组计划2
查看>>
理解WebKit和Chromium(电子书)
查看>>
爱——无题
查看>>
分布式服务框架原来与实践 读书笔记一
查看>>
Aho-Corasick automation-KMP
查看>>
【http】post和get请求的区别
查看>>
/etc/profile
查看>>
TFS强制撤销某个工作区的文件签出记录
查看>>
编写who命令
查看>>
2.1 sikuli 中编程运行
查看>>
常见的位运算技巧总结(膜wys)
查看>>
python魔法函数(二)之__getitem__、__len__、__iter__
查看>>
EL表达式无法显示Model中的数据
查看>>
Linux应用小技巧
查看>>
考题纠错2
查看>>
ps6-工具的基础使用
查看>>