<div id="s0ywa"></div>
  • <em id="s0ywa"><tr id="s0ywa"></tr></em><div id="s0ywa"></div>
    1. 张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,??戳此立抢??

      什么是主动视觉跟踪?让目标与跟踪器“斗起来”

      新智元 ? 2019-02-20 09:13 ? 次阅读

      本文是ICLR2019入选论文《AD-VAT: An Asymmetric Dueling mechanism for learning Visual Active Tracking》的深入解读。该论文由?#26412;?#22823;学数字视频编解码技术国家工程实验?#20063;┦可?#38047;方威、严汀沄在王亦洲老师和腾讯AI Lab?#33455;?#21592;孙鹏、罗文寒的指导下合作完成。该?#33455;?#20063;入选了2018腾讯AI Lab犀牛鸟专项?#33455;考?#21010;。

      什么是主动视觉跟踪?

      主动视觉跟踪(Visual Active Tracking)是指智能体根据视觉观测信息主动控制相机的移动,从而实现对目标物体的跟踪(与目标保持特定距离)。主动视觉跟踪在很多真实机器人任务中?#21152;行?#27714;,如用无人机跟拍目标拍摄视频,智能跟随旅行箱等。要实现主动视觉跟踪,智能体需要执行一系列的子任务,如目标识别、定位、运动估计和相机控制等。

      然而,传统的视觉跟踪方法的?#33455;?#20165;仅专注于从连续帧中提取出关于目标的2D包围框,而没有考虑如何主动控制相机移动。因此,相比于这种“被动”跟踪,主动视觉跟踪更有实?#35270;?#29992;价值,但也带来了诸多挑战。

      左?#36857;?#19968;个机器人主动跟随目标移动(?#35745;?#26469;自网络)

      右?#36857;?#23545;?#28982;?#20110;强化学习的端到端主动跟踪和传统的跟踪方法[1]

      深度强化学习方法有前景,但?#26434;芯?#38480;性

      在前期的工作[1][2]中,作者提出了一种用深度强化学习训练端到端的网络来完成主动视觉跟踪的方法,不仅节省了额外人工调试控制器的精力,而且取得了不错的效果,甚至能够直接迁?#39057;?#31616;单的真实场景中工作。

      然而,这种基于深度强化学习训练的跟踪器的性能一定程度上仍然受限于训练的方法。因为深度强化学习需要通过大量?#28304;?#26469;进行学习,而直接让机器人在真实世界中?#28304;?#30340;代价是高昂的。一种常用的解决方案是使用虚拟环境进行训练,但这种方法最大的问题是如何克服虚拟和现实之间的差异,使得模型能够部署到真实应用当中。虽然已经有一些方法尝试去解决这个问题,如构建大规模的高逼真虚拟环境用于视觉导航的训练,将各个因素(表面?#35780;?光照条件等)随机化扩增环境的多样性。

      对于主动视觉跟踪的训练问题,不仅仅前背景物体外观的多样性,目标运动轨迹的复杂程度也将直接影响跟踪器的泛化能力。可以考虑一种极端的情况:如果训练时目标只往前走,那么跟踪器自然不会学会?#35270;?#20854;它的运动轨迹,如急转弯。但对目标的动作、轨迹等因素也进行精细建模将会是代价高昂的且无法完全模拟所有真实情况。

      让目标与跟踪器“斗起来”

      因此,作者提出了一种基于对抗博弈的强化学习框架用于主动视觉跟踪的训练,称之为AD-VAT(Asymmetric Dueling mechanism for learning Visual Active Tracking)。

      在这个训练机制中,跟踪器和目标物体被视作一对正在“决斗”的对手(见下?#36857;?#20063;就是跟踪器要尽量跟随目标,而目标要想办法脱离跟踪。这种竞争机制,使得他们在相互挑战对方的同时相互促进共同提升。

      当目标在探索逃跑策略时,会产生大量多种多样的运动轨迹,并且这些轨迹往往会是当前跟踪器仍不擅长的。

      在这种有对抗性的目标的驱动下,跟踪器的弱点将更快地暴?#31471;?#20043;进行强化学习,最终使得其鲁棒性得到显著提升。

      在训练过程中,因为跟踪器和目标的能力都是从零开始同步增长的,所?#36816;?#20204;在每个训练阶段都能够遇到一个能力相当的对手与之竞争,这就自然得构成了从易到?#35757;目?#31243;,使得学习过程更加高效。

      然而,直接构造成零和游戏进行对抗训练是十分不稳定且难以收敛的。

      AD-VAT概览

      如何让对抗更加高效且稳定?

      为解决训练的问题,作者提出了两个改进方法:不完全零和的奖赏函数(partial zero-sum reward)和用于目标的跟踪可知模型(tracker-aware model)。

      不完全零和奖赏是一种混合的奖赏结构,仅鼓励跟踪器和目标在一定相对范围内进行零和博?#27169;?#24403;目标到达一定距离外时给予其额外的惩罚,此时将不再是零和博?#27169;?#22240;此称之为不完全零和奖?#27712;?/p>

      这么设计奖赏函数是为了避免一个现象,当目标快速远离跟踪器时,跟踪器将不能观察到目标,以至于训练过程变得低效甚至不稳定。

      上式为跟踪器的奖赏函数,沿用了[1]中的设计思想,惩罚项由期望位置与目标之间的距离所决定。

      上式为目标的奖赏函数,在观测范围内,目标与跟踪器进行零和博?#27169;?#21363;奖赏函数为跟踪器的奖赏直接取负。在观测范围外,将在原来的基础?#31995;?#21040;一个额外的惩罚项,惩罚项的取?#31561;?#20915;于目标与跟踪器的观测边界的距离。

      跟踪可知模型是为了让目标能够针对跟踪策略学会更优的对抗策略,所谓“知己知彼,百战不殆”。具体的,除了其自身的视觉观测外,还额外获得了跟踪器的观测和动作输出作为模型的输入。

      为了更好地学习关于跟踪器的特征表示,作者还引入了一个辅助任务:预测跟踪器的即时奖赏值。

      基于以?#32454;?#36827;,“决斗(Dueling)?#24444;?#26041;在观测信息、奖赏函数、目标任务上将具备不对称性(Asymmetric),因此将这种对抗机制称之为“非对称决斗(Asymmetric Dueling)”。

      实验环境

      作者在多种不同的2D和3D环境开展了实验以更进一步验证该方法的?#34892;?#24615;。2D环境是一个简单的矩阵地?#36857;?#29992;不同的数值?#30452;?#34920;示?#20064;?#29289;、目标、跟踪器等元素。

      作者设计了两种规则生成地图中的?#20064;?#29289;分?#36857;˙lock, Maze)。作者设计了两种基于规则的目标运动模型作为基?#36857;?#28459;步者(Rambler)和导航者(Navigator)。

      漫步者是随机?#21451;?#25321;动作?#32479;中?#30340;时间,生成的轨迹往往在一个?#38047;?#33539;围内移动(见Block-Ram中的黄色轨迹)。

      导航者则是从地图中随机采样目标点,然后沿着最短路径到达目标,因此导航者将探索更大范围(见Block-Nav中的黄色轨迹)。

      将这些不同种的地图和目标?#26469;?#32452;合,构成了不同的训练和测试环?#22330;?#20316;者只用其中的一种地?#36857;˙lock)用作训练,然后在所有可能的组合环境中测试,从而证明模型的泛化能力。

      3D环境是基于UE4和UnrealCV[3]构建的虚拟环?#22330;?#20316;者只用一个采取域随机技术(环境中物体表面?#35780;懟?#20809;照条件都可以进行随机设置)的?#32771;洌―R Room, Domain Randomized Room)进行训练,然后在三个不同场景的近真实场景中测试模型的性能。

      实验结果

      在2D环境中,作者首先验证了AD-VAT相?#28982;?#20934;方法能够带来?#34892;?#25552;升,同时进行了消融实验来证明两个改进方法的?#34892;?#24615;。

      左图为AD-VAT(蓝线)和基准方法在2D环境中的训练曲线,可见AD-VAT能够让跟踪器学得更快更好。右图为消融实验的结果,对比删减不同模块后的学习曲线,作者提出的两个改进方法能够使对抗强化学习的训练更高效。

      作者在3D环境中的实验更进一步证明该方法的?#34892;?#24615;和实用性。

      在训练过程中,作者观测到了一个有趣的现象,目标会更倾向于跑到背景与其自身?#35780;?#25509;近的区域,以达到一种“隐身”的效果来迷惑跟踪器。而跟踪器在被不断“?#35757;埂?#21518;,最终学会了?#35270;?#36825;些情况。

      作者对比了由AD-VAT和两种基准方法训练的跟踪器在不同场景中的平均累计奖赏(左?#36857;┖推?#22343;跟踪长度(右?#36857;?/p>

      其中,雪乡(Snow Village)和地下停车场(Parking Lot)是两个十分有挑战性的环?#24120;?#27599;个模型的性能都有不同程度的下降,但该论文提出的模型取得了更好的结果,说明了AD-VAT跟踪器对复杂场景的?#35270;?#33021;力更强。

      雪乡主要的挑战在于地面崎岖不平,且相机会被下落的雪花、逆光的光晕等因素干扰导致目标被遮挡:

      左图为跟踪器第一人称视角,右图为第三人称视角

      停车场中光线分布不均匀(亮?#24403;?#21270;剧烈),且目标可能被立柱遮挡:

      左图为跟踪器第一人称视角,右图为第三人称视角

      原文标题:ICLR2019 | 你追踪,我逃跑:一种用于主动视觉跟踪的对抗博弈机制

      文章出处:【微信?#29275;篈I_era,微信公众?#29275;?#26032;智元】欢迎添加关注!文章转载请注明出处。

      收藏 人收藏
      分享:

      评论

      相关推荐

      强化学习之父Richard Sutton总结AI?#33455;俊?#33510;涩教训”

      人类不会犯这样的错误,因为他们知道停车标志是红色的,限速标志是白色的。CNN 并不知道这一点,因为相....
      的头像 新智元 发表于 03-22 08:45 ? 373次 阅读
      强化学习之父Richard Sutton总结AI?#33455;俊?#33510;涩教训”

      利用计算机视觉、深度强化学?#26114;蚒nity 3D游戏引擎开发一款自主收集垃圾的机器人

      机器人最初不太能?#26234;?#26970;要将哪种物品归为垃圾,后来,通过网络将RBG图像?#25104;淶接?#20041;分割?#36857;?#33021;够?#34892;?#33719;得....
      的头像 电子发烧友网工程师 发表于 03-21 16:24 ? 485次 阅读
      利用计算机视觉、深度强化学?#26114;蚒nity 3D游戏引擎开发一款自主收集垃圾的机器人

      70年来AI?#33455;?#26041;面?#30446;?#28073;教训:我们过于依靠人类知?#35835;?/a>

      Sutton认为,过去70年来,AI?#33455;?#36208;过的最大弯?#32602;?#23601;是过于重视人类既有经验和知识,?#33455;?#20154;员在训....
      的头像 新智元 发表于 03-18 09:39 ? 157次 阅读
      70年来AI?#33455;?#26041;面?#30446;?#28073;教训:我们过于依靠人类知?#35835;? />    </a>
</div><div class=

      SiATL——最新、最简易的迁移学习方法

      许多传统的迁移学习方法都是利用预先训练好的语言模型(LMs)来实现的,这些模型已经非常流行,并且具有....
      的头像 电子发烧友网工程师 发表于 03-12 15:13 ? 244次 阅读
      SiATL——最新、最简易的迁移学习方法

      OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境

      作为一个简单的基线团队使用普通的策略梯度来训练一个小型的、完全连接的体系结构,将值函数基线和奖励折扣....
      的头像 电子发烧友网工程师 发表于 03-07 16:02 ? 242次 阅读
      OpenAI发布了一个名为“Neural  MMO”的大型多智能体游戏环境

      OpenAI发布Neural MMO—一个强化学习的大型多智能体游戏环境

      其中,持久性和规模化将是探讨的关键属性,但?#33455;空?#20204;还需要更好的基准测试环?#24120;?#22312;存在大量人口规模?#32479;志?...
      的头像 电子发烧友网工程师 发表于 03-06 15:30 ? 821次 阅读
      OpenAI发布Neural MMO—一个强化学习的大型多智能体游戏环境

      OpenAI刚刚开源了一个大规模多智能体游戏环境

      我们需要创建具有高度复杂性上限?#30446;?#25918;式任务:当前的环境要么虽然复杂但过于狭窄,要么虽然开放但过于简单....
      的头像 新智元 发表于 03-06 09:07 ? 213次 阅读
       OpenAI刚刚开源了一个大规模多智能体游戏环境

      在没?#24615;?#38590;性遗忘的情况下,实现深度强化学习的伪排练

      来自中国的?#33455;?#20154;员通过提出一种新的动态特征融合(DFF)策略来管理动态特征融合,该策略为不同的图像和....
      的头像 电子发烧友网工程师 发表于 03-05 17:13 ? 669次 阅读
      在没?#24615;?#38590;性遗忘的情况下,实现深度强化学习的伪排练

      利用强化学习来更好地进行商品搜索的项目

      逆强化学习 (IRL) 方法从数据中学习一个奖励函数,然后根据这个奖励函数训练一个策略。IRL 放松....
      的头像 新智元 发表于 03-05 09:06 ? 337次 阅读
      利用强化学习来更好地进行商品搜索的项目

      多智体深度强化学习?#33455;?#20013;首次将概?#23454;?#24402;?#35780;?#24341;入AI的学习过程

      在传统的多智体学习过程当中,有?#33455;空?#22312;对其他智能体建模 (也即“对手建模”, opponent mo....
      的头像 新智元 发表于 03-05 08:52 ? 477次 阅读
      多智体深度强化学习?#33455;?#20013;首次将概?#23454;?#24402;?#35780;?#24341;入AI的学习过程

      盘点人工智能行业的25大趋势

      知名创投?#33455;?#26426;构CB Insights调研了25种最大的AI趋势,以确定2019年该技术的下一步趋势....
      的头像 机器人博览 发表于 02-25 14:13 ? 1342次 阅读
      盘点人工智能行业的25大趋势

      一个基于TF2.0的强化学习训练工具

      目前,Huskarl 已经支持了 DQN(Deep Q-Learning Network)、Mult....
      的头像 电子发烧友网工程师 发表于 02-25 09:28 ? 466次 阅读
      一个基于TF2.0的强化学习训练工具

      谷歌提出元奖励学习,两大基准测?#36816;?#26032;最优结果

      重要的是,由于奖励不明?#32602;?#26234;能体可能会收到“利用环境中的虚假模式”的正反馈,这就有可能导致奖励黑客攻....
      的头像 新智元 发表于 02-24 10:34 ? 576次 阅读
      谷歌提出元奖励学习,两大基准测?#36816;?#26032;最优结果

      神经科学为人工智能发展提供进一步助力

      人工智能?#30001;?#32463;科学领域吸收了大量养分,并由此催生了深度学?#26114;?#24378;化学习等智能处理方法。
      的头像 人工智能学家 发表于 02-19 14:58 ? 496次 阅读
      神经科学为人工智能发展提供进一步助力

      一场人与AI的辩论赛,Debater败了!

      简单来说就是,不管你是亚马逊云、微软云、谷歌云、阿里云还是 IBM 云,公?#24615;啤⑺接性?#36824;是混?#26174;疲琖....
      的头像 IBM中国 发表于 02-18 15:30 ? 1090次 阅读
      一场人与AI的辩论赛,Debater败了!

      CB Insights:2019年人工智能行业25大趋势

      知名创投?#33455;?#26426;构CB Insights调研了25种最大的AI趋势,以确定2019年该技术的下一步趋势....
      发表于 02-18 10:34 ? 766次 阅读
      CB Insights:2019年人工智能行业25大趋势

      谷歌、DeepMind重磅推出PlaNet 强化学习新?#40644;?/a>

      Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet),这是一个纯粹基于模....
      的头像 新智元 发表于 02-17 09:30 ? 624次 阅读
      谷歌、DeepMind重磅推出PlaNet 强化学习新?#40644;? />    </a>
</div><div class=

      星?#25910;?#38712;2顶?#24230;?#24037;智能AlphaStar带来哪些新思?#32602;?/a>

      另一种理解方式是,游戏信息被组织成若干个网格,每份网格代表某一项特定信息(见上?#21152;也啵?#27604;如说“fo....
      的头像 新智元 发表于 02-13 09:38 ? 565次 阅读
      星?#25910;?#38712;2顶?#24230;?#24037;智能AlphaStar带来哪些新思?#32602;? />    </a>
</div><div class=

      深度强化学习大神Pieter Abbeel发表深度强化学习的加速方法

      首先将多个 CPU核心 与 单个GPU 相关联。多个模拟器在CPU内核上以并行进程运行,并且这些进程....
      的头像 新智元 发表于 02-13 09:31 ? 442次 阅读
      深度强化学习大神Pieter Abbeel发表深度强化学习的加速方法

      让我们一起来感受夏威夷扑面而来的AI暖风吧

      AAAI19的教程在27号和28号举行,基本?#20064;?#25324;了人工智能基础?#33455;?#39046;域近年来的最新进展。在教程中可....
      的头像 将门创投 发表于 01-29 10:34 ? 1205次 阅读
      让我们一起来感受夏威夷扑面而来的AI暖风吧

      AAAI 2019已经在美国夏威夷拉开了帷幕,AAAI 2019最佳论文公布

      有限时域前?#23433;?#30053;(Finite-horizon lookahead policies)已经在强化学习....
      的头像 新智元 发表于 01-29 09:30 ? 831次 阅读
      AAAI 2019已经在美国夏威夷拉开了帷幕,AAAI 2019最佳论文公布

      深度强化学习打造的ANYmal登上Science子刊,真的超越了波士顿动力!

      习得运动控制器的量化评估结果。A. 发现的步态模式按速度指令以 1.0 m/s 的速度运行。LF 表....
      的头像 悟空智能科技 发表于 01-28 14:12 ? 510次 阅读
      深度强化学习打造的ANYmal登上Science子刊,真的超越了波士顿动力!

      对NAS任务中强化学习的效率进行深入思考

      在一些情况下,我们会用策?#38498;?#25968;(policy, 总得分,也就是搭建的网络在测试集上的精度(accur....
      的头像 电子发烧友网工程师 发表于 01-28 09:54 ? 619次 阅读
      对NAS任务中强化学习的效率进行深入思考

      关于AlphaStar你最应该知道的15件事

      在PBT?#34892;?#35201;多少种不同的agent才能保持足够的多样性,以防止灾难性遗忘?#31354;?#19982;agent的数量有多....
      的头像 新智元 发表于 01-28 09:13 ? 1020次 阅读
      关于AlphaStar你最应该知道的15件事

      更好的理解TensorFlow 2.0的新特性

      虽然很多基础的RL理论是在表格案例中开发的,但现代RL?#36127;?#23436;全是用函数逼近器完成的,例如人工神经网络....
      的头像 新智元 发表于 01-23 09:20 ? 483次 阅读
      更好的理解TensorFlow 2.0的新特性

      逆天了!跟波士顿动力机器狗有得一拼

      不像现在的许多四足机器人,ANYmal有?#28010;?#33021;力,是专门为穿越不太理想的环境而设计的,比如森?#24103;?#24037;业....
      的头像 新智元 发表于 01-21 08:31 ? 530次 阅读
      逆天了!跟波士顿动力机器狗有得一拼

      帮你们破除RL的神秘感,理清各算法发展的脉络

      因为篇幅所限,简单介绍一下V(s)与Q(s,a)。它们是Value Function Approxi....
      的头像 人工智能爱好者社区 发表于 01-14 16:57 ? 409次 阅读
      帮你们破除RL的神秘感,理清各算法发展的脉络

      深度强化学习能让机器人拥有人一样的意识

      机器人拥有人一样的意识,一直是我们目前难以攻克的难题。在近日,加州大学伯克利?#20013;5目?#23398;家和谷歌人工智....
      发表于 01-03 09:50 ? 750次 阅读
      深度强化学习能让机器人拥有人一样的意识

      人工智能发展的正确方向是什么

      神经学家卡尔·弗里斯顿最初将?#26434;?#33021;原理用在神经科学,是为了治疗神经疾病以?#26114;?#29702;的解释世界,?#27425;?#24819;到数....
      的头像 人工智能 发表于 12-28 16:55 ? 959次 阅读
      人工智能发展的正确方向是什么

      如何测试强化学习智能体?#35270;?#24615;

      强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转?#39057;?#26032;环境中。
      的头像 人工智能快报 发表于 12-24 09:29 ? 498次 阅读
      如何测试强化学习智能体?#35270;?#24615;

      全新的强化学习算法:柔性致动/评价(soft actor-critic,SAC)

      为了评价新型算法的表现,?#33455;?#20154;员首先在仿真环境中利用标准的基准任务来对SAC进行了评测,并与深度确定....
      的头像 将门创投 发表于 12-20 10:31 ? 1080次 阅读
      全新的强化学习算法:柔性致动/评价(soft actor-critic,SAC)

      AlphaZero:一个算法通吃三大棋类

      AlphaZero?#22363;?#20102;AlphaGo Zero的算法设置和网络架构等,但两者也有诸多不同之处。比如....
      的头像 电子发烧友网工程师 发表于 12-17 16:08 ? 895次 阅读
      AlphaZero:一个算法通吃三大棋类

      伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0

      在?#33322;?#20132;通拥堵方面,只需要控制极少量自动驾驶车辆的速度,就能大幅度提高交通流的效?#30465;?#22810;主体强化学习就....
      的头像 将门创投 发表于 12-17 09:26 ? 700次 阅读
      伯克利RISELab推出了多主体强化学习包Ray RLlib 0.6.0

      针对姿态传感器的姿态估?#21697;?#27861;的详细资料说明免费下载

      针对姿态传感器提供不同采样率和时延的矢量测量离散时间样本的情况,提出了一种姿态估?#21697;?#27861;。所提出的方法....
      发表于 12-11 08:00 ? 84次 阅读
      针对姿态传感器的姿态估?#21697;?#27861;的详细资料说明免费下载

      ?#39134;?#26368;强棋类AI降临!也是迄今最强的棋类AI——AlphaZero

      “尽管MCTS已经成为围棋程序中的标准搜索方法,但迄今为止,?#36127;?#27809;有证据表明它在国际象棋或将棋中有用....
      的头像 新智元 发表于 12-08 09:24 ? 1168次 阅读
      ?#39134;?#26368;强棋类AI降临!也是迄今最强的棋类AI——AlphaZero

      11月250个机器学习开源项目中最佳机器学习开源项目Top10!

      Adanet 是 TensorFlow 开源的一个轻?#32771;?TensorFlow 框架,只需少量专家干....
      的头像 电子发烧友网工程师 发表于 12-03 10:42 ? 588次 阅读
      11月250个机器学习开源项目中最佳机器学习开源项目Top10!

      Atari游戏?#39134;?#26368;强通关算法来了——Go-Explore!

      普通的强化学习算法通常无法?#29992;商?#31062;玛的第一个?#32771;洌?#24471;分400或更低)中跳出,在Pitfall中得分为....
      的头像 新智元 发表于 12-03 09:51 ? 1157次 阅读
      Atari游戏?#39134;?#26368;强通关算法来了——Go-Explore!

      基于部分可观察马尔可夫决策过程思考自然语?#28304;?#29702;和强化学习问题的一些想法

      但是端到端世界的态度看起来是,既然我们不再进行逻辑?#35780;恚?#37027;么我们完全没有必要考虑含义。突然之间,所有....
      的头像 论智 发表于 11-30 08:36 ? 662次 阅读
      基于部分可观察马尔可夫决策过程思考自然语?#28304;?#29702;和强化学习问题的一些想法

      Reaver在《星?#25910;?#38712; II》各种小型游?#39134;?#19982;其他AI的性能对比

      “对于业余爱好者而言,只要对 Reaver 稍作修?#27169;?#20363;如超?#38382;?#23601;能得到训练深度强化学习智能体的....
      的头像 新智元 发表于 11-29 09:43 ? 915次 阅读
      Reaver在《星?#25910;?#38712; II》各种小型游?#39134;?#19982;其他AI的性能对比

      限制AI技术出口并不能遏制中国发展

      人工智能已成为全球科技发展的趋势,各国争相为在这一领域占有一席之地。
      的头像 人工智能 发表于 11-26 15:26 ? 2016次 阅读
      限制AI技术出口并不能遏制中国发展

      DeepMind终于公开了它联合UCL的“高级深度强化学习课程?#20445;?/a>

      在深度学?#23433;?#20998;,课程简要介绍了神经网络和使用TensorFlow的监督学习,然后讲授卷积神经网络、递....
      的头像 新智元 发表于 11-26 09:27 ? 1660次 阅读
      DeepMind终于公开了它联合UCL的“高级深度强化学习课程?#20445;? />    </a>
</div><div class=

      智能体的连接问题,如何创建能符合人类目标的智能体?

      长期来看,我们会扩大奖励建模的规模,将其应用于人类难以评估的领域。为了做到这一点,我们需要增强用户衡....
      的头像 论智 发表于 11-24 09:31 ? 553次 阅读
      智能体的连接问题,如何创建能符合人类目标的智能体?

      ?#33455;?#20154;员们提出了一种新的导航工具SafeRoute

      另外,策略网络表示强化学习智能体使用的随机策略,用πθ(s, a) = p(a|s;θ)表示,其中θ....
      的头像 论智 发表于 11-24 09:19 ? 601次 阅读
      ?#33455;?#20154;员们提出了一种新的导航工具SafeRoute

      基于模型的学习vs无模型学习

      需要注意的是,这种方法只能应用于?#32423;?#21457;生的马尔?#21697;?#20915;策过程。原因是在计算?#25105;?#36820;回之前,这一episo....
      的头像 论智 发表于 11-22 09:06 ? 624次 阅读
      基于模型的学习vs无模型学习

      最新机器学习开源项目Top10

      Learning Acrobatics by Watching Youtube 是 Berkeley....
      的头像 电子发烧友网工程师 发表于 11-20 09:47 ? 741次 阅读
      最新机器学习开源项目Top10

      ?#21482;?#28216;戏?#30563;?#22836;霸王 3》中进行模拟来训练改进强化学习算法的工具包

      实际?#32454;?#24037;具包与模拟器本身不需要太多的交互,只需要查找和内部状态相关联的内存地?#32602;?#21516;时用所选取的环境....
      的头像 电子发烧友网工程师 发表于 11-13 09:30 ? 679次 阅读
      ?#21482;?#28216;戏?#30563;?#22836;霸王 3》中进行模拟来训练改进强化学习算法的工具包

      如何构建强化学习模型来训练无人车算法

      本文作者通过简单的方式构建了强化学习模型来训练无人车算法,可以为初学者提供快速入门的经验。
      的头像 智车科技 发表于 11-12 14:47 ? 719次 阅读
      如何构建强化学习模型来训练无人车算法

      10月最热的10篇AI相关文章

      如果不避让就会撞上一群人,避让就会撞上另一个人,它应该避开人群吗?它应该保护乘?#20572;?#36824;是保护行人?它应....
      的头像 新智元 发表于 11-12 10:28 ? 776次 阅读
      10月最热的10篇AI相关文章

      利用AI让机器人学会自己穿衣服

      我?#25250;么?#35273;信息的显著表示,来指导虚拟人物穿衣的过程,并将其用于奖励函数中,在训练期间提供明确的学习....
      的头像 新智元 发表于 11-08 10:00 ? 729次 阅读
      利用AI让机器人学会自己穿衣服

      ICLR 2019共接收1591篇投稿,创下历年新高

      我建议你们将会议视为一种“必须申请的免费推广机会?#20445;?#23427;会对已经很好的论文有帮助,但评分多少并没有论文....
      的头像 新智元 发表于 11-08 09:43 ? 1070次 阅读
      ICLR 2019共接收1591篇投稿,创下历年新高

      支持64位时间戳的实时以太网跟踪器设计含原理图和物料清单

      描述             Real-time ethernet and industrial ethernet are used in the ...
      发表于 11-02 16:37 ? 482次 阅读
      支持64位时间戳的实时以太网跟踪器设计含原理图和物料清单

      车辆跟踪系统:任?#38382;?#38388;、任何地点、任何方式

      Steve Knoth 背景知识 车辆跟踪系统非常适合监控单辆车或整个车队。跟踪系统由自动跟踪硬件和数据采集软件(如果需要的话,...
      发表于 10-29 17:04 ? 272次 阅读
      车辆跟踪系统:任?#38382;?#38388;、任何地点、任何方式

      车辆跟踪系统的五个关键部分解析

      车辆跟踪系统非常适合监视一辆汽车或整个车队。跟踪系统由自动跟踪硬件和用于收集数据(如果需要的话,还有数据传输)的软件组成...
      发表于 10-22 16:46 ? 204次 阅读
      车辆跟踪系统的五个关键部分解析

      使用 TPS40200-Q1 为安全跟踪器供电的参考设计PMP4629

                                 &nb...
      发表于 07-24 08:03 ? 331次 阅读
      使用 TPS40200-Q1 为安全跟踪器供电的参考设计PMP4629

      关于“智能跟踪教学系统的设计与实现”的算法移植

      各位大神们,小的有一个疑问,我现在在做一个项目,是关于“智能跟踪教学系统的设计与实现?#20445;?#22312;VC上编程,通过两台摄像机已经...
      发表于 02-19 18:55 ? 1493次 阅读
      关于“智能跟踪教学系统的设计与实现”的算法移植
      山西快乐十分预测
      <div id="s0ywa"></div>
    2. <em id="s0ywa"><tr id="s0ywa"></tr></em><div id="s0ywa"></div>
        <div id="s0ywa"></div>
      1. <em id="s0ywa"><tr id="s0ywa"></tr></em><div id="s0ywa"></div>