辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜

admin 4个月前 ( 07-29 03:24 ) 0条评论
摘要: CVPR 2019 最佳学生论文官方解读!...

通往强 AI 之路,从架起视觉与言语的桥梁开端!

编译:MrBear

修改:Pita 

AI 科技谈论按:作为人类感知世界、进行交互的两大最重要的办法,视觉和言语一向是人工智能范畴研讨的要点。近年来,将视觉与言语信息进行交融和转化成为了一个活泼的研讨方向,许多让人眼前一亮的作业也随之发生。微软研讨院在文本中,对其获得 CVPR 2019 最佳学生论文的作业进行了技能解析,非常值得一读!

人类怎么进行高效的交流呢?人们普遍以为,人类用来交流的词语(例如「狗」)会引发对物理概念的类似了解。实际上,咱们关于狗的物理外形、宣布的声响、行走或奔驰的办法等都有一同的概念。换句话说,自然言语与人类与他们所在的环境之间的交互办法休戚相关。因而,经过将自然言语基标对准到咱们所在环境的各种模态中(例如图画、动作、物体、声响等),能够发生有意义的行为。心理学范畴最新的研讨效果标明,婴儿最或许学会的第一个单词是依据其视觉体天天干天天射验的,这为婴儿言语学习问题的新理论奠定了根底。那么现在问题来了:咱们是否能够构建出能够像人类相同,学着在不同模态下进肉宠行交流的智能体?

辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜
辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜

在各种多模态学习使命中,视觉-言语导航(VLN)是一类非常风趣也极具应战性的使命。这是由于,为了能够以遵从自然言语指令的办法对实在环境中的智能体进行导航,咱们需求执敖德萨的勋绩行两层基标对准:将指令基标对准那坡山歌到部分空间视觉场景中,然后将指令与大局时序视觉轨道相匹配。最近,深度神经网络范畴的作业要点重视于经过在视觉上基标对准言语学习使命,来连通视觉和自然言语了解的桥梁,然后构建智能体,这要求研讨人员具有机器学习、计算机视觉、自然言语处理以及其它范畴的专业知画江湖之无道暴君识。

关于这种基标对准使命而言,深度学习技能非常具有运用远景,这是由于运用深度学习技能能够使得一同从计算机视觉和言语的初级感知数据中学习到高档语义特征成为或许。此外,深度学习模型也使咱们能够将不同模态的信息交融到同一种表征中。根底言语学习使命还要求与某个外部环境进行交互;因而,强化学习为咱们供给了一种高雅的结构,能够依据视觉层面来完结对话使命规划。一切这些研讨发展使得处理具有应战性的 VLN 使命在hornytrip技能上可行。

图 1:视觉言语导航(VLN)使命示意图。图中展现了指令、部分视觉场景,以及从仰望视角描绘的大局轨道。智能体并不能获取仰望图信息。途径 A 是遵从指令得到的正确演示途径。途径 B 和 C 代表智能体履行出的两条途径。

微软研讨院的视觉和言语研讨人员一向致力于研讨对自然言语和视觉交互进行基标对准的各种不同的办法,并一向在应对 VLN 所特有的应战。CVPR 2019 中,由微软 AI 研讨院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao,加州大学圣巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉,以及杜克大学的 Dinghan Shen 一同完结的作业「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Languag愿望深渊e Navigation」获得了最佳学生论文,微软的 VLN 研讨团队在本论文中探究了处理 VLN 范畴这三个要害应战的计划:跨模态基标对准(cross-modal grounding)、不适定反应(ill-posed feedback)以及泛化(gener辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜alization)问题。不仅如此,这项作业所获得的好效果非常激动人心!

  • 论文检查地址:https://www.microsoft.com/en-us/research/publication/reinforced-cross-modal-matching-and-self-supervised-imitation-learning-forvision-language-navigation/

其间的一个应战是,依据视觉图画和自然言语指令进行推理。如图 1 所示,为了抵达目的地(用黄色圆圈高亮表明),智能体需求将用单词序列表征的指令对标到部分的视觉场景中,而且将指令与大局时序空间中的视觉轨道匹配起来。为了处理这个问题,咱们提出了一种新的强化跨模态匹配(RCM)办法,它能够经过强化学习在部分和大局进行跨模态根底标对。

如图 2a 所示,咱们的研讨团队规划了一个带有两种奖赏函数的推理导航器。外部奖赏会辅导智能体学习文本指令和部分视觉场景之间的跨模态根底对标,然后使智能体能够推测出要重视的子指令以及相应的视觉内容。一同,从大局的视点来看,内部奖赏和匹配点评器一同,经过依据履行的途径重建原始指令的概率来点评一个履行途径,咱们将其称为「循环重建」奖赏。

图 2:用于将自然言语指令与视觉环境对标的强化跨模态匹配结构。

该内部奖赏关于这种 VLN 使命尤为重要;怎么练习这些智能体,以及从它们的环境中获取反应是VLN 研讨人员面对的严重应战。在练习时,学习遵从专家演示需求频频的反应,然后使智能体能够保持在正确的轨道上,而且准时抵达目的地。可是,在 VLN 使命中,反应是非常粗糙的,由于只有当智能体抵达了某个方针方位后才会供给「成功」的反应,彻底没有考虑智能体是否遵从了指令(如图 1 中的途径 A 所示),或者是依照随机的途径抵达了目的地(如图 1 中途径 C 所示)。假如智能体略微比估计时刻中止得早了一些(如图 1 中的途径 B 所示),即便与指令相匹配的「好」轨道也或许被以为是「不成功」的。这样的话,不适定反应或许会与最优战略学习的效果不符。

如图 2a 和 2b 所示,咱们提出经过部分丈量一个循环重建奖赏来点评智能体遵从指令的才能;这种机制能够供给一种细粒度的内部奖赏信号,促进智能体更好地了解言语输入,而且赏罚与指令不匹配的轨道。举例而言,如图辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜 1 所示,运用咱们提出的奖赏,途径 B 就会被以为优于途径 C。

运用匹配点评器供给的内部奖赏以及环境供给外部奖赏进行练习,咱们的推理导航器会学着将自然言语指令一同在部分空间视觉场景和大局时序视觉轨道进行基标对准。在一个 VLN 比照基准数据集上的点评效果显现,咱们的 RCM 模型在 SPL(经过逆途径长度加权的成功率)指标上明显优于之前的办法,提高高达 10%,完结了现在最佳的模型功能。

德拉诺错币

当处于练习时未曾见过的环境中时,V张佳奇LN 智能体的功能会明显下降。为了缩小这种距离,咱们提出了一种经过自监督学习探究未见过的环境的有用处理计划。经过这种新技能,咱们能够促进终身学习以及对新环境的习惯。例如,家用机器人能够探究一个新的房子,然后经过学习之前的经历迭代式地改善导航战略。遭到这一现实的启示秋千门,三老头袭臀咱们引入了一种自监督仿照学习机制(SIL)来支撑智能体对未见过的环境(没有带标签的数据)进行探究。其间,智能领会学习自己曩昔活跃的经历。

详细而言,在咱们的结构中,导航器将履行屡次「roll-out」战略,其间好的轨道(由匹配点评器确认)将会被保存在经历回放缓存中,然后被导航器用于仿照。经过这种办法,当行器能够对其最佳行为进行近似,然后得到更好地战略。咱们能够证明 S辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜I辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜L 能够近似得到一个更好、更高效的战略,这极万洲世界有限公司大地缩小了练习时见过和未曾见过的环境之间的成功率的功能差异(从 30.7% 下降到 11.7%)。

非常侥幸,这篇论文被选为了 CVPR 2019 的最佳学生论文。用 CVPR 2019 最佳论文奖组委会的话来说,便是「视觉导航是计算机视觉的一个重要范畴,而这篇论文在视觉-言语导航方面获得了发展。在该范畴之前作业的根底上,该论文在跨模态环境下依据自仿照学习所获得的效果令人激动!」热烈祝贺这篇论的作者们:来自加州大学圣巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉,来自微软 AI 研讨院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng G宋梓馨babyao, 以及来自杜克大学的 Dinghan Shen。其间,王鑫对这一作业所做的奉献是其在微软研讨院实习期间完结的。

在别的一篇 CVPR 2019 论文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」(由微软 AI 研讨院的 Xiujun Li 和 Jianfeng Gao,华盛顿大学的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa,以及微软 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 一同完结)中,咱们改善了 VLN 智能体的查找办法,提出了一个被称为「快速导航器」(Fast Navigator)的动作编码的通用结构,使智能体能够依据部分和大局的信息比较长度不同的部分途径,而且在犯错时进行回溯。

  • 论文检查地址:https://www.microsoft.com/en-us/research/publication厦门广成实业有限公司/tactical-rewind-self-correction-via-backtracking-in-vision-and-language-navigation/

咱们注意到,VLN 与文本生成使命有一些类似之处,一切现有的作业能够被分为两类:

  • 贪婪查找(Greedy search)——在每个时刻步做出决议计划时,智能体只是考虑部分信息,其间一切的正德风云智能体都存在「exposure bias」的现象,这是序列生成使命中的一类典型问题;
  • 集束查找(Beam search)是另一个极点。智能领会运用「roll-out」战略生成多条轨道,然后挑选最好的那一条。虽然这种办法提高了成功率,可是杜马希其计算本钱与轨道数成正比,而且这种本钱或许非常巨大。不或许会有人布置一个在履行每次指令前都要在房子里重复进行 100 次导航(即便它终究抵达了正确的方位)的家用棋魂同人命运之力机器人吧!

总的来说,当时的 VLN 模型面对着两大核心问题:首要,咱们应该回溯吗?假如咱们应该回溯,那么咱们应该回溯到哪一步呢?其次,咱们应该在何时中止查找?

为了使智能体能够在犯错时进行回溯,咱们将查找与神经编码结合了起来,然后使得智能体能够依据部分和大局信息比较长度不同英勇的桑希洛的部分途径,然后在发现错误时进行回溯。为了确认咱们是否应该中止查找,咱们运用了一个交融函数,该函数会将部分动作常识和前史转化为一个进展的估计值,然后经过对咱们之前的动作与给定的文本指令的匹配程度建模来点评智能体的进展。

via https://www.microsoft.com/en-us/research/blog/see-what-we-mean-visually-grounded-natural-lang酒道网uage-navigation-is-going-places/

- END -

点击,检查:什么是 XLNet ? 为辐射,漫画之家,天蓬元帅-竞技宝电竞_竞技宝电竞官网_竞技宝电竞竞猜什么它的功能优于 BERT?

文章版权及转载声明:

作者:admin本文地址:http://www.hengruiyy.cn/articles/1507.html发布于 4个月前 ( 07-29 03:24 )
文章转载或复制请以超链接形式并注明出处竞技宝测速_竞技宝测速站_竞技宝测网站