当前位置:首页 >> 内饰

多可定义任务新蓝海:视觉语言导航最新进展

来源:内饰   2024年12月16日 12:16

p>然而,直接将 VLBert 等亦同培训的视觉效果-语言学框架直接主要用途视觉效果-语言学通讯系统类似任务的效果不一定理想。这是由于 VLN 是颇为类似的视觉效果-语言学类似任务。首先,它是一个其余部分可见的马尔科夫权衡更全面(POMDP),其权衡极其缺少过去光谱仪到的经验。同时,VLN 是一个时空类似任务,对于滚动的序列时序极其敏感。

我们重新考虑针对 VLN 类似任务新设计一系列新的亦同该部队,使视觉效果语言学亦同培训框架可以被主要用途 VLN 类似任务。亦同培训的读写是「解释器-滚动」。在这里,我们重新考虑三类 VLN 样本集: (1)下层细粒度解释器:R2R、RxR 等样本集。注意到概要的解释器例如:走去过食堂,在餐厅的小门外停下 (2)顶层解释器:REVERIE 等样本集。从未注意到概要解释器,数注意到大纤前面和最终最大限度,例如:关上食堂窗户 (3)对话式解释器:NDH 等样本集。人和电脑程式、电脑程式和电脑程式之间存在对话,通过对话帮助电脑程式人未完成通讯系统。针对以上四个样本集,我们力图统合亦同培训一个 VLN 框架,分别在每个样本集上顺利进行调整。

如上图附注,我们新设计了 5 类亦同该部队。其里,掩码语言学能用计算机(MLM)、滚动-解释器意味着(TIM)等类似任务数限于常见的 VL 填充类似任务,旨在将视觉效果-语言学的语义基本概念填充大大的。在 MLM 类似任务里,我们将解释器里的若干名词 「遮住」掉下来,想要通过正则传达式里的的资讯亦同测成被 「遮住」的名词。

在 TIM 类似任务里,个数环境污染里的滚动以及一段对滚动的描绘成,框架须要正确二者应该意味着。针对 VLN 类似任务里的走去动时序,我们新设计了滚动 时序能用计算机(TOM)、 两组时序能用计算机(GOM)类似任务。为了能用其余部分可见马尔科夫权衡更全面里的近代的资讯,我们新设计了重新考虑近代的资讯的特技亦同测类似任务(APH)。

在上图里,我们从样本、视觉效果读写、培训最大限度、上游类似任务四个方面将 HOP 与目前最精良的临时工(PREVALENT、VLN-BERT、Airbert)顺利进行了对比。对比方法之间的相似之处主要纤现在培训最大限度上,所有方法都运主要用途了 MLM 亦同该部队,但是只有 HOP 针对 VLN 类似任务的特性新设计了新的亦同该部队。此外,除了室外通讯系统类似任务,HOP 在大多数主流的健身房通讯系统类似任务样本集上都顺利进行了调整,检验了框架的机动性。

4 框架基础

HOP 由一个单流 Transformer 跨蕴涵UTF-器和5 个上游类似任务的亦同测头(MLM、TIM、TOM、GOM、APH)组成。框架的读写为滚动解释器的序列和滚动图片序列,通过[SEP] 将这两个其余部分分隔开来。

在 Transformer 跨蕴涵UTF-器里,对于语言学解释器,我们首先将 Token 连在一起与前面UTF-连在一起相加,于是又将求和结果读写给层相乘应用程序,从而得不到对名词的连在一起。对于滚动里的三维,我们为每个三维设置一个方向成发点,将其作为前面UTF-与三维的连在一起通往大大的,形成新的特点。于是又通过全通往层和层相乘应用程序制订得不到的通往特点,从而得不到视觉效果连在一起。

一、亦同该部队——MLM

在 MLM 类似任务里,我们首先看得见掉下来若干片语,根据读写正则传达式亦同测看得见掉下来的片语,这是一个定义类似任务。

二、亦同该部队——TIM

在 TIM 类似任务里,我们随机也就是说一段基本的亦同言解释器和举例来说滚动三维,框架须要正确解释器与三维序列应该意味着,这是一个二定义情况。

三、亦同该部队——TOM

在 TOM 类似任务里,我们读写一段乱序的滚动三维序列,敦促框架必须恢复成正确的三维时序,从而将有机体走去动的常识赋予框架。

四、亦同该部队——GOM

五、亦同该部队——APH

在 HOP 类似任务里,我们敦促框架能用近代样本对下一步特技顺利进行亦同测。我们将框架根据解释器制订的近代样本(三维序列)读写 Transformer,并且将之后前面的 360 度全景三维读写给框架。我们想要框架根据语言学解释器和近代样本决定在 360 度的三维里应该往哪个方向暂时走去动。

5 上游类似任务调整效果

针对不尽相同的上游类似任务,我们重新考虑运主要用途不尽相同的评论量化。R2R 样本集主要重新考虑通讯系统的准确率, 其评论量化包含几率(SR)、通讯系统误差(NE)、根据逆时针宽度加权的几率(SPL);REVERIE 主要重新考虑 RGS 量化;RxR 主要重新考虑语言学解释器和实际所走去的逆时针应该意味着,采用 DTW 作为评论量化。

在试验中里,我们重新考虑了三种设定:

(1)不运主要用途亦同培训的 Transformer 架构

(2)数数运主要用途 PREVALENT 里的样本顺利进行亦同培训

(3)运主要用途 PREVALENT 以及制订过后的 AirBnB 自动聚合的通讯系统样本顺利进行亦同培训。

如上图附注,运主要用途亦同培训新技术之后的框架机动性整纤优于不运主要用途亦同培训时的效果。相比较于 PREVALENT,HOP 在申请加入了新的亦同该部队后得不到了突成的机动性全面提高,在申请加入了 AirBnB 的样本后,框架的机动性得不到了微弱全面提高,这可能是由于 AirBnB 里的样本噪声较多。此外,在 REVERIE 、NDH、RxR 等样本集上,HOP 都拿到了拟合的机动性。

在 ablation study 里,我们推断成所有过渡到的亦同该部队对于最终机动性的全面提高都是有效的。 在特技亦同测类似任务里,运主要用途近代样本相比较于不运主要用途近代样本有更大的机动性全面提高。同时运主要用途所有亦同该部队得不到的框架机动性拟合。

在本文里,我们推断成在 VLN 类似任务的亦同培训里过渡到近代的资讯极其不可或缺,时序的资讯在 VLN 亦同培训里也发挥了不可或缺关键作用。

6 Sim2Real

在 Sim2Real 里,我们力图缩小DFT环境污染和整年环境污染的相似之处。如上图下方附注,在DFT环境污染里,终端纤只能在个数的通讯系统路线图里在不尽相同点之间跳跃移动,此时终端纤可以感知到一处若干个预选点的情形,并选择跳跃至哪一个预选点。此时,终端纤具有一个DFT的移动健身房空间,VLN 类似任务退化为了一个定义类似任务,无需亦同测旋转的成发点或者前行的距离,我们综合重新考虑视觉效果和语言学的意味着。

然而,电脑程式人学研究者小区的研究者者认为DFT环境污染与实际情形相距甚远,于是了整年环境污染下的 VLN 类似任务。Facebook 在 R2R 的基础上替换成了通讯系统图,构建了一个整年的健身房空间,在每一步亦同测移动的成发点和距离。这种制订下层特技的更全面更加贴近实际情形。

目前,大多数计算机视觉效果研究者者更习惯于运主要用途DFT的环境污染,综合关切视觉效果-语言学的意味着,大多数 VLN 的临时工都是在DFT环境污染下开展的。然而,如果直接将DFT环境污染下新设计的框架运主要用途整年环境污染里,将会激发 20% 的机动性增高。因此,我们力图寻找降低这种机动性增高层面的方式为。

为此,我们力图在整年健身房空间里亦同测成一个DFT的通讯系统图,针对意味著点亦同测成若干概要的逆时针点,即亦同测一处最可能符合走去动敦促的点。终端纤在亦同测成的通讯系统图里,在都只之间移动时无需顺利进行权衡。

在具纤实现更全面里,我们重新考虑两类特技:

(1)下层特技:例如,前行 0.25 米,直走 15%uB0,右转 15%uB0,停下。

(2)内部人员特技:选择一处若干候选点里的一个,直接跳跃过去。

为了验证内部人员特技的关键作用,我们检验了其选择移动成发点和远距离光纤能力的关键作用。 试验中得成结论,在从未内部人员特技的情形下,终端纤在整年环境污染里的机动性随之增高。

逆时针点亦同测器旨在根据意味著点看到的的资讯权衡成下一步可能贯穿的落脚点。如上图附注,在每个点我们可能也就是说 12 个网格的三维,将其与深度的资讯揉合后读写给 Transformer 得不到 12 个 Token。

我们培训一个定义器根据 12 个 Token 得不到逆时针点亦同测的热力图,亦同测成若干个候选点的移动方向和距离,从而得不到了候选点的概率图。我们可以根据 Ground Truth 的逆时针点作为都由频率,帮助我们培训逆时针点亦同测器。

在培训候选逆时针点亦同测器时,我们运主要用途DFT的通讯系统图作为培训样本,并且将每个逆时针点表示为热力图上的正态分布作为都由频率,从而避免都由频率不够稠密。就培训最大限度而言,我们想要缩小 GroundTruth 分布和亦同测分布之间的相似之处。此外,我们还对制订为正态分布的 GT 顺利进行量化,得不到新的逆时针点作为额外的培训样本,从而实现样本以次。

在亦同测成逆时针点之后,我们还须要全面重新考虑如何将DFT环境污染下培训的 VLN 框架应主要用途整年环境污染。在试验中里,我们也就是说 CMA 和 VLN-BERT 作为对比依此,在DFT环境污染里培训框架,在整年环境污染里检验框架机动性。 相比较于数数运主要用途下层特技培训,亦同测逆时针点的样本以次可以将亦同测的机动性全面提高一倍。

与目前拟合的整年环境污染下培训的框架比较比,本文的方法在计算支出更小的情形下拿到了更加好的机动性。

7 总结

本文证明了 内部人员特技在 VLN 类似任务里的价值,它可以使培训成本大大增高。我们可以新设计亦同测候选逆时针点的方式为,将在DFT环境污染下培训的 VLN 框架应主要用途整年环境污染。我们想要该临时工必须借鉴更多 VLN 研究者者参与到 Sim2Real 的研究者里,重新考虑实际环境污染下存在的诸多情况。

目前吴琦组的两篇短文均被CVPR2022给与:

第一篇:HOP: History-and-Order Aware Pre-training for Vision-and-Language Nigation, Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu, CVPR 2022.

第二篇:Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Nigation, Yiconghong, Zun Wang, Qi Wu, Stephen Gould, CVPR 2022.

忻州白癜风哪家医院好
通化医院哪家白癜风医院好
成都白癜风医院排名
什么血糖仪准确度高
婴幼儿腹泻的治疗方法
什么样的血糖仪比较好
康恩贝肠炎宁颗粒拉肚子管用吗
家用血糖仪哪个好
友情链接