卑微如尘埃

融合CV和NLP的视觉语义导航

据说是CVPR2019的满分论文，因为导师项目的方向正好与这篇论文很接近，所以翻译了下
论文地址:https://arxiv.org/abs/1811.10092

///
///

摘要：视觉-语言导航（VLN/vision-language navigation）是引导具身智能体（embodied agent）在真实三维环境中执行自然语言指令的任务。在这篇论文中，我们研究的是如何解决这一任务的三大关键难题：跨模态基础标对（cross-modal grounding）、不适定反馈（ill-posed feedback）和泛化（generalization）问题。首先，我们提出了一种全新的增强型跨模态匹配（RCM） 方法，能够通过强化学习（RL）在局部和全局增强跨模态基础标对。尤其需要指出，我们使用了一个 匹配度评估器（matching critic） 来提供一种内部奖励，以激励指令和轨迹之间的全局匹配；我们还使用了一个推理导航器(reasoning navigation)，以在局部视觉场景中执行跨模态基础标对。

1 引言

VLN 有一些独特的挑战。第一，根据视觉图像和自然语言指令进行推理可能很困难。如图 1 所示，为了到达目标点，智能体需要将指令「落地」到局部视觉场景中，还要将这些用词序列表示的指令匹配成全局时间空间中的视觉轨迹。第二，除了严格遵照专家演示之外，反馈是相当粗糙的，因为「成功」反馈仅在智能体到达目标位置时提供，而完全忽视该智能体是遵照了指令（比如图 1 中的路径 A）还是采用了一条随机路径到达目标（比如图 1 中的路径 C）。如果智能体停止的时间比应该的略早一些（比如图 1 中的路径 B），即使匹配指令的「好」路径也可能被认为是不成功的。不适定的反馈有可能会偏离最优策略学习。第三，已有的研究成果深受泛化问题之苦，使得智能体在见过的和未见过的环境中的表现会有很大差距。

在这篇论文中，我们提出结合强化学习（RL）和模仿学习（IL）的能力来解决上述难题。首先，我们引入了一种全新的增强型跨模态匹配（RCM）方法，可通过通过强化学习在局部和全局增强跨模态基础标对。尤其要指出，我们设计了一种推理导航器，可在局部视觉场景与文本指令中学习跨模态基础标对，这样能让智能体推断应该关注哪个子指令以及应该看哪里。从全局的角度看，我们为智能体配备了匹配度评估器（matching critic），可以根据由路径重建原始指令的概率来评估所执行的路径，我们称之为循环重建奖励（cycle-reconstruction reward）。局部而言，这种循环重建奖励能提供一种细粒度的内部奖励信号，可鼓励智能体更好地理解语言输入以及惩罚与指令不匹配的轨迹。举个例子，如果使用我们提出的这种奖励，则路径 B 被认为优于路径 C（见图 1）。

使用来自匹配度评估器的内部奖励和来自环境的外部奖励进行训练，推理导航器可以学习将自然语言指令「落地」到局部空间视觉场景和全局时间视觉轨迹上。我们的 RCM 模型在 Room-to-Room（R2R）数据集上显著优于已有的方法并实现了新的当前最佳表现。

我们的实验结果表明模型在见过的和未见过的环境中的表现差距很大。为了缩小这一差距，我们提出了一种有效的解决方案，即使用自监督来探索环境。这项技术很有价值，因为它可以促进终身学习以及对新环境的适应。举个例子，家用机器人可以探索其到达的新家庭，并通过学习之前的经历迭代式地提升导航策略。受这一事实的启发，我们引入了一种自监督模仿学习（SIL）方法，以探索不含有标注数据的未见过的环境。智能体可以学习模仿自己过去的优良经历。具体而言，在我们的框架中，导航器会执行多次 roll-out，其中优良的轨迹（由匹配度评估器确定）会被保存在重放缓冲区中，之后导航器会将其用于模仿。通过这种方式，导航器可以近似其最佳行为，进而得到更优的策略。总结起来，我们有四大贡献：

1.我们提出了一种全新的增强型跨模态匹配（RCM）框架，能让强化学习同时使用外部奖励和内部奖励；其中我们引入了一种循环重建奖励作为内部奖励，以强制执行语言指令和智能体轨迹之间的全局匹配。
2.我们的推理导航器可学习跨模态的背景，基于轨迹历史、文本背景和视觉背景来做决策。
3.实验表明 RCM 能在 R2R 数据集上达到新的当前最佳表现，在 VLN Challenge 的 SPL 方面（该任务最可靠的指标）也优于之前的最佳方法，排名第一。
4.此外，我们引入了一种自监督模仿学习（SIL）方法，可通过自监督来探索未曾见过的环境；我们在 R2R 数据集上验证了其有效性和效率。

2 增强型跨模态匹配（RCM）

这里我们研究的是一种智能体，它们需要学习通过遵循自然语言指令而在真实的室内环境中导航。如图 2 所示，RCM 框架主要由两个模块构成： 推理导航器 $\pi_{\Theta }$ 和 匹配度评估器 $V_{\beta }$ 。给定 起始状态s0 和 自然语言指令（一个词序列） $\chi = x1,x2,...,xn$ ，推理导航器要学习执行一个 动作序列a1,a2,…,aT $\in A$ ，这些序列会生成一个轨迹 $\tau$ ，以便到达由指令指示的目标位置 $S_{target}$ 。导航器在智能体执行动作过程中会与环境交互以及感知新的视觉状态。为了提升泛化能力以及增强策略学习，我们引入了两个奖励函数：一个由环境提供的外部奖励和一个源自我们的匹配度评估器的内部奖励。其中外部奖励度量的是每个动作的成功信号和导航误差，内部奖励度量的是语言指令 $\chi$ 与导航器轨迹 $\tau$ 之间的对齐情况。

2.1 RCM模型细节

2.1.1 跨模态推理导航器

导航器 $\pi_{\Theta }$ 是一个基于策略的代理，它将输入指令 $\chi$ 映射到一系列操作 $\left \{ a_{t} \right \}_{t=1}^{T}$ 。在每一步t时，导航器从环境接收一个状态st，并需要将文本指令根植于局部的视觉场景中。因此，我们设计了一个跨模态推理导航器，该导航器可以学习轨迹历史、文本指令的重点和局部视觉注意，从而形成一个跨模态推理路径，在步骤t处鼓励两种模态的局部动力学（encourage the local dynamics of both modalities at step t 这句不知道怎么翻译- -）。

图3为第t步时导航器的展开版本。与[13]类似，我们为导航器配备了全景视图，全景视图被分割为m个不同视点的图像块，因此从视觉状态st中提取的全景特征可以表示为 $\left \{ v_{t,j} \right \}_{j=1}^{m}$

History Context

导航器运行一个步骤后，可视场景将相应地更改。LSTM将轨迹的到第t步的历史记录 $\tau _{1:t}$ 编码为历史上下文(History context)向量ht:
$h_{t}=LSTM\left ( \left [ v_{t},a_{t-1} \right ] ,h_{t-1}\right )\tag{1}$
$a_{t-1}$ 是在前面的步骤中采取的行动， $v_{t}=\sum_{j}\alpha _{t,j}v_{t,j}$ 表示全景特征的加权和， $\alpha _{t,j}$ 为视觉特征 $v_{t,j}$ 的注意力权重（attention weight），代表它对于前面的“history context” $h_{t-1}$ 的重要性
注意：我们在后面采用了the dot-product attention(谷歌发表的文章"Attention is all you need")[45]，我们将其表示为(以上面的视觉特性为例)：
$v_{t}=attention\left ( h_{t-1},\left \{ v_{t,j} \right \}_{j=1}^{m} \right ) \\=\sum_{j}softmax(h_{t-1}W_{h}\left ( v_{t,j}W_{v} \right )^{T})v_{t,j}\tag{2}$

$W_{h}$ 和 $W_{v}$ 是可学习的投影矩阵。

Visually Conditioned Textual Context（视觉条件下的文本语境）

记住过去可以识别当前的状态，从而理解接下来应该关注哪些单词或子指令。因此，我们进一步学习了文本上下文 $c_{t}^{text}$ 使其适应历史上下文(history context) $h_{t}$ 。我们让语言编码器LSTM将语言指令 $\chi$ 编码为一组文本特征 $\left \{ w_{i} \right \}_{i=1}^{n}$ ，然后在每个时间步，文本语境的计算为：
$c_{t}^{text}=attention\left ( h_{t},\left \{ \omega _{i} \right \}_{i=1}^{n} \right )\tag{3}$
注意， $c_{t}^{text}$ 更重视与轨迹历史和当前视觉状态更相关的单词。

Textually Conditioned Visual Context（文本条件下的视觉语境）

知道从哪里看需要对语言教学有一个动态的理解;所以我们根据文本语境 $c_{t}^{text}$ 计算可视语境 $c_{t}^{visual}$
$c_{t}^{visual}=attention\left ( c_{t}^{text},\left \{ v _{j} \right \}_{j=1}^{m} \right )\tag{3}$

Action Prediction（行为预测）

最后，我们的行为预测考虑 $h_{t}$ ， $c_{t}^{text}$ 和 $c_{t}^{visual}$ ，并根据它们决定下一步的方向。它使用双线性点积计算每个可航方向的概率 $p_{k}$ ，如下所示
$p_{k}=softmax(\left [ h_{t},c_{t}^{text},c_{t}^{visual} \right ]W_{c}\left ( u_{k}W_{u} \right )^{T})\tag{4}$
$u_{k}$ 是表示第k个可导航方向的动作嵌入，通过连接一个外观特征向量(从该视角或方向周围的图像patch中提取的CNN特征向量)和一个四维方向特征向量 $\left [ sin\varphi ;cos\varphi ;sin\omega ;cos\omega \right ]$ ， $\varphi$ 和 $\omega$ 分别为航向角和导航角。

2.1.2 跨模态匹配评估器

除了外部环境的奖励信号外，我们还推导了匹配评估器 $V_{\beta }$ 提供的一个内部奖励 $R_{intr}$ ,以鼓励语言指令 $\chi$ 和导航器 $\pi_{\Theta }$ 轨迹 $\tau =\left \{ <s1,a1>,<s2,a2>,...,<sT,aT> \right \}$ 之间的全局匹配：
$R_{intr}=V_{\beta }\left ( \chi ,\tau \right )=V_{\beta }(\chi ,\pi _{\theta }\left ( \chi \right ))\tag{5}$
实现这一目标的一种方法是测量循环重构奖励 $p\left ( \widehat{\chi} = \chi \right |\pi _{\theta }\left ( \chi \right ))$ ,即给定轨迹下重构语言指令 $\chi$ 的概率由 $\tau =\pi _{\theta }\left ( \chi \right )$ 执行。

因此，如图4所示，我们采用基于注意力的序列到序列语言模型作为匹配评估器 $V_{\beta }$ ，该模型使用轨迹编码器对轨迹 $\tau$ 进行编码，并使用语言解码器生成指令 $\chi$ 的每个单词的概率分布。因此内在奖励
$R_{intr}=p_{\beta }\left ( \chi |\pi _{\theta } \left ( \chi \right )\right )=p_{\beta }\left ( \chi |\tau \right )$

$R_{intr}$ 被指令长度n归一化。在我们的实验中，匹配评估器被人类的演示预先训练(地面真实指令-轨迹 $<\chi ^{*},\tau ^{*}>$ )监督学习。

2.2 Learning

为了快速逼近一个较好的策略，我们使用演示动作进行带最大似然估计(MLE)的监督学习。训练损失 $L_{sl}$ 定义为
$L_{sl}=-E\left [ log\left ( \pi _{\theta } \right )\left ( a_{t}^{*}|s_{t} \right ) \right ]\tag{6}$
$a_{t}^{*}$ 是模拟器提供的演示动作，使用监督学习来启动agent可以确保在所看到的环境中有一个相对好的策略。但它也限制了agent在不可见环境中从错误操作中恢复的泛化能力，因为它只克隆专家演示的行为。
为了学习更好、更一般化的策略，我们转向强化学习，引入外部和内部的奖励函数，从不同的角度对策略进行细化。

Extrinsic Reward（外在奖励）

RL中的一个常见实践是直接优化评估指标。由于客观VLN的任务是成功地到达目标位置 $s_{target}$ ，我们考虑了奖励设计的两个指标。第一个度量是与[50]相似的相对导航距离。我们将 $s_{t}$ 和 $s_{target}$ 之间的距离表示为 $D_{target}(s_{t})$ 。然后立即奖励 $r(s_{t},a_{t})$ 在状态 $s_{t}$ (t < T)采取行为 $a_{t}$ 之后变为
$r(s_{t},a_{t})=D_{target}\left ( s_{t} \right )-D_{target}\left ( s_{t+1} \right ),t<T\tag{7}$
这表示在点采取行动后到目标位置的距离减小。我们的第二个选择把“成功”作为一个额外的标准。如果agent到达一个阈值内的点，该阈值由距离目标的距离d测量(在R2R数据集中，d预设为3m)，则该agent被视为“成功”。

其中，最后一步T的即时奖励函数定义为
$r(s_{T},a_{T})=\mathbb{I}(D_{target}(s_{T}\leq d))\tag{8}$

$\mathbb{I}$ 是一个决策函数。为了考虑行动对未来的影响，考虑到局部贪婪搜索，我们使用折现累积奖励而不是直接奖励来训练策略：

$\gamma $是一个折现因子（在实验中为0.95）

Intrinsic Reward（内在奖励）

如第2.1.2节所述，我们预先训练一个匹配评估器来计算循环重构内在奖励 $R_{intr}$ ，促进语言指令X与轨迹的对齐。它鼓励agent尊重指令，并惩罚偏离指令指示的路径。

有外部奖励函数和内部奖励函数，RL损失可表示为

$A_{t}=R_{extr}+\delta R_{intr}$ ， $\delta$ 是衡量内在奖励的超参数。基于REINFORCE algorithm[51]，可得到基于奖励的不可微损失函数梯度为

3 Self-Supervised Imitation Learning

最后一节介绍了通用视觉语言导航任务的有效RCM方法，其标准设置是在可见环境中训练agent，并在不需要探索的情况下在不可见环境中进行测试。在本节中，我们将讨论一种不同的设置，在这种设置中，agent可以在不使用基本事实演示的情况下探索不可见的环境。这是有实际好处的，因为它有助于终身学习和适应新环境。

为此，我们提出了一种自我监督模仿学习(SIL)方法来模仿智能体自身过去的良好决策。如图5所示，给定一个无相应的演示的自然语言指令 $\chi$ 和基本真值的目标位置，导航器会得到一组可能的轨迹并将其中最佳的轨迹 $\hat{\tau}$ （由匹配度评估器确定）保存到重放缓冲区中。
（15）
匹配评估器根据2.1.1节中介绍的循环重构奖励来评估轨迹。然后，通过利用回放缓冲区中的良好轨迹，该agent确实在自我监督下优化以下目标。目标位置未知，因此没有来自环境的监督。
$L_{sil}=-R_{intr}log\pi _{\theta }(a_{t}|s_{t})$
注意， $L_{sil}$ 可以被看作是策略梯度的损失，只是使用了off-policy Monte-Carlo return Rintr而不是on-policy return。 $L_{sil}$ 也可以理解为作为“基本事实”的监督学习 $\hat{\tau }$ 的损失

其中 $\hat{a_{t} }$ 是使用方程式(15)存储在回放缓冲区中的操作。SIL方法与一个匹配评估器相结合，可以结合各种学习方法，通过模仿其本身的最佳值来逼近更好的策略。

训练细节

在之前的工作[3,50,13]中，我们提取了所有图像的ResNet-152 CNN feature[15]，没有进行微调。使用预先训练好的Glove词嵌入进行初始化，然后在训练过程中进行微调。所有超参数都在验证集上进行调优。我们采用全景动作空间[13]，其中的动作是从可能的候选方向中选择一个可导航的方向。我们设置动作路径的最大长度为10。指令的最大长度设置为80，较长的指令将被截断。我们用学习率为1e-4来训练匹配评估器，然后在策略学习中修正它。然后，我们通过学习速率为1e-4的监督学习损失来预热策略，然后切换到学习速率为1e-5的RL训练。可以通过自监督模仿学习进一步改进策略:在SIL的第一个epoch中，加载的策略产生10条轨迹，其中内在奖励最高的轨迹存储在回放缓冲区中;然后利用这些保存的轨迹对策略进行一定次数的微调(学习率为1e-5)。所有的训练都使用早期停止，Adam optimizer使用[24]优化所有的参数。为了避免过度拟合，我们使用L2权值衰减为0.0005，dropout比率为0.5。累积奖励的折现因子是0.95。内在奖励的权重 $\sigma$ 设置为2。

网络结构

A 推理导航器

该语言编码器由大小为512的隐藏LSTM和大小为300的单词嵌入层组成。用于计算history context、the textual context和 the visual context三个注意模块的内部维度分别为256、512和256。该轨迹编码器是一个隐藏大小为512的LSTM。动作嵌入是尺寸为2048的视觉外观特征向量与尺寸为128的方向特征向量（4维方向特征 $\left [ sin\varphi ;cos\varphi ;sin\omega ;cos\omega \right ]$ 是在[13]中使用的32倍）。该动作预测器由三个权重矩阵组成: $W_{c}$ 和 $W_{u}$ 的投影维数均为256，然后通过输出层 $W_{o}$ 和softmax层得到可能的导航方向的概率。

B 匹配评估器

匹配评估器由具有相同结构的基于注意力的轨迹编码器组成。作为导航器中的一个，它自己的word嵌入层大小为300，并且是一个基于注意力的语言解码器。该语言解码器由编码特征上的注意模块(投影维数为512)、隐藏大小为512的LSTM和将隐藏状态转换为词汇表中所有单词的概率的多层感知器(Linear $\rightarrow$ Tanh $\rightarrow$ Linear $\rightarrow$ SoftMax)组成。

C 可视化内在奖励

在图7中，我们在可见验证集和不可见验证集上绘制了内在奖励(由我们提交的模型产生)的直方图分布。一方面，内在的奖励与成功率在一定程度上是一致的，因为成功的例子比失败的例子获得了更高的平均内在奖励。另一方面，互补的内在奖励提供了更细粒度的奖励信号，增强了多模态接地，提高了导航策略学习。

实验和分析

总结

我们在这篇论文中提出了两种全新方法 RCM 和 SIL，从而结合了强化学习和自监督模仿学习两者的优势来解决视觉-语言导航任务。不管是在标准测试场景中，还是在终身学习场景中，实验结果都表明了我们方法的有效性和效率。此外，我们的方法在未见过的环境中的泛化能力也很强。请注意，我们提出的学习框架是模块化的，而且与具体模型无关，这让我们可以分别各自改进各个组件。我们还相信这些方法可以轻松泛化用于其它任务。

运营面试 be9e47ced37f
【没有互联网运营经验，转行求职运营工作，怎么才能面试成功？】小傅：…https://www.zhihu.com/question/40438969/answer/107447111?utm_source=com.jianshu.haruki&utm_medium=social&utm_member=ZmVlMWJkYzFjZGM4N2VlN2M0ZGVmN2UwYjI0NWIxYjc%3D%0A（
ACL 2022 VLN视觉和语言导航：任务、方法和未来方向综述善良的L君丶 VLN 人工智能自然语言处理计算机视觉
原文链接：https://arxiv.org/pdf/2203.12667.pdf摘要人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能体。视觉和语言导航（VLN）是实现这一目标的一个基础性和跨学科的研究课题，越来越受到自然语言处理、计算机视觉、机器人和机器学习社区的关注。在本文中，我们回顾了VLN新兴领域的当代研究，包括任务、评估指标、方法等。通过对当前进
(论文总结)Beyond the Nav-Graph: Vision-and-Language Navigation in ContinuousEnv Hoyyyaard Habitat Visual Navigation 深度学习人工智能
文章目录1IntroductionVLN研究的假设Vision-and-LanguageNavigationinContinuousEnvironments.2RelatedWorkLanguage-guidedVisualNavigationTasks3VLNinContinuousEnvironments(VLN-CE)ContinuousMatterport3DEnvironmentsinH
Habitat环境学习一：导航任务概述 qq_43650421 具身智能 Habitat仿真环境学习
导航任务概述：Agent需要导航到环境中的指定位置，而该位置可以由特定的目标形式指定。PointGoalNavigation：导航到环境中相对于初始位置特定的点；ObjectNavigation：Agent需要在环境中找到特定的物体；RoomNavigation：物体需要导航到特定的房间；此外还有Vision-and-LanguageNavigation（VLN）和EmbodiedQuestion
Error:Resource not found: openni2_launch DWQY ROS ros
报错信息Resourcenotfound:openni2_launchROSpath[0]=/opt/ros/melodic/share/rosROSpath[1]=/media/zhangdama/F4ACC8D7C3CD6C91/kobuki_gazebo_imitation/mount/vln-pano2real-ros/srcROSpath[2]=/opt/ros/melodic/shar
[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉语言导航晓理紫每日论文机器人深度学习人工智能机器学习
专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持如果你感觉对你有所帮助，请关注我，每日准时为你推送最新论文。分类:大语言模型LLM视觉模型VLM扩散模型视觉语言导航VLN具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享(有中文摘要，源码或项目地址)==LLM==标题:SpeechTokenizer:UnifiedSpeechTokeni
[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--强化学习、模仿学习、机器人、开放词汇晓理紫每日论文学习机器人
专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持如果你感觉对你有所帮助，请关注我，每日准时为你推送最新论文。分类:大语言模型LLM视觉模型VLM扩散模型视觉语言导航VLN强化学习RL模仿学习IL机器人开放词汇，检测分割==RL==标题:BeyondTaskPerformance:EvaluatingandReducingtheFlawsofLargeM
Scaling Data Generation in Vision-and-Language Navigation 小闫奋斗史具身智能导航人工智能
题目：扩展VLN导航中的数据生成摘要最近对语言引导视觉导航的研究表明，对可穿越环境的多样性和训练通用智能体的监督数量有很大的需求。为了解决现有视觉和语言导航数据集中常见的数据稀缺问题，我们提出了一种生成大规模学习数据的有效范例，该范例应用来自HM3D和Gibson数据集的1200多个逼真环境，并使用网络上完全可访问的资源合成490万个指令轨迹对。重要的是，我们研究了该范例中每个组件对智能体性能的影
json.decoder.JSONDecodeError: Extra data: line 1 column 64431 (char 64430)报错解决方法六六六六神 python 其他 json python 开发语言
问题描述报错：File"/home/zqy/anaconda3/envs/vln_v2/lib/python3.9/json/decoder.py",line340,indecoderaiseJSONDecodeError("Extradata",s,end)json.decoder.JSONDecodeError:Extradata:line1column64431(char64430用pyth
三江学院计算机校区,三江学院是公办还是民办三江学院是几本大学陈小伊三江学院计算机校区
三江学院在南京，是江苏省首家民办本科高校，也是全国最早创办的四个民办本科院校之一，所以三江学院是民办学校。VlN答案圈1992年创办的，2002年升格成为本科高校。目前的话有5个校区，还是非常不错的。VlN答案圈VlN答案圈三江学院外国语学院英语、日语VlN答案圈三江学院文学与新闻传播学院汉语国际教育、汉语言文学、新闻学、广播电视编导VlN答案圈三江学院经法学院国际经济与贸易、国际经济与贸易(经济
ACL 2022：梳理视觉语言导航的任务、方法和未来方向|AI Drive 数据实战派
近几年极为热门的研究方向视觉语言导航（Vision-and-LanguageNavigation，VLN）发展迅速。今天的分享的ACL2022论文是对视觉语言导航领域做了一个系统的综述，回顾了VLN的任务、数据集、评测机制和方法等，并对未来方向做出了展望。本期AIDrive，我们邀请到加州大学圣克鲁兹分校的在读博士生-古静，为大家在线解读其发表在ACL2022的最新研究成果。古静，加州大学圣克鲁兹
安装node环境程序男保姆
cd/home/softwgethttps://nodejs.org/dist/v14.16.1/node-v14.16.1-linux-x64.tar.xztarxfnode-v14.16.1-linux-x64.tar.xzmvnode-v14.16.1-linux-x64node-v14.16.1cdnode-v14.16.1-linux-x64/./bin/node-vln-s/home/
VLN阶段性小结2023.1.10 是尘埃呀！阶段性总结人工智能计算机视觉
VLN阶段性小结2023.1.101，ProcTHOR:Large-ScaleEmbodiedAIUsingProceduralGeneration2，ADAPT:Vision-LanguageNavigationwithModality-AlignedActionPrompts（CVPR2022）3，CLIP-NAV:USINGCLIPFORZERO-SHOTVISION-AND-LANGUAG
DUET详解草稿是尘埃呀！论文阅读笔记人工智能 VLN
详解VLN动机：流程拓扑图TextEncoderCoarse-scaleCross-modalEncoderNodeembeddingGraph-awarecross-modalencodingGlobalactionpredictionFine-scaleCross-modalEncoderVisualEmbeddingFine-grainedcross-modalreasoningLocala
【CVPR2023】KERM:面向视觉语言导航的知识增强推理数据派THU
来源：专知本文为论文介绍，建议阅读5分钟本文提出了一种知识增强的推理模型(knowledgeEnhancedReasoningModel,KERM)来利用知识来提高智能体的导航能力。视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而，这些表示不足以使智能体执行动作以到达目标位置。由于知识
Linux设置环境变量；例：./nginx -v 转换为nginx -v PinkSoul12 Nginx Linux linux nginx centos
Linux设置环境变量使用Nginx时,必须使用./nginx才能使用[root@VM_0_12_centossbin]#./nginx-vnginxversion:nginx/1.19.1此时需要配置环境变量,使用下列命令[root@VM_0_12_centossbin]#nginx-vln-s程序目录/usr/local/bin/ln-s/www/server/nginx-1-19/sbin/
Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器（零）苏三平 Vision and Language Navigation 计算机视觉自然语言处理 visual studio c++
目录前言1Windows下编译工具安装2Matterport3DSimulator依赖安装3编译Matterport3DSimulator源码4Conda虚拟环境调用Matterport3DSimulator测试总结前言我本科毕业设计是做视觉语言导航任务(VisionandLanguageNavigation,VLN)相关的工作，想要复现VLN的一些经典工作或者是实现自己的VLN模型，安装一个
VLN阅读报告1：Vision-and-Language Navigation综述（2022ACL）是尘埃呀！论文阅读笔记 VLN 强化学习 python 1024程序员节
本博文是结合论文Vision-and-LanguageNavigation:ASurveyofTasks,Methods,andFutureDirections，对VLN进行学习总结与思考，主要针对室内的VLN任务，如REVERIE,SOON,R2R等更可行的具体任务。VLN最新进展总结:https://github.com/eric-ai-lab/awesome-vision-language-
VLNCE复现遇到的问题过路张 python 深度学习 pytorch
VLNCE复现遇到的问题项目地址：https://github.com/jacobkrantz/VLN-CE最开始我的环境是python3.7+habitat-lab0.2.2+hibitat-sim0.2.2遇到了各种bug,但是在师兄的帮助下也跑起来了但是！！！他的spl基本全是0，可视化的agent跟智障似的后来我也没找到到底是哪出问题了我按照官方说明重新配了一下环境这次问题倒不是很多，但是
吴琦：AI研究一路走到“黑”，从VQA到VLN 智源社区大数据编程语言计算机视觉机器学习人工智能
作者|吴琦，阿德莱德大学助理教授本文作者为阿德莱德大学助理教授吴琦，他详细介绍有关从VQA到VLN的详细内容：VLN之来龙去脉篇VLN之任务数据篇VLN之方法创新篇VLN之未来思考篇VLN之广而告之篇正文如下：Vision-and-Language（视觉与语言）无疑是近几年CV和NLP领域都颇受关注的一个方向，当然，也颇受争议。有的人认为它是多模态领域最值得关注的方向，是迈向视觉推理甚至是通用人工
Recurrent-VLN-BERT weixin_43664102 pytorch 人工智能 python
RecurrentVLN-BERT复现遇到的bugcreatedockersudonvidia-dockerrun-it--mounttype=bind,source=/home/oem/Desktop/Zeyue/Attack/Matterport3DSimulator,target=/home/oem/Desktop/Zeyue/Attack/Matterport3DSimulator--vo
Active Visual Information Gathering for Vision-Language Navigation 是尘埃呀！论文阅读笔记人工智能 python VLN 视觉问答导航
之前的方法是不确定的（现在也有好多方法也是），也就是说，对于未知环境，agent不知道具体应该往哪走，事实上即使是人类也不知道，但是人们可以去试，获取更多的环境信息然后决定正确的导航行为。这是我目前最欣赏的VLN论文之一ActiveVisualInformationGatheringforVision-LanguageNavigationANaiveModelwithASimpleExplorat
多模态任务新蓝海：视觉语言导航最新进展智源社区大数据编程语言 python 计算机视觉机器学习
【专栏：前沿进展】2月17日，澳大利亚阿德莱德大学副教授吴琦在青源Talk第12期中带来了题为「视觉-语言导航新进展：Pre-training与Sim2Real」的报告。吴琦首先简要介绍了「视觉-语言」导航任务的发展历史，进而介绍了考虑历史信息和顺序关系的VLN预训练方法HOP。由于仿真环境和现实场景存在一定的差距，吴以如何将离散环境下训练的VLN模型应用于连续环境为例，提出了Sim2Real的研
hadoop集群搭建 sj天问
hadoop集群搭建1.创建虚拟机centos6.5的镜像链接：https://pan.baidu.com/s/1aNW5lWGqqoWp0vln6klJMA提取码：9r4c步骤可以去看这篇博客：https://blog.csdn.net/alan3344/article/details/830488722.ping通IP地址这是静态ip设置的样例DEVICE=eth0TYPE=EthernetU
媒宣第一次作业虞澍
PS安装和破解链接:http://pan.baidu.com/s/1gdEtxVP密码:pkpt至于安装方法我相信百度一定很多呀基础教程分享基础实例教程地址：http://pan.baidu.com/s/1bnhGAAj基础工具熟悉地址：http://pan.baidu.com/s/1i3n9VlN（祁连山ps视频）其实以上没必要多看，看一下可以熟悉ps，在你用到的时候，对哪个功能不熟悉的时候，就
融合CV和NLP的视觉语义导航卑微如尘埃 VLN
据说是CVPR2019的满分论文，因为导师项目的方向正好与这篇论文很接近，所以翻译了下论文地址:https://arxiv.org/abs/1811.10092//////摘要：视觉-语言导航（VLN/vision-languagenavigation）是引导具身智能体（embodiedagent）在真实三维环境中执行自然语言指令的任务。在这篇论文中，我们研究的是如何解决这一任务的三大关键难题：跨
Facebook提出使用3D导航任务来训练自主机器人 itwriter
据外媒Venturebeat报道，Facebook、乔治亚理工学院和俄勒冈州立大学的研究人员在本周发表的一篇预印本论文中，描述了人工智能的一项新任务——通过听自然语言的指令，在3D环境中导航（例如，“走下大厅，在木桌旁左转”）。他们说，这可以为遵循自然语言指令的机器人助手奠定基础。研究人员的任务，被称之为在连续环境中的视觉和语言导航(VLN-CE)，是在Facebook的模拟器Habitat中进行
使用hadoop-streaming 过滤数据 lepton126 编程运维知识点分布式系统
使用python和hadoop-streaming过滤数据1、测试数据如下$cattest.txtngry-benz-9d02e5.netlify.com35.197.55.186*.heliumelephant.comheliumelephant.com0-0-2.11.edge.mrn.m.oml.ru185.32.56.570-0-23-vln.fw1.pop.arcos.de195.3.2
Coreseek 3.2.14 indexer gdb breakpoints flynetcn
breakCSphIndex_VLN::Build breakCSphSource_Document::BuildHits breakCSphSource_Document::IterateDocument breakCSphSource_Document::IterateHitsNext(CSphString&) breakCSphSource_SQLNextDocument(CSphStrin
ISA TEST Writeup Justesss Hackgame
刚出来的hack小游戏，很简单，现在才7关，算是入门级的，没事可以玩一下。http://helloisa.com/LEVEL1仔细观察页面，入侵的第一步是收集一切可能产生价值的信息ps:最好使用谷歌浏览器或火狐浏览器将找到的密码输入到下面的对话框中密码：右键查看源码LEVEL1LEVEL2看见下面这段字符串熟悉吗？熟悉的话赶快提交密码吧！~OTFkY2ZjMGNlOWE5MzcxN2VlN2U4M
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio