无人机视觉语言导航从入门到精通(二):技术全景图

摘要

无人机视觉语言导航(UAV-VLN)是一个典型的多学科交叉领域,它融合了计算机视觉、自然语言处理、强化学习、机器人学等多个技术方向的核心成果。本文将系统梳理 VLN 所涉及的各个技术领域,分析它们之间的相互关系,并为读者提供清晰的技术知识图谱和学习路线建议。理解这些基础技术及其在 VLN 中的作用,是深入学习后续内容的必要前提。

关键词:计算机视觉、自然语言处理、强化学习、机器人学、多模态学习、技术栈


一、引言

在上一篇文章中,我们介绍了视觉语言导航的基本概念和问题定义。我们了解到,VLN 要求智能体同时具备语言理解、视觉感知和导航决策三方面的能力。这些能力的实现,依赖于多个人工智能子领域的技术支撑。

本文将从宏观视角出发,绘制 VLN 的技术全景图。我们将逐一介绍各个相关技术领域的核心概念、关键方法,以及它们在 VLN 系统中所扮演的角色。通过本文的学习,读者将建立起对 VLN 技术栈的整体认知,为后续深入学习各个模块奠定基础。


二、技术全景总览

2.1 VLN 技术栈架构

VLN 系统的技术栈可以从纵向和横向两个维度进行划分。纵向维度按照处理流程划分为感知层、理解层、决策层和执行层;横向维度按照学科领域划分为视觉、语言、学习和控制四大模块。

执行层

运动控制

飞行执行

决策层

路径规划

动作选择

策略学习

理解层

场景理解

语言理解

多模态融合

感知层

视觉传感器

图像采集

特征提取

2.2 核心技术领域

VLN 涉及的核心技术领域及其关系可以用下图表示:

机器人学

SLAM

路径规划

运动控制

机器学习

监督学习

强化学习

模仿学习

自然语言处理

词向量表示

语义解析

预训练模型

计算机视觉

图像分类

目标检测

语义分割

深度估计

多模态学习

下面我们将逐一介绍这些技术领域的核心内容。


三、计算机视觉

计算机视觉(Computer Vision, CV)是研究如何使计算机从图像或视频中获取信息的学科。在 VLN 系统中,计算机视觉负责处理无人机摄像头采集的图像,提取环境信息,为导航决策提供视觉依据。

3.1 图像特征提取

特征提取是计算机视觉的基础任务,其目标是将原始图像转换为更加紧凑、更具语义的表示形式。

传统特征提取方法包括:

  • SIFT(Scale-Invariant Feature Transform):提取对尺度和旋转具有不变性的局部特征点
  • ORB(Oriented FAST and Rotated BRIEF):一种高效的特征点检测和描述算法
  • HOG(Histogram of Oriented Gradients):通过统计图像局部区域的梯度方向直方图来描述图像

深度学习特征提取方法以卷积神经网络(Convolutional Neural Network, CNN)为代表。CNN 通过卷积操作自动学习图像的层次化特征表示。设输入图像为 I∈RH×W×CI \in \mathbb{R}^{H \times W \times C}IRH×W×C,卷积操作可表示为:

Fi,j,k=σ(∑m,n,cWm,n,c,k⋅Ii+m,j+n,c+bk) F_{i,j,k} = \sigma \left( \sum_{m,n,c} W_{m,n,c,k} \cdot I_{i+m, j+n, c} + b_k \right) Fi,j,k=σ(m,n,cWm,n,c,kIi+m,j+n,c+bk)

其中,WWW 为卷积核权重,bbb 为偏置,σ\sigmaσ 为激活函数。

经典的 CNN 架构包括:

模型 年份 层数 特点
AlexNet 2012 8 首次在 ImageNet 上取得突破
VGG 2014 16/19 使用小卷积核堆叠
ResNet 2015 50/101/152 引入残差连接解决梯度消失
EfficientNet 2019 可变 复合缩放策略

在 VLN 中,预训练的 CNN 模型常被用作视觉特征提取器,将输入图像编码为固定维度的特征向量。

3.2 目标检测与识别

目标检测(Object Detection)旨在识别图像中存在的物体,并给出其位置边界框。在 VLN 中,目标检测用于识别导航指令中提到的地标、物体等。

目标检测方法可分为两类:

两阶段方法:先生成候选区域,再对候选区域分类

  • R-CNN 系列:R-CNN、Fast R-CNN、Faster R-CNN
  • 特点:精度高,速度相对较慢

单阶段方法:直接在特征图上预测物体类别和位置

  • YOLO 系列:YOLOv1 至 YOLOv8
  • SSD(Single Shot MultiBox Detector)
  • 特点:速度快,适合实时应用

目标检测的输出通常表示为:

{(ci,xi,yi,wi,hi,pi)}i=1N \{(c_i, x_i, y_i, w_i, h_i, p_i)\}_{i=1}^{N} {(ci,xi,yi,wi,hi,pi)}i=1N

其中,cic_ici 为类别,(xi,yi,wi,hi)(x_i, y_i, w_i, h_i)(xi,yi,wi,hi) 为边界框参数,pip_ipi 为置信度。

3.3 语义分割

语义分割(Semantic Segmentation)为图像中的每个像素分配一个语义类别标签。与目标检测相比,语义分割提供了更加精细的场景理解。

经典的语义分割网络包括:

  • FCN(Fully Convolutional Networks):首个端到端的语义分割网络
  • U-Net:编码器-解码器结构,广泛用于医学图像分割
  • DeepLab 系列:引入空洞卷积和条件随机场

语义分割的输出为分割掩码 M∈RH×WM \in \mathbb{R}^{H \times W}MRH×W,其中 Mi,jM_{i,j}Mi,j 表示像素 (i,j)(i,j)(i,j) 所属的语义类别。

3.4 深度估计

深度估计(Depth Estimation)旨在从图像中推断场景的三维结构信息。对于无人机导航而言,深度信息对于避障和路径规划至关重要。

单目深度估计从单张图像推断深度,是一个病态问题(ill-posed problem),通常通过深度学习方法解决。典型模型包括 MonoDepth、MiDaS 等。

双目深度估计利用双目视差原理计算深度。设两个相机的基线距离为 bbb,焦距为 fff,视差为 ddd,则深度 ZZZ 可由下式计算:

Z=b⋅fd Z = \frac{b \cdot f}{d} Z=dbf

深度传感器如 RGB-D 相机、LiDAR 等可直接获取深度信息,但在无人机平台上受到体积和功耗的限制。


四、自然语言处理

自然语言处理(Natural Language Processing, NLP)是研究计算机如何理解和生成人类语言的学科。在 VLN 中,NLP 技术负责解析用户的导航指令,提取其中的语义信息。

4.1 文本表示

文本表示是 NLP 的基础问题,其目标是将离散的文本符号转换为连续的向量表示。

词袋模型(Bag of Words, BoW):将文本表示为词频向量,忽略词序信息。

词向量(Word Embedding):将每个词映射到一个低维稠密向量空间。经典方法包括:

  • Word2Vec:通过预测上下文词(Skip-gram)或由上下文预测中心词(CBOW)来学习词向量
  • GloVe:基于全局词共现矩阵的分解方法

词向量的一个重要性质是语义相似的词在向量空间中距离较近。例如:

vec(king)−vec(man)+vec(woman)≈vec(queen) \text{vec}(\text{king}) - \text{vec}(\text{man}) + \text{vec}(\text{woman}) \approx \text{vec}(\text{queen}) vec(king)vec(man)+vec(woman)vec(queen)

句子表示:将整个句子编码为向量。常用方法包括:

  • 词向量的平均或加权平均
  • 循环神经网络(RNN)的最终隐状态
  • Transformer 编码器的输出

4.2 序列建模

导航指令是一个词序列,理解指令需要对序列进行建模。

循环神经网络(Recurrent Neural Network, RNN):通过循环连接处理序列数据。设输入序列为 (x1,x2,…,xT)(x_1, x_2, \ldots, x_T)(x1,x2,,xT),RNN 的计算过程为:

ht=σ(Whhht−1+Wxhxt+bh) h_t = \sigma(W_{hh} h_{t-1} + W_{xh} x_t + b_h) ht=σ(Whhht1+Wxhxt+bh)

其中,hth_tht 为时刻 ttt 的隐状态,WhhW_{hh}WhhWxhW_{xh}Wxh 为权重矩阵。

RNN 存在梯度消失和梯度爆炸问题,**长短期记忆网络(Long Short-Term Memory, LSTM)**通过引入门控机制解决这一问题:

ft=σ(Wf[ht−1,xt]+bf)it=σ(Wi[ht−1,xt]+bi)ot=σ(Wo[ht−1,xt]+bo)c~t=tanh⁡(Wc[ht−1,xt]+bc)ct=ft⊙ct−1+it⊙c~tht=ot⊙tanh⁡(ct) \begin{aligned} f_t &= \sigma(W_f [h_{t-1}, x_t] + b_f) \\ i_t &= \sigma(W_i [h_{t-1}, x_t] + b_i) \\ o_t &= \sigma(W_o [h_{t-1}, x_t] + b_o) \\ \tilde{c}_t &= \tanh(W_c [h_{t-1}, x_t] + b_c) \\ c_t &= f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ h_t &= o_t \odot \tanh(c_t) \end{aligned} ftitotc~tctht=σ(Wf[ht1,xt]+bf)=σ(Wi[ht1,xt]+bi)=σ(Wo[ht1,xt]+bo)=tanh(Wc[ht1,xt]+bc)=ftct1+itc~t=ottanh(ct)

其中,ftf_tftiti_titoto_tot 分别为遗忘门、输入门和输出门,ctc_tct 为细胞状态。

4.3 注意力机制与 Transformer

**注意力机制(Attention Mechanism)**允许模型在处理序列时动态关注不同位置的信息。给定查询 QQQ、键 KKK 和值 VVV,缩放点积注意力的计算公式为:

Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V Attention(Q,K,V)=softmax(dk QKT)V

其中,dkd_kdk 为键向量的维度,除以 dk\sqrt{d_k}dk 是为了防止点积值过大导致 softmax 梯度消失。

Transformer完全基于注意力机制构建,摒弃了循环结构。其核心组件包括:

  • 多头注意力(Multi-Head Attention):并行计算多组注意力,捕获不同子空间的信息
  • 位置编码(Positional Encoding):为序列中的每个位置添加位置信息
  • 前馈网络(Feed-Forward Network):对每个位置独立进行非线性变换

Transformer 的并行计算特性使其训练效率远高于 RNN,已成为 NLP 领域的主流架构。

4.4 预训练语言模型

预训练语言模型(Pre-trained Language Model)通过在大规模语料上进行自监督学习,获得通用的语言理解能力,然后在下游任务上进行微调。

BERT(Bidirectional Encoder Representations from Transformers):采用掩码语言模型(Masked Language Model, MLM)目标进行预训练。随机遮盖输入中的部分词元,让模型预测被遮盖的词。

GPT 系列(Generative Pre-trained Transformer):采用自回归语言模型目标,预测下一个词。GPT-3、GPT-4 等大语言模型展现出强大的语言理解和生成能力。

在 VLN 中,预训练语言模型被用于编码导航指令,提取丰富的语义特征。


五、强化学习

强化学习(Reinforcement Learning, RL)研究智能体如何在与环境的交互中学习最优策略。VLN 本质上是一个序列决策问题,强化学习为其提供了自然的建模框架。

5.1 基本概念

强化学习的核心要素包括:

  • 智能体(Agent):学习和决策的主体,在 VLN 中即无人机
  • 环境(Environment):智能体所处的外部世界
  • 状态(State):对环境的描述,记为 s∈Ss \in \mathcal{S}sS
  • 动作(Action):智能体可执行的操作,记为 a∈Aa \in \mathcal{A}aA
  • 奖励(Reward):环境对智能体动作的反馈,记为 r∈Rr \in \mathbb{R}rR
  • 策略(Policy):从状态到动作的映射,记为 π(a∣s)\pi(a|s)π(as)

动作 a

状态 s

奖励 r

智能体

环境

5.2 价值函数与贝尔曼方程

状态价值函数 Vπ(s)V^\pi(s)Vπ(s) 表示从状态 sss 出发,遵循策略 π\piπ 所能获得的期望累积奖励:

Vπ(s)=Eπ[∑t=0∞γtrt+1∣s0=s] V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s \right] Vπ(s)=Eπ[t=0γtrt+1s0=s]

动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 表示在状态 sss 执行动作 aaa,然后遵循策略 π\piπ 所能获得的期望累积奖励:

Qπ(s,a)=Eπ[∑t=0∞γtrt+1∣s0=s,a0=a] Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right] Qπ(s,a)=Eπ[t=0γtrt+1s0=s,a0=a]

价值函数满足贝尔曼方程(Bellman Equation)

Vπ(s)=∑aπ(a∣s)∑s′P(s′∣s,a)[r(s,a,s′)+γVπ(s′)] V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ r(s,a,s') + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)sP(ss,a)[r(s,a,s)+γVπ(s)]

5.3 策略梯度方法

策略梯度方法直接对策略进行参数化,通过梯度上升优化策略参数。设策略为 πθ\pi_\thetaπθ,优化目标为最大化期望累积奖励:

J(θ)=Eτ∼πθ[∑trt] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t r_t \right] J(θ)=Eτπθ[trt]

策略梯度定理给出了目标函数梯度的计算方式:

∇θJ(θ)=Eτ∼πθ[∑t∇θlog⁡πθ(at∣st)⋅Gt] \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t \right] θJ(θ)=Eτπθ[tθlogπθ(atst)Gt]

其中,Gt=∑k=tTγk−trkG_t = \sum_{k=t}^{T} \gamma^{k-t} r_kGt=k=tTγktrk 为从时刻 ttt 开始的累积回报。

REINFORCE 算法直接使用上述梯度估计进行更新。为了降低方差,通常引入基线(Baseline)

∇θJ(θ)=E[∑t∇θlog⁡πθ(at∣st)⋅(Gt−b(st))] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (G_t - b(s_t)) \right] θJ(θ)=E[tθlogπθ(atst)(Gtb(st))]

5.4 Actor-Critic 方法

Actor-Critic 方法结合了策略梯度和价值函数估计。Actor(演员)负责选择动作,Critic(评论家)负责评估动作的好坏。

优势函数(Advantage Function)定义为:

Aπ(s,a)=Qπ(s,a)−Vπ(s) A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) Aπ(s,a)=Qπ(s,a)Vπ(s)

使用优势函数可以进一步降低梯度估计的方差:

∇θJ(θ)=E[∑t∇θlog⁡πθ(at∣st)⋅Aπ(st,at)] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A^\pi(s_t, a_t) \right] θJ(θ)=E[tθlogπθ(atst)Aπ(st,at)]

经典的 Actor-Critic 算法包括 A2C、A3C、PPO(Proximal Policy Optimization)等。

5.5 模仿学习

**模仿学习(Imitation Learning)**从专家演示中学习策略,而非通过试错探索。在 VLN 中,专家演示通常是人类标注的最优导航轨迹。

**行为克隆(Behavioral Cloning, BC)**将模仿学习转化为监督学习问题,直接学习从状态到动作的映射:

LBC=E(s,a)∼D[−log⁡πθ(a∣s)] \mathcal{L}_{BC} = \mathbb{E}_{(s,a) \sim \mathcal{D}} \left[ -\log \pi_\theta(a|s) \right] LBC=E(s,a)D[logπθ(as)]

其中,D\mathcal{D}D 为专家演示数据集。

行为克隆的问题在于分布偏移(Distribution Shift):训练时智能体见到的状态分布与测试时可能不同,导致误差累积。**DAgger(Dataset Aggregation)**算法通过迭代收集专家反馈来缓解这一问题。


六、机器人学与控制

机器人学(Robotics)研究机器人的设计、构建和控制。对于无人机 VLN 系统,机器人学提供了定位、建图、路径规划和运动控制等核心能力。

6.1 坐标系与位姿表示

无人机的位姿(Pose)包括位置和姿态两部分。

位置通常在三维笛卡尔坐标系中表示为 p=(x,y,z)Tp = (x, y, z)^Tp=(x,y,z)T

姿态可以用多种方式表示:

  • 欧拉角(Euler Angles):偏航角(Yaw)ψ\psiψ、俯仰角(Pitch)θ\thetaθ、横滚角(Roll)ϕ\phiϕ
  • 旋转矩阵(Rotation Matrix)R∈SO(3)R \in SO(3)RSO(3),满足 RTR=IR^T R = IRTR=Idet⁡(R)=1\det(R) = 1det(R)=1
  • 四元数(Quaternion)q=(qw,qx,qy,qz)q = (q_w, q_x, q_y, q_z)q=(qw,qx,qy,qz),满足 ∥q∥=1\|q\| = 1q=1

不同表示方式之间可以相互转换。四元数避免了欧拉角的万向节锁(Gimbal Lock)问题,在实际系统中应用广泛。

6.2 同时定位与建图

**同时定位与建图(Simultaneous Localization and Mapping, SLAM)**是指智能体在未知环境中,同时估计自身位置和构建环境地图。

SLAM 问题可以表述为估计后验概率:

P(x0:t,m∣z0:t,u0:t) P(x_{0:t}, m \mid z_{0:t}, u_{0:t}) P(x0:t,mz0:t,u0:t)

其中,x0:tx_{0:t}x0:t 为轨迹,mmm 为地图,z0:tz_{0:t}z0:t 为观测,u0:tu_{0:t}u0:t 为控制输入。

SLAM 方法可分为:

  • 基于滤波的方法:如扩展卡尔曼滤波(EKF-SLAM)、粒子滤波(FastSLAM)
  • 基于优化的方法:如图优化(Graph-based SLAM)、束调整(Bundle Adjustment)
  • 视觉 SLAM:如 ORB-SLAM、LSD-SLAM、VINS-Mono

在 VLN 中,SLAM 提供了无人机的位置估计和环境地图,为路径规划提供基础。

6.3 路径规划

路径规划(Path Planning)是指在给定环境地图和起止点的情况下,计算一条从起点到终点的可行路径。

经典的路径规划算法包括:

  • A 算法*:在栅格地图上搜索最短路径,使用启发式函数加速搜索
  • Dijkstra 算法:A* 的特例,不使用启发式
  • RRT(Rapidly-exploring Random Tree):基于随机采样的规划方法,适用于高维空间
  • 人工势场法(Artificial Potential Field):将目标点设为吸引势,障碍物设为排斥势

A* 算法的评估函数为:

f(n)=g(n)+h(n) f(n) = g(n) + h(n) f(n)=g(n)+h(n)

其中,g(n)g(n)g(n) 为从起点到节点 nnn 的实际代价,h(n)h(n)h(n) 为从节点 nnn 到目标的启发式估计。

6.4 运动控制

运动控制(Motion Control)负责将规划的路径转化为具体的控制指令,驱动无人机执行动作。

无人机的动力学模型通常表示为:

x˙=f(x,u) \dot{x} = f(x, u) x˙=f(x,u)

其中,xxx 为状态向量(位置、速度、姿态等),uuu 为控制输入(电机转速或推力)。

常用的控制方法包括:

  • PID 控制:比例-积分-微分控制,简单有效
  • LQR(Linear Quadratic Regulator):最优控制方法,最小化二次代价函数
  • MPC(Model Predictive Control):基于模型的预测控制,可处理约束

在 VLN 系统中,高层的导航策略输出期望的位置或速度,底层的控制器负责跟踪执行。


七、多模态学习

多模态学习(Multimodal Learning)研究如何整合来自不同模态的信息。在 VLN 中,核心问题是如何融合视觉信息和语言信息。

7.1 融合策略

多模态融合的策略可以按照融合时机分为三类:

混合融合

视觉输入

视觉编码器

语言输入

语言编码器

跨模态交互

输出

晚期融合

视觉输入

视觉编码器

语言输入

语言编码器

融合层

输出

早期融合

视觉输入

拼接

语言输入

联合编码器

输出

  • 早期融合:在输入层面将不同模态的数据拼接,然后由统一的编码器处理
  • 晚期融合:分别对每个模态进行编码,在高层特征层面进行融合
  • 混合融合:在多个层次进行跨模态交互,实现更深入的信息整合

7.2 跨模态注意力

跨模态注意力(Cross-Modal Attention)是实现视觉-语言融合的有效方法。其核心思想是让一个模态的特征作为查询,去关注另一个模态的特征。

设视觉特征为 V∈Rnv×dV \in \mathbb{R}^{n_v \times d}VRnv×d,语言特征为 L∈Rnl×dL \in \mathbb{R}^{n_l \times d}LRnl×d,则语言引导的视觉注意力为:

Attn(L,V,V)=softmax(LWQ(VWK)Td)VWV \text{Attn}(L, V, V) = \text{softmax}\left(\frac{L W_Q (V W_K)^T}{\sqrt{d}}\right) V W_V Attn(L,V,V)=softmax(d LWQ(VWK)T)VWV

这种机制使得模型能够根据语言指令的语义,选择性地关注视觉场景中的相关区域。

7.3 视觉语言预训练模型

近年来,视觉语言预训练模型(Vision-Language Pre-trained Model, VLP)取得了显著进展。这些模型在大规模图像-文本配对数据上进行预训练,学习跨模态的对齐表示。

代表性的 VLP 模型包括:

模型 特点
CLIP 对比学习,图像-文本匹配
BLIP 引导式语言-图像预训练
LLaVA 将视觉编码器接入大语言模型
GPT-4V 多模态大语言模型,具备视觉理解能力

这些模型为 VLN 提供了强大的视觉-语言理解基础,是当前研究的热点方向。


八、技术学习路线建议

8.1 基础阶段

建议按以下顺序学习基础知识:

  1. 数学基础:线性代数、概率论、优化理论
  2. 机器学习基础:监督学习、神经网络、梯度下降
  3. 深度学习框架:PyTorch 或 TensorFlow 的使用

8.2 专项阶段

在掌握基础后,可以并行学习各个专项领域:

  1. 计算机视觉:CNN、目标检测、语义分割
  2. 自然语言处理:词向量、RNN/LSTM、Transformer、BERT
  3. 强化学习:MDP、策略梯度、Actor-Critic

8.3 进阶阶段

在专项知识扎实后,学习多模态和 VLN 专题:

  1. 多模态学习:融合策略、跨模态注意力、VLP 模型
  2. VLN 方法:经典模型、数据集、评估指标
  3. 实践应用:仿真环境、真机部署

8.4 推荐资源

领域 推荐课程
计算机视觉 Stanford CS231n
自然语言处理 Stanford CS224n
强化学习 UC Berkeley CS285
机器人学 Stanford CS223a

九、小结

本文系统梳理了无人机视觉语言导航所涉及的核心技术领域,包括计算机视觉、自然语言处理、强化学习、机器人学和多模态学习。这些技术相互关联、互为支撑,共同构成了 VLN 系统的技术基础。

从技术架构角度看,VLN 系统可以分为感知层、理解层、决策层和执行层。计算机视觉负责视觉感知,NLP 负责语言理解,多模态学习实现两者的融合,强化学习提供决策框架,机器人学提供控制执行能力。

理解这些技术领域的核心概念和方法,是深入学习 VLN 的必要前提。在后续的文章中,我们将逐一深入讲解各个技术模块的细节,帮助读者建立完整的知识体系。


参考文献

[1] LeCun Y, Bengio Y, Hinton G. Deep Learning. Nature, 2015, 521(7553): 436-444.

[2] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. NeurIPS, 2017.

[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL, 2019.

[4] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. MIT Press, 2018.

[5] Thrun S, Burgard W, Fox D. Probabilistic Robotics. MIT Press, 2005.

[6] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models from Natural Language Supervision. ICML, 2021.


下篇预告

下一篇文章《无人机平台基础知识》将介绍无人机的硬件组成、传感器配置、坐标系定义、飞控系统等基础知识,帮助读者了解 VLN 的载体平台,为后续的实践应用做好准备。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐