无人机视觉语言导航从入门到精通(二):技术全景图
本文系统梳理了无人机视觉语言导航(UAV-VLN)的技术全景图,涵盖计算机视觉、自然语言处理、强化学习和机器人学四大核心领域。在计算机视觉方面,重点介绍了图像特征提取、目标检测、语义分割和深度估计等关键技术;自然语言处理部分则详细解析了文本表示、序列建模以及注意力机制等重要方法。文章还分析了这些技术在VLN系统中的相互关系和作用机制,为读者构建了完整的技术知识框架。通过本文,读者可以全面了解VLN
无人机视觉语言导航从入门到精通(二):技术全景图
摘要
无人机视觉语言导航(UAV-VLN)是一个典型的多学科交叉领域,它融合了计算机视觉、自然语言处理、强化学习、机器人学等多个技术方向的核心成果。本文将系统梳理 VLN 所涉及的各个技术领域,分析它们之间的相互关系,并为读者提供清晰的技术知识图谱和学习路线建议。理解这些基础技术及其在 VLN 中的作用,是深入学习后续内容的必要前提。
关键词:计算机视觉、自然语言处理、强化学习、机器人学、多模态学习、技术栈
一、引言
在上一篇文章中,我们介绍了视觉语言导航的基本概念和问题定义。我们了解到,VLN 要求智能体同时具备语言理解、视觉感知和导航决策三方面的能力。这些能力的实现,依赖于多个人工智能子领域的技术支撑。
本文将从宏观视角出发,绘制 VLN 的技术全景图。我们将逐一介绍各个相关技术领域的核心概念、关键方法,以及它们在 VLN 系统中所扮演的角色。通过本文的学习,读者将建立起对 VLN 技术栈的整体认知,为后续深入学习各个模块奠定基础。
二、技术全景总览
2.1 VLN 技术栈架构
VLN 系统的技术栈可以从纵向和横向两个维度进行划分。纵向维度按照处理流程划分为感知层、理解层、决策层和执行层;横向维度按照学科领域划分为视觉、语言、学习和控制四大模块。
2.2 核心技术领域
VLN 涉及的核心技术领域及其关系可以用下图表示:
下面我们将逐一介绍这些技术领域的核心内容。
三、计算机视觉
计算机视觉(Computer Vision, CV)是研究如何使计算机从图像或视频中获取信息的学科。在 VLN 系统中,计算机视觉负责处理无人机摄像头采集的图像,提取环境信息,为导航决策提供视觉依据。
3.1 图像特征提取
特征提取是计算机视觉的基础任务,其目标是将原始图像转换为更加紧凑、更具语义的表示形式。
传统特征提取方法包括:
- SIFT(Scale-Invariant Feature Transform):提取对尺度和旋转具有不变性的局部特征点
- ORB(Oriented FAST and Rotated BRIEF):一种高效的特征点检测和描述算法
- HOG(Histogram of Oriented Gradients):通过统计图像局部区域的梯度方向直方图来描述图像
深度学习特征提取方法以卷积神经网络(Convolutional Neural Network, CNN)为代表。CNN 通过卷积操作自动学习图像的层次化特征表示。设输入图像为 I∈RH×W×CI \in \mathbb{R}^{H \times W \times C}I∈RH×W×C,卷积操作可表示为:
Fi,j,k=σ(∑m,n,cWm,n,c,k⋅Ii+m,j+n,c+bk) F_{i,j,k} = \sigma \left( \sum_{m,n,c} W_{m,n,c,k} \cdot I_{i+m, j+n, c} + b_k \right) Fi,j,k=σ(m,n,c∑Wm,n,c,k⋅Ii+m,j+n,c+bk)
其中,WWW 为卷积核权重,bbb 为偏置,σ\sigmaσ 为激活函数。
经典的 CNN 架构包括:
| 模型 | 年份 | 层数 | 特点 |
|---|---|---|---|
| AlexNet | 2012 | 8 | 首次在 ImageNet 上取得突破 |
| VGG | 2014 | 16/19 | 使用小卷积核堆叠 |
| ResNet | 2015 | 50/101/152 | 引入残差连接解决梯度消失 |
| EfficientNet | 2019 | 可变 | 复合缩放策略 |
在 VLN 中,预训练的 CNN 模型常被用作视觉特征提取器,将输入图像编码为固定维度的特征向量。
3.2 目标检测与识别
目标检测(Object Detection)旨在识别图像中存在的物体,并给出其位置边界框。在 VLN 中,目标检测用于识别导航指令中提到的地标、物体等。
目标检测方法可分为两类:
两阶段方法:先生成候选区域,再对候选区域分类
- R-CNN 系列:R-CNN、Fast R-CNN、Faster R-CNN
- 特点:精度高,速度相对较慢
单阶段方法:直接在特征图上预测物体类别和位置
- YOLO 系列:YOLOv1 至 YOLOv8
- SSD(Single Shot MultiBox Detector)
- 特点:速度快,适合实时应用
目标检测的输出通常表示为:
{(ci,xi,yi,wi,hi,pi)}i=1N \{(c_i, x_i, y_i, w_i, h_i, p_i)\}_{i=1}^{N} {(ci,xi,yi,wi,hi,pi)}i=1N
其中,cic_ici 为类别,(xi,yi,wi,hi)(x_i, y_i, w_i, h_i)(xi,yi,wi,hi) 为边界框参数,pip_ipi 为置信度。
3.3 语义分割
语义分割(Semantic Segmentation)为图像中的每个像素分配一个语义类别标签。与目标检测相比,语义分割提供了更加精细的场景理解。
经典的语义分割网络包括:
- FCN(Fully Convolutional Networks):首个端到端的语义分割网络
- U-Net:编码器-解码器结构,广泛用于医学图像分割
- DeepLab 系列:引入空洞卷积和条件随机场
语义分割的输出为分割掩码 M∈RH×WM \in \mathbb{R}^{H \times W}M∈RH×W,其中 Mi,jM_{i,j}Mi,j 表示像素 (i,j)(i,j)(i,j) 所属的语义类别。
3.4 深度估计
深度估计(Depth Estimation)旨在从图像中推断场景的三维结构信息。对于无人机导航而言,深度信息对于避障和路径规划至关重要。
单目深度估计从单张图像推断深度,是一个病态问题(ill-posed problem),通常通过深度学习方法解决。典型模型包括 MonoDepth、MiDaS 等。
双目深度估计利用双目视差原理计算深度。设两个相机的基线距离为 bbb,焦距为 fff,视差为 ddd,则深度 ZZZ 可由下式计算:
Z=b⋅fd Z = \frac{b \cdot f}{d} Z=db⋅f
深度传感器如 RGB-D 相机、LiDAR 等可直接获取深度信息,但在无人机平台上受到体积和功耗的限制。
四、自然语言处理
自然语言处理(Natural Language Processing, NLP)是研究计算机如何理解和生成人类语言的学科。在 VLN 中,NLP 技术负责解析用户的导航指令,提取其中的语义信息。
4.1 文本表示
文本表示是 NLP 的基础问题,其目标是将离散的文本符号转换为连续的向量表示。
词袋模型(Bag of Words, BoW):将文本表示为词频向量,忽略词序信息。
词向量(Word Embedding):将每个词映射到一个低维稠密向量空间。经典方法包括:
- Word2Vec:通过预测上下文词(Skip-gram)或由上下文预测中心词(CBOW)来学习词向量
- GloVe:基于全局词共现矩阵的分解方法
词向量的一个重要性质是语义相似的词在向量空间中距离较近。例如:
vec(king)−vec(man)+vec(woman)≈vec(queen) \text{vec}(\text{king}) - \text{vec}(\text{man}) + \text{vec}(\text{woman}) \approx \text{vec}(\text{queen}) vec(king)−vec(man)+vec(woman)≈vec(queen)
句子表示:将整个句子编码为向量。常用方法包括:
- 词向量的平均或加权平均
- 循环神经网络(RNN)的最终隐状态
- Transformer 编码器的输出
4.2 序列建模
导航指令是一个词序列,理解指令需要对序列进行建模。
循环神经网络(Recurrent Neural Network, RNN):通过循环连接处理序列数据。设输入序列为 (x1,x2,…,xT)(x_1, x_2, \ldots, x_T)(x1,x2,…,xT),RNN 的计算过程为:
ht=σ(Whhht−1+Wxhxt+bh) h_t = \sigma(W_{hh} h_{t-1} + W_{xh} x_t + b_h) ht=σ(Whhht−1+Wxhxt+bh)
其中,hth_tht 为时刻 ttt 的隐状态,WhhW_{hh}Whh、WxhW_{xh}Wxh 为权重矩阵。
RNN 存在梯度消失和梯度爆炸问题,**长短期记忆网络(Long Short-Term Memory, LSTM)**通过引入门控机制解决这一问题:
ft=σ(Wf[ht−1,xt]+bf)it=σ(Wi[ht−1,xt]+bi)ot=σ(Wo[ht−1,xt]+bo)c~t=tanh(Wc[ht−1,xt]+bc)ct=ft⊙ct−1+it⊙c~tht=ot⊙tanh(ct) \begin{aligned} f_t &= \sigma(W_f [h_{t-1}, x_t] + b_f) \\ i_t &= \sigma(W_i [h_{t-1}, x_t] + b_i) \\ o_t &= \sigma(W_o [h_{t-1}, x_t] + b_o) \\ \tilde{c}_t &= \tanh(W_c [h_{t-1}, x_t] + b_c) \\ c_t &= f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \\ h_t &= o_t \odot \tanh(c_t) \end{aligned} ftitotc~tctht=σ(Wf[ht−1,xt]+bf)=σ(Wi[ht−1,xt]+bi)=σ(Wo[ht−1,xt]+bo)=tanh(Wc[ht−1,xt]+bc)=ft⊙ct−1+it⊙c~t=ot⊙tanh(ct)
其中,ftf_tft、iti_tit、oto_tot 分别为遗忘门、输入门和输出门,ctc_tct 为细胞状态。
4.3 注意力机制与 Transformer
**注意力机制(Attention Mechanism)**允许模型在处理序列时动态关注不同位置的信息。给定查询 QQQ、键 KKK 和值 VVV,缩放点积注意力的计算公式为:
Attention(Q,K,V)=softmax(QKTdk)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V Attention(Q,K,V)=softmax(dkQKT)V
其中,dkd_kdk 为键向量的维度,除以 dk\sqrt{d_k}dk 是为了防止点积值过大导致 softmax 梯度消失。
Transformer完全基于注意力机制构建,摒弃了循环结构。其核心组件包括:
- 多头注意力(Multi-Head Attention):并行计算多组注意力,捕获不同子空间的信息
- 位置编码(Positional Encoding):为序列中的每个位置添加位置信息
- 前馈网络(Feed-Forward Network):对每个位置独立进行非线性变换
Transformer 的并行计算特性使其训练效率远高于 RNN,已成为 NLP 领域的主流架构。
4.4 预训练语言模型
预训练语言模型(Pre-trained Language Model)通过在大规模语料上进行自监督学习,获得通用的语言理解能力,然后在下游任务上进行微调。
BERT(Bidirectional Encoder Representations from Transformers):采用掩码语言模型(Masked Language Model, MLM)目标进行预训练。随机遮盖输入中的部分词元,让模型预测被遮盖的词。
GPT 系列(Generative Pre-trained Transformer):采用自回归语言模型目标,预测下一个词。GPT-3、GPT-4 等大语言模型展现出强大的语言理解和生成能力。
在 VLN 中,预训练语言模型被用于编码导航指令,提取丰富的语义特征。
五、强化学习
强化学习(Reinforcement Learning, RL)研究智能体如何在与环境的交互中学习最优策略。VLN 本质上是一个序列决策问题,强化学习为其提供了自然的建模框架。
5.1 基本概念
强化学习的核心要素包括:
- 智能体(Agent):学习和决策的主体,在 VLN 中即无人机
- 环境(Environment):智能体所处的外部世界
- 状态(State):对环境的描述,记为 s∈Ss \in \mathcal{S}s∈S
- 动作(Action):智能体可执行的操作,记为 a∈Aa \in \mathcal{A}a∈A
- 奖励(Reward):环境对智能体动作的反馈,记为 r∈Rr \in \mathbb{R}r∈R
- 策略(Policy):从状态到动作的映射,记为 π(a∣s)\pi(a|s)π(a∣s)
5.2 价值函数与贝尔曼方程
状态价值函数 Vπ(s)V^\pi(s)Vπ(s) 表示从状态 sss 出发,遵循策略 π\piπ 所能获得的期望累积奖励:
Vπ(s)=Eπ[∑t=0∞γtrt+1∣s0=s] V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s \right] Vπ(s)=Eπ[t=0∑∞γtrt+1∣s0=s]
动作价值函数 Qπ(s,a)Q^\pi(s, a)Qπ(s,a) 表示在状态 sss 执行动作 aaa,然后遵循策略 π\piπ 所能获得的期望累积奖励:
Qπ(s,a)=Eπ[∑t=0∞γtrt+1∣s0=s,a0=a] Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right] Qπ(s,a)=Eπ[t=0∑∞γtrt+1∣s0=s,a0=a]
价值函数满足贝尔曼方程(Bellman Equation):
Vπ(s)=∑aπ(a∣s)∑s′P(s′∣s,a)[r(s,a,s′)+γVπ(s′)] V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[ r(s,a,s') + \gamma V^\pi(s') \right] Vπ(s)=a∑π(a∣s)s′∑P(s′∣s,a)[r(s,a,s′)+γVπ(s′)]
5.3 策略梯度方法
策略梯度方法直接对策略进行参数化,通过梯度上升优化策略参数。设策略为 πθ\pi_\thetaπθ,优化目标为最大化期望累积奖励:
J(θ)=Eτ∼πθ[∑trt] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t r_t \right] J(θ)=Eτ∼πθ[t∑rt]
策略梯度定理给出了目标函数梯度的计算方式:
∇θJ(θ)=Eτ∼πθ[∑t∇θlogπθ(at∣st)⋅Gt] \nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t \right] ∇θJ(θ)=Eτ∼πθ[t∑∇θlogπθ(at∣st)⋅Gt]
其中,Gt=∑k=tTγk−trkG_t = \sum_{k=t}^{T} \gamma^{k-t} r_kGt=∑k=tTγk−trk 为从时刻 ttt 开始的累积回报。
REINFORCE 算法直接使用上述梯度估计进行更新。为了降低方差,通常引入基线(Baseline):
∇θJ(θ)=E[∑t∇θlogπθ(at∣st)⋅(Gt−b(st))] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (G_t - b(s_t)) \right] ∇θJ(θ)=E[t∑∇θlogπθ(at∣st)⋅(Gt−b(st))]
5.4 Actor-Critic 方法
Actor-Critic 方法结合了策略梯度和价值函数估计。Actor(演员)负责选择动作,Critic(评论家)负责评估动作的好坏。
优势函数(Advantage Function)定义为:
Aπ(s,a)=Qπ(s,a)−Vπ(s) A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s) Aπ(s,a)=Qπ(s,a)−Vπ(s)
使用优势函数可以进一步降低梯度估计的方差:
∇θJ(θ)=E[∑t∇θlogπθ(at∣st)⋅Aπ(st,at)] \nabla_\theta J(\theta) = \mathbb{E} \left[ \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A^\pi(s_t, a_t) \right] ∇θJ(θ)=E[t∑∇θlogπθ(at∣st)⋅Aπ(st,at)]
经典的 Actor-Critic 算法包括 A2C、A3C、PPO(Proximal Policy Optimization)等。
5.5 模仿学习
**模仿学习(Imitation Learning)**从专家演示中学习策略,而非通过试错探索。在 VLN 中,专家演示通常是人类标注的最优导航轨迹。
**行为克隆(Behavioral Cloning, BC)**将模仿学习转化为监督学习问题,直接学习从状态到动作的映射:
LBC=E(s,a)∼D[−logπθ(a∣s)] \mathcal{L}_{BC} = \mathbb{E}_{(s,a) \sim \mathcal{D}} \left[ -\log \pi_\theta(a|s) \right] LBC=E(s,a)∼D[−logπθ(a∣s)]
其中,D\mathcal{D}D 为专家演示数据集。
行为克隆的问题在于分布偏移(Distribution Shift):训练时智能体见到的状态分布与测试时可能不同,导致误差累积。**DAgger(Dataset Aggregation)**算法通过迭代收集专家反馈来缓解这一问题。
六、机器人学与控制
机器人学(Robotics)研究机器人的设计、构建和控制。对于无人机 VLN 系统,机器人学提供了定位、建图、路径规划和运动控制等核心能力。
6.1 坐标系与位姿表示
无人机的位姿(Pose)包括位置和姿态两部分。
位置通常在三维笛卡尔坐标系中表示为 p=(x,y,z)Tp = (x, y, z)^Tp=(x,y,z)T。
姿态可以用多种方式表示:
- 欧拉角(Euler Angles):偏航角(Yaw)ψ\psiψ、俯仰角(Pitch)θ\thetaθ、横滚角(Roll)ϕ\phiϕ
- 旋转矩阵(Rotation Matrix):R∈SO(3)R \in SO(3)R∈SO(3),满足 RTR=IR^T R = IRTR=I,det(R)=1\det(R) = 1det(R)=1
- 四元数(Quaternion):q=(qw,qx,qy,qz)q = (q_w, q_x, q_y, q_z)q=(qw,qx,qy,qz),满足 ∥q∥=1\|q\| = 1∥q∥=1
不同表示方式之间可以相互转换。四元数避免了欧拉角的万向节锁(Gimbal Lock)问题,在实际系统中应用广泛。
6.2 同时定位与建图
**同时定位与建图(Simultaneous Localization and Mapping, SLAM)**是指智能体在未知环境中,同时估计自身位置和构建环境地图。
SLAM 问题可以表述为估计后验概率:
P(x0:t,m∣z0:t,u0:t) P(x_{0:t}, m \mid z_{0:t}, u_{0:t}) P(x0:t,m∣z0:t,u0:t)
其中,x0:tx_{0:t}x0:t 为轨迹,mmm 为地图,z0:tz_{0:t}z0:t 为观测,u0:tu_{0:t}u0:t 为控制输入。
SLAM 方法可分为:
- 基于滤波的方法:如扩展卡尔曼滤波(EKF-SLAM)、粒子滤波(FastSLAM)
- 基于优化的方法:如图优化(Graph-based SLAM)、束调整(Bundle Adjustment)
- 视觉 SLAM:如 ORB-SLAM、LSD-SLAM、VINS-Mono
在 VLN 中,SLAM 提供了无人机的位置估计和环境地图,为路径规划提供基础。
6.3 路径规划
路径规划(Path Planning)是指在给定环境地图和起止点的情况下,计算一条从起点到终点的可行路径。
经典的路径规划算法包括:
- A 算法*:在栅格地图上搜索最短路径,使用启发式函数加速搜索
- Dijkstra 算法:A* 的特例,不使用启发式
- RRT(Rapidly-exploring Random Tree):基于随机采样的规划方法,适用于高维空间
- 人工势场法(Artificial Potential Field):将目标点设为吸引势,障碍物设为排斥势
A* 算法的评估函数为:
f(n)=g(n)+h(n) f(n) = g(n) + h(n) f(n)=g(n)+h(n)
其中,g(n)g(n)g(n) 为从起点到节点 nnn 的实际代价,h(n)h(n)h(n) 为从节点 nnn 到目标的启发式估计。
6.4 运动控制
运动控制(Motion Control)负责将规划的路径转化为具体的控制指令,驱动无人机执行动作。
无人机的动力学模型通常表示为:
x˙=f(x,u) \dot{x} = f(x, u) x˙=f(x,u)
其中,xxx 为状态向量(位置、速度、姿态等),uuu 为控制输入(电机转速或推力)。
常用的控制方法包括:
- PID 控制:比例-积分-微分控制,简单有效
- LQR(Linear Quadratic Regulator):最优控制方法,最小化二次代价函数
- MPC(Model Predictive Control):基于模型的预测控制,可处理约束
在 VLN 系统中,高层的导航策略输出期望的位置或速度,底层的控制器负责跟踪执行。
七、多模态学习
多模态学习(Multimodal Learning)研究如何整合来自不同模态的信息。在 VLN 中,核心问题是如何融合视觉信息和语言信息。
7.1 融合策略
多模态融合的策略可以按照融合时机分为三类:
- 早期融合:在输入层面将不同模态的数据拼接,然后由统一的编码器处理
- 晚期融合:分别对每个模态进行编码,在高层特征层面进行融合
- 混合融合:在多个层次进行跨模态交互,实现更深入的信息整合
7.2 跨模态注意力
跨模态注意力(Cross-Modal Attention)是实现视觉-语言融合的有效方法。其核心思想是让一个模态的特征作为查询,去关注另一个模态的特征。
设视觉特征为 V∈Rnv×dV \in \mathbb{R}^{n_v \times d}V∈Rnv×d,语言特征为 L∈Rnl×dL \in \mathbb{R}^{n_l \times d}L∈Rnl×d,则语言引导的视觉注意力为:
Attn(L,V,V)=softmax(LWQ(VWK)Td)VWV \text{Attn}(L, V, V) = \text{softmax}\left(\frac{L W_Q (V W_K)^T}{\sqrt{d}}\right) V W_V Attn(L,V,V)=softmax(dLWQ(VWK)T)VWV
这种机制使得模型能够根据语言指令的语义,选择性地关注视觉场景中的相关区域。
7.3 视觉语言预训练模型
近年来,视觉语言预训练模型(Vision-Language Pre-trained Model, VLP)取得了显著进展。这些模型在大规模图像-文本配对数据上进行预训练,学习跨模态的对齐表示。
代表性的 VLP 模型包括:
| 模型 | 特点 |
|---|---|
| CLIP | 对比学习,图像-文本匹配 |
| BLIP | 引导式语言-图像预训练 |
| LLaVA | 将视觉编码器接入大语言模型 |
| GPT-4V | 多模态大语言模型,具备视觉理解能力 |
这些模型为 VLN 提供了强大的视觉-语言理解基础,是当前研究的热点方向。
八、技术学习路线建议
8.1 基础阶段
建议按以下顺序学习基础知识:
- 数学基础:线性代数、概率论、优化理论
- 机器学习基础:监督学习、神经网络、梯度下降
- 深度学习框架:PyTorch 或 TensorFlow 的使用
8.2 专项阶段
在掌握基础后,可以并行学习各个专项领域:
- 计算机视觉:CNN、目标检测、语义分割
- 自然语言处理:词向量、RNN/LSTM、Transformer、BERT
- 强化学习:MDP、策略梯度、Actor-Critic
8.3 进阶阶段
在专项知识扎实后,学习多模态和 VLN 专题:
- 多模态学习:融合策略、跨模态注意力、VLP 模型
- VLN 方法:经典模型、数据集、评估指标
- 实践应用:仿真环境、真机部署
8.4 推荐资源
| 领域 | 推荐课程 |
|---|---|
| 计算机视觉 | Stanford CS231n |
| 自然语言处理 | Stanford CS224n |
| 强化学习 | UC Berkeley CS285 |
| 机器人学 | Stanford CS223a |
九、小结
本文系统梳理了无人机视觉语言导航所涉及的核心技术领域,包括计算机视觉、自然语言处理、强化学习、机器人学和多模态学习。这些技术相互关联、互为支撑,共同构成了 VLN 系统的技术基础。
从技术架构角度看,VLN 系统可以分为感知层、理解层、决策层和执行层。计算机视觉负责视觉感知,NLP 负责语言理解,多模态学习实现两者的融合,强化学习提供决策框架,机器人学提供控制执行能力。
理解这些技术领域的核心概念和方法,是深入学习 VLN 的必要前提。在后续的文章中,我们将逐一深入讲解各个技术模块的细节,帮助读者建立完整的知识体系。
参考文献
[1] LeCun Y, Bengio Y, Hinton G. Deep Learning. Nature, 2015, 521(7553): 436-444.
[2] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need. NeurIPS, 2017.
[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL, 2019.
[4] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. MIT Press, 2018.
[5] Thrun S, Burgard W, Fox D. Probabilistic Robotics. MIT Press, 2005.
[6] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models from Natural Language Supervision. ICML, 2021.
下篇预告
下一篇文章《无人机平台基础知识》将介绍无人机的硬件组成、传感器配置、坐标系定义、飞控系统等基础知识,帮助读者了解 VLN 的载体平台,为后续的实践应用做好准备。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)