时空基础模型综述：从数据到模型的全流程解析

本文综述了时空基础模型（STFMs），涵盖数据预处理、模型设计、训练目标和迁移适应技术等方面，提出了数据属性分类法，讨论了模型在多领域的应用，并展望了未来研究方向，旨在提升模型性能和适用性。

江湖人称麻花滕

1271人浏览 · 2025-06-26 21:30:31

江湖人称麻花滕 · 2025-06-26 21:30:31 发布

TL; DR: 本文综述了时空基础模型（STFMs），涵盖数据预处理、模型设计、训练目标和迁移适应技术等方面，提出了数据属性分类法，讨论了模型在多领域的应用，并展望了未来研究方向，旨在提升模型性能和适用性。

关键词：时空基础模型，Pipeline，「数据来源 - 依赖关系 - 模态」分层分类

时空数据建模通用需求

在智能交通、气象预测、能源网络等关键领域，时空数据呈现高维动态性（如路网轨迹的时空耦合、气象场的多尺度演变）与任务多样性（预测、补全、异常检测等）。传统「一对一」模型面临两大痛点：

重复开发成本高：每个任务需独立训练，资源浪费显著；
泛化能力局限：跨域迁移需重构模型，难以应对数据分布差异。

时空基础模型（STFMs） 通过「单一模型解决多任务」的通用框架，成为破局关键。其核心思想如下图所示：通过学习原生时空基础模型或迁移其他领域预训练基础模型，实现「一次训练，多域部署」。

时空基础模型范式

时空基础模型学习难点

综述主要贡献

全面且最新的综述：本文提供了当前最系统的时空基础模型综述，涵盖数据类型、模型、训练目标和适配技术等广泛内容。
创新的数据属性分类体系：首次提出按「数据来源 - 依赖关系 - 模态」分层分类法，从粗到细的将时空基础模型进行分类，有助于高效模型设计与选择。
首次基于流程视角的综述：据我们所知，本文是首个从流程出发系统分析时空基础模型的综述，有助于理解模型为何表现优越、如何构建。
未来研究方向的识别：我们总结了时空基础模型当前应用中的关键挑战，并提出了未来研究的潜在机遇，激励后续更先进模型的发展。

技术框架：数据 - 模型 - 应用的三维技术栈

时空基础模型按「数据来源 - 依赖关系 - 模态」分层分类如下图所示，其主要涵盖内容如下：

pipeline

数据调和层：从原始数据到语义表征的标准化流水线
- 轨迹数据：通过地图匹配（Map-Matching）修正 GPS 噪声，利用旋转位置嵌入（Rotary Position Embedding）保留时空相对关系；
- 事件数据：构建时序知识图谱（TKG），通过大语言模型（LLM）推理事件因果链；
- 时空网格数据：采用 3D 分块（3D Patching）降低空间分辨率，结合傅里叶变换（FFT）分离季节趋势；
- 时空图数据：核心预处理技术包括时序分解、时空 Patching 以及时空嵌入。
- 视频数据：预处理核心目标是适配预训练视觉模型输入格式、压缩冗余信息及保留时空语义；
- 特征增强技术：引入 POI 类别、天气等外源信息，通过跨模态对齐（如 CLIP 的图文对比学习）提升表征丰富度。
- 常用时空数据集如下表所示

数据集

模型架构层：基于数据属性的精细化建模
时空原生模型（Primitive Models）：
- 时序模型：Transformer + 分块嵌入（Patch Embedding）捕捉长程依赖（如 UniTraj 用于轨迹预测）；
- 空间模型：视觉 Transformer（ViT）结合图神经网络（GNN）建模全局空间关联（如 G2PTL 融合注意力矩阵与路网拓扑）；
- 时空联合模型：时空 Transformer 融合卷积与自注意力（如 MSTEM 用于事件预测）
时空迁移模型（Transferred Models）：
- 视觉迁移：ViT 预训练模型提取视频帧特征，通过 Q-Former 适配语言模型（如 BLIP 用于视频问答）；
- 语言迁移：LLaMA 通过提示工程（Prompt Engineering）将数值数据转为文本序列（如 “时间戳 + 位置 + 流量” 模板）；
- 多模态迁移：UrbanCLIP 通过预训练多模态模型生成文本描述，以进行图文对比学习生成城市区域语义向量，支持犯罪预测等下游任务。
训练与适配层：自监督学习与预训练迁移
- 自监督目标设计：
- 回归建模： autoregressive 预测未来（如 FourCastNet 迭代生成气象序列）；

回归建模

掩码建模:时空 MAE 重构缺失数据（如 STD-MAE 分离时空依赖提升交通预测精度；

掩码建模

对比学习：不同视角的输入表示对齐（如 UrbanCLIP 对齐图文模态提升下游任务性能）

对比学习

扩散生成：条件扩散模型生成符合物理约束的时空数据（如 ControlTraj 引入道路拓扑约束）。

扩散生成

预训练迁移技术：
- 提升工程：现有提升预训练模型用于时空建模的方法可分为两类：1）直接将数值数据融入文本；2）将数值数据转换为文本描述；

提升工程

特征增强：得益于预训练基础模型强大的文本和图像理解能力，可以从其提取丰富的额外特征用于下游任务，如时空数据的文本描述及隐式关联。

特征增强

跨域对齐：现有跨域对齐方法直接将预训练的大型语言模型用来时空建模，通常将时空数据与文本对齐，然后将对齐后的数据输入到冻结的大型语言模型中，用于下游时空任务。
监督微调：监督微调利用特定时空数据对预训练模型进行再训练，将时空领域知识融入到预训练的大型语言模型中。

监督微调

技术展望：下一代时空基础模型的六大技术坐标

规模化训练：构建超大规模时空数据集，验证「模型规模 - 性能」的扩展定律；
高效推理：探索基础模型的蒸馏、剪枝、压缩等，以适配边缘设备；
跨域统一：如设计通用空间分块技术，兼容网格（Grid）与图（Graph）数据，实现「一模型通用于路网与传感器网络」；
标准化评测：建立跨域（如轨迹、格子、图数据的统一验证）跨任务 Benchmark（如涵盖预测、生成、推理的多维度评估体系），推动技术横向对比；
多目标训练：过联合优化多个互补目标（如回归或掩码建模），提升模型的泛化能力与任务兼容性；
多模态基础模型：通过对齐不同模态特征以解决时空数据存在的语义鸿沟与数据稀疏性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ESXi 8.0安装后网络不通？3步排查vSwitch/IP/VLAN，新手也能搞定

优先排查vSwitch是否绑定有效物理网卡，再核对vmkernel端口IP与网关、网段是否匹配，最后检查VLAN标签是否与物理网络一致。这三个步骤层层递进，覆盖了90%以上的网络不通场景，操作简单、逻辑清晰，新手只要跟着步骤排查、纠正错误，就能快速恢复网络连通。本文详细拆解了前期准备、分步排查、连通性测试、异常处理及常见误区，格式与之前ESXi系列教程保持一致，降低新手学习成本。

DAMO开发者矩阵

电商客服机器人选型实战：从知识库、转人工到自动解决率的能力对比

DAMO开发者矩阵

Science Robotics 演示一次，执行多项：运动智能用于跨机器人技能转移

本文提出运动学智能概念，通过将机器人的运动学约束嵌入控制策略架构，实现跨平台技能迁移。方法基于三类核心技术：1）非尖点型3R机器人分类框架；2）与类别绑定的近约束控制策略；3）冗余机器人参数化降维。实验表明，该方法能在不同构型机器人上实现安全、平滑的任务执行，无需重新示教。研究为可迁移、安全的机器人技能学习奠定基础，未来将扩展至尖点型机器人及动态环境避障。