摘要MODISMCD12Q1)中国2001-2024年土地覆盖数据集是基于TerraAqua卫星观测数据,应用监督分类算法生成的年度、空间分辨率约为500米的科学数据集。该数据集系统描绘了二十余年来中国地表覆盖的空间分布与年际动态变化,经过严格的质量控制,是进行宏观生态环境监测、气候变化研究及可持续发展政策制定的重要基础数据。

关键词:GEE;土地覆盖;MCD12Q1;500米分辨率

  言

在当今大数据与地球系统科学深度融合的背景下,土地覆盖数据作为表征地表自然与人工要素空间分布的基础信息,已成为数据科学驱动下的环境建模、全球变化研究与可持续发展决策的核心数据层。其意义在于将海量的卫星遥感观测数据,通过先进的分类算法与数据同化技术,转化为可被机器识别和定量分析的信息产品,从而支撑从区域到全球尺度的生态过程模拟、时空格局挖掘以及人地系统相互作用分析。中国正处于快速的经济社会发展和生态文明建设时期,其地表覆盖经历了显著的变化,因此构建高时效性、高一致性的长时间序列土地覆盖数据集对于精准评估国家重大生态工程的成效、预测未来情景至关重要。

在此领域,由美国宇航局(NASA)提供的MODIS(中分辨率成像光谱仪)土地覆盖产品(MCD12Q1)因其自2000年以来连续的观测记录、稳定的产品质量和免费开放的数据政策,已成为全球应用最为广泛的标准数据集之一,为相关研究提供了国际可比的数据基础。前期研究不仅利用更高分辨率的影像(如Landsat)对MCD12Q1在中国区域的分类精度进行了多方案的验证与比较,还基于此数据集成功揭示了我国城市化进程、植被退化和恢复、耕地变迁等关键环境现象的时空特征。然而,随着时间序列的不断延长,系统性地整理并更新适用于中国区域的长时序MCD12Q1数据集,对于捕捉跨二十年以上的长期变化规律、满足新一代地球系统模型对输入数据一致性的高要求,显得日益迫切。

本工作在此背景下,系统整合了2000年至2024年间的MCD12Q1版本6(V6)数据,构建了一个覆盖中国全境、具有年度时间分辨率和一致分类体系的土地覆盖数据集。该数据集不仅忠实反映了原始数据的科学价值,还进行了格式标准化、区域裁剪和质量信息集成等处理,极大提升了其易用性。其潜在的重复利用价值巨大,既可服务于气候变化模拟中的下垫面参数化、生态系统碳汇评估、生物栖息地变化监测等前沿科学研究,也能为国土空间规划、灾害风险评估等应用领域提供长期、可靠的数据支撑。本数据集的构建旨在为更广泛的研究社区提供一个高质量的基础平台,促进对中国地表过程更深入、更精准的数据科学探索。

1  数据采集和处理方法

1.1  数据采集方法

本数据集依靠GEE(Google Earth Engine)平台,使用MCD12Q1数据集。结合使用 Terra Aqua MODIS 土地覆盖类型 (MCD12Q1) 版本 6.1 数据产品每年提供一次全球土地覆盖类型数据。MCD12Q1 版本 6.1 数据产品是使用 MODIS Terra 和 Aqua 反射率数据的监督分类派生的。土地覆盖类型源自国际地球-生物圈计划 (IGBP)、马里兰大学 (UMD)、叶面积指数 (LAI)、BIOME-Biogeochemical Cycles (BGC) 和植物功能类型 (PFT) 分类方案。然后,监督分类会进行额外的后处理,以纳入先验知识和辅助信息,进一步优化特定类别。粮食及农业组织 (FAO) 土地覆盖分类系统 (LCCS) 提供了其他土地覆盖地图项评估图层,用于表示土地覆盖、土地利用和地表水文。

1.2  数据处理

通过GEE(Google Earth Engine)平台编写代码,实现日期筛选,裁剪,导出功能。通过上传的矢量边界筛选影像范围。并逐月导出至谷歌云空间。投影统一采用WGS84投影。

2  数据样本描述

本数据集包含2000-2024共25年的500米分辨率的土地覆盖的TIFF影像全国影像命名格式例如MCD12Q1_2024.tif。土地覆盖数据为5波段的多波段数据,其中波段1到5分表表示LC_Type1到LC_Type5。具体土地利用类型见下表。

1  LC_Type1

序号

说明

1

常绿针叶林:以常绿针叶乔木为主(树冠 >2 米)。树木覆盖率 >60%。

2

常绿阔叶林:以常绿阔叶树和掌状树为主(树冠 >2 米)。树木覆盖率 >60%。

3

落叶针叶林:以落叶针叶树(落叶松)为主(树冠 >2 米)。树木覆盖率 >60%。

4

落叶阔叶林:以落叶阔叶树为主(树冠 >2 米)。树木覆盖率 >60%。

5

混交林:以落叶树和常绿树为主(各占 40-60%)的树种(树冠 >2 米)。树木覆盖率 >60%。

6

密灌丛:以木本多年生植物(高度 1-2 米)为主,覆盖率 >60%。

7

开阔的灌木丛:以木本多年生植物(高度 1-2 米)为主,覆盖率 10-60%。

8

多树稀树草原:树木覆盖率 30-60%(树冠 >2 米)。

9

热带草原:树木覆盖率 10-30%(树冠 >2 米)。

10

草原:以草本一年生植物(高度 <2 米)为主。

11

永久性湿地:永久性淹没的土地,水面覆盖率 30-60%,植被覆盖率 >10%。

12

耕地。

13

城市和建成区:至少 30% 的不透水表面积,包括建筑材料、沥青和车辆。

14

农田/天然植被镶嵌:小规模耕作占 40-60% 的镶嵌,其余为天然树木、灌木或草本植被。

15

永久性冰雪:至少 60% 的区域全年至少有 10 个月被冰雪覆盖。

16

植被覆盖率低于 10% 的区域(沙地、岩石地、土壤地)。

17

水体:至少 60% 的面积被永久性水体覆盖。

2  LC_Type2

序号

说明

0

水体:至少 60% 的面积被永久性水体覆盖。

1

常绿针叶林:以常绿针叶乔木为主(树冠 >2 米)。树木覆盖率 >60%。

2

常绿阔叶林:以常绿阔叶树和掌状树为主(树冠 >2 米)。树木覆盖率 >60%。

3

落叶针叶林:以落叶针叶树(落叶松)为主(树冠 >2 米)。树木覆盖率 >60%。

4

落叶阔叶林:以落叶阔叶树为主(树冠 >2 米)。树木覆盖率 >60%。

5

混交林:以落叶树和常绿树为主(各占 40-60%)的树种(树冠 >2 米)。树木覆盖率 >60%。

6

密灌丛:以木本多年生植物(高度 1-2 米)为主,覆盖率 >60%。

7

开阔的灌木丛:以木本多年生植物(高度 1-2 米)为主,覆盖率 10-60%。

8

多树稀树草原:树木覆盖率 30-60%(树冠 >2 米)。

9

热带草原:树木覆盖率 10-30%(树冠 >2 米)。

10

草原:以草本一年生植物(高度 <2 米)为主。

11

永久性湿地:永久性淹没的土地,水面覆盖率 30-60%,植被覆盖率 >10%。

12

耕地。

13

城市和建成区:至少 30% 的不透水表面积,包括建筑材料、沥青和车辆。

14

农田/天然植被镶嵌:小规模耕作占 40-60% 的镶嵌,其余为天然树木、灌木或草本植被。

15

无植被土地:至少 60% 的面积为无植被的贫瘠土地(沙地、岩石、土壤)或永久性冰雪,植被覆盖率低于 10%。

3  LC_Type3

序号

说明

0

水体:至少 60% 的面积被永久性水体覆盖。

1

草地:以草本一年生植物(<2 米)为主,包括谷物农田。

2

灌丛:灌木(1-2 米)覆盖率 >10%。

3

阔叶农田:以与阔叶作物一起种植的草本一年生植物(<2 米)为主。

4

热带草原:树木覆盖率介于 10% 到 60% 之间(高度 >2 米)。

5

常绿阔叶林:以常绿阔叶树和掌状树为主(树冠 >2 米)。树木覆盖率 >60%。

6

落叶阔叶林:以落叶阔叶树为主(树冠 >2 米)。树木覆盖率 >60%。

7

常绿针叶林:以常绿针叶乔木为主(树冠 >2 米)。树木覆盖率 >60%。

8

落叶针叶林:以落叶针叶树(落叶松)为主(树冠 >2 米)。树木覆盖率 >60%。

9

无植被土地:至少 60% 的面积为无植被的贫瘠土地(沙地、岩石、土壤)或永久性冰雪,植被覆盖率低于 10%。

10

城市和建成区:至少 30% 的不透水表面积,包括建筑材料、沥青和车辆。

4  LC_Type4

序号

说明

0

水体:至少 60% 的面积被永久性水体覆盖。

1

常绿针叶植被:以常绿针叶乔木和灌木(高于 1 米)为主。木本植被覆盖率 >10%。

2

常绿阔叶植被:以常绿阔叶树和掌状树木及灌木(高度 >1 米)为主。木本植被覆盖率

3

落叶针叶植被:以落叶针叶(落叶松)乔木和灌木(高于 1 米)为主。木本植被覆盖率

4

落叶阔叶植被:以落叶阔叶乔木和灌木(>1 米)为主。木本植被覆盖率 >10%。

5

一年生阔叶植被:以草本一年生植物(<2 米)为主。至少 60% 的栽培阔叶作物。

6

一年生草本植被:以草本一年生植物(<2 米)为主,包括谷物农田。

7

无植被土地:至少 60% 的面积为无植被的贫瘠土地(沙地、岩石、土壤)或永久性积雪/积冰,植被覆盖率低于 10%。

8

城市和建成区:至少 30% 的不透水表面积,包括建筑材料、沥青和车辆。

5  LC_Type5

序号

说明

0

水体:至少 60% 的面积被永久性水体覆盖。

1

常绿针叶树:以常绿针叶树(>2 米)为主。树木覆盖率 >10%。

2

常绿阔叶树:以常绿阔叶树和掌状树(高度 >2 米)为主。树木覆盖率 >10%。

3

落叶针叶树:以落叶针叶树(落叶松)为主(>2 米)。树木覆盖率 >10%。

4

落叶阔叶树:以落叶阔叶树(高度 >2 米)为主。树木覆盖率 >10%。

5

灌木:灌木(1-2 米)覆盖率 >10%。

6

未耕种。

7

谷类作物耕地:以草本一年生植物(高度 <2 米)为主。至少 60% 的耕种谷物作物。

8

阔叶农田:以草本一年生植物(<2 米)为主。至少 60% 的栽培阔叶作物。

9

城市和建成区:至少 30% 的不透水表面积,包括建筑材料、沥青和车辆。

10

永久性冰雪:至少 60% 的区域全年至少有 10 个月被冰雪覆盖。

11

无植被土地:至少 60% 的面积为无植被的贫瘠土地(沙地、岩石地、土壤地),植被覆盖率低于 10%。

1  LC_Type1示意图

3  数据质量控制和评估

本数据集的数据可靠性建立在MCD12Q1原始数据生产方(NASA)所执行的严格质量控制流程以及独立的第三方验证基础之上。以下从数据生产内部的质量控制、外部精度验证以及对数据间断与异常情况的说明三个方面进行阐述。

MCD12Q1数据产品在生成过程中集成了一套综合的质量控制方法。首先,算法会利用高质量的训练样本和来自MODIS传感器的多波段光谱信息、植被指数及物候特征等进行分类,并通过决策树模型计算每个像元归属于各类别的置信度。每个生成的年度数据文件都附带一个详细的质量控制(QC)图层,该图层编码了每个像元在分类过程中输入数据的质量状态(如是否有云、雪覆盖)和分类结果的可信度等级。用户可以根据QC值筛选和剔除低质量像元,从而在应用层面进一步提升数据的可靠性。此外,生产流程中还包含了对输入数据的一致性检查和后处理逻辑平滑,以减少明显的分类噪声。

为客观评估本数据集在中国区域的准确性,我们参考了多项针对MCD12Q1产品的独立验证研究。这些研究通常采用更高空间分辨率的遥感影像(如Landsat TM/ETM+/OLI)或人工解译样本点作为参考真值,通过混淆矩阵计算总体精度和Kappa系数等指标。

一项涵盖中国区域的代表性验证研究表明,MCD12Q1 V6产品(IGBP分类方案)的总体精度约为75%至80%。其中,耕地、城市建成区、水体等类型的分类精度较高(用户精度或制图精度常高于85%);而由于500米分辨率的混合像元问题,草地、灌丛和稀树草原等植被类型之间存在不同程度的混淆,是误差的主要来源。另一项针对特定区域(如青藏高原)的验证也报告了相似的精度水平,并指出冰雪分类具有很高的可靠性。这些独立的验证结果一致证明,本数据集在宏观尺度上能够可靠地反映中国土地覆盖的整体格局与变化趋势。

本数据集(2000-2024年)在时间序列上总体完整连续,未出现大范围的年度数据缺失。然而,用户需注意以下潜在问题:

像元级数据缺失:在极少数情况下,由于原始MODIS数据接收失败或存在持续云盖,可能导致个别像元分类信息缺失。这些像元在年度数据中会被标记为“未分类”或“填充值”,其在空间分布上极为零星,对宏观分析影响甚微。

传感器退化与断点MODIS传感器在轨运行多年,存在性能缓慢衰减的可能。但NASA通过TerraAqua双星观测的互补以及算法模型的持续更新(如从V5V6版本),有效保障了整个时间序列的一致性与可比性。版本内部的算法参数是稳定的,因此2000-2024年间不存在因算法重大变更导致的系统性“断点”。

瞬时异常:个别年份在特定区域(如发生过大型山火或严重洪涝的地区)的分类结果可能出现短暂异常,这通常是由于地表覆盖的剧烈变化超出了分类算法年度识别的常态范围,属于合理的算法响应。

综上所述,本数据集经过了严格的生产质量控制和广泛的独立验证,具有明确的、可接受的精度水平,数据连续性好,能够满足宏观尺度下的长时间序列分析需求。

4  数据价值

本数据集的价值在于它通过系统性的整理与集成,将国际通用的MCD12Q1原始数据转化为一份更适用于中国区域长期研究的高质量、即用型数据产品。其独特价值通过与国内外相关数据集的比较,以及在覆盖范围、加工方法和应用潜力上的优势得以体现。

与全球性土地覆盖数据集(如ESA CCI Land Cover)相比,本数据集虽源于全球产品,但通过聚焦中国区域,提供了更便于国内研究者使用的空间裁剪和格式标准化处理,避免了处理全球数据时的繁冗步骤。与国内同类数据集(如FROM-GLC、GlobeLand30)相比,本数据集的核心优势在于其连续的年际时间分辨率。国内许多优秀产品空间分辨率更高(30米或10米),但时间频率多为5年或10年一期(如GlobeLand30的2000、2010、2020年),难以捕捉年尺度的快速变化过程。本数据集填补了高空间分辨率数据集在连续时间序列上的空白,提供了不可或缺的年际动态信息。

本数据价值的核心创新点并非在于创造新的分类算法,而在于对长时序原始数据的规范化整理与一致性集成。我们系统收集了2000年至2024年共25MCD12Q1 V6数据,确保了数据版本的一致性,有效避免了因算法版本升级(如V5V6)在时间序列中引入的非地物变化“断点”。加工过程包括统一的投影转换、精确的中国行政区划边界裁剪、以及文件命名规则的标准化。这一系列处理最大程度地降低了用户的数据预处理门槛和技术壁垒,保证了25年数据在时空维度上的严格可比性,为高可靠性的时间序列分析奠定了坚实基础。

基于上述特点,本数据集的潜在应用价值深远:

气候变化研究:作为陆面过程模型的关键输入参数,连续的年际数据能更精确地模拟下垫面变化对区域气候的反馈。

生态环境监测与评估:可定量评估退耕还林、京津冀风沙源治理等重大生态工程实施前后地表覆盖的年际变化与成效。

生物地球化学循环研究:为估算生态系统碳汇、氮通量等提供可靠的植被类型动态信息。

可持续发展决策支持:在国土空间规划、自然灾害风险评估、生物多样性保护等领域,本数据集提供的长期、一致的基础数据是不可或缺的科学依据。

综上所述,本数据集以其长时间跨度、连续年际分辨率、严格的版本一致性处理和高易用性,在土地覆盖数据生态中形成了独特的互补优势,为深入理解21世纪以来中国地表环境的快速演变提供了关键的数据支撑。

如有数据需求,欢迎点击下方名片链接,关注我们并咨询获取~

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐