轨迹数据集分享

近期有众多读者私信交流,希望获取交通轨迹数据集。我在数年前学习数据分析课程时,由于兴趣恰好接触了数据分析的全流程。近两年来,由于公众号的定位,我时常接触数据分析的相关流程,本文分享一些交通轨迹数据集资源。

1、无锡市出租车轨迹数据集

数据描述:位于无锡的车辆轨迹数据,时间跨度为2020年7月18日到2020年8月17日。

数据字段

  • id - 车辆标识
  • 经度 - 经度坐标
  • 纬度 - 纬度坐标
  • 采集时间 - 数据采集时间戳
  • 方向 - 行驶方向
  • 速度 - 瞬时速度
  • 纵向加速度 - 纵向加速度值
  • 横向加速度 - 横向加速度值
  • 垂直加速度 - 垂直方向加速度
  • 横摆角速度 - 横摆角速度

dataset1

特点

  • 数据连续性强
  • 数据量完整
  • 结构化数据
  • 数据量大(约数千万条数据)

example data 1


2、2021年深圳市车辆轨迹数据

数据描述:2021年深圳市车辆轨迹数据

数据字段

  • VehicleID - 车辆ID
  • TripID - 行程ID
  • Points - 轨迹点
  • Departure - 出发信息
  • Time - 时间信息
  • Duration - 持续时间
  • Length - 行程长度

dataset2

特点

  • 数据量大(约数百万条)
  • 包含区域路网的节点和路段
  • 结构化数据

example2


3、重货GPS数据

数据描述:2025年二月重型货车GPS数据

数据字段

  • fstr_id - 车辆标识
  • fdt_time - 时间戳
  • lng - 经度
  • lat - 纬度
  • fstr_type1 - 类型1
  • fstr_type2 - 类型2
  • fstr_type3 - 类型3

dataset3

特点

  • 数据量巨大(数千万条)
  • 时间连续
  • 数据类型具有针对性
  • 空间跨度大

example3


4、深圳市2018年10月份出租车数据

数据描述:深圳市2018年10月份出租车轨迹数据

数据字段

  • elevation - 海拔高度
  • recorder_speed - 记录速度
  • system_time - 系统时间
  • plate_color - 车牌颜色
  • gps_time - GPS时间
  • to_police_num - 警员编号
  • plate_num - 车牌号码
  • gps_longitude - GPS经度
  • erro_type - 错误类型
  • gps_speed - GPS速度
  • operator - 操作员
  • map_latitude - 地图纬度
  • map_longitude - 地图经度
  • gps_latitude - GPS纬度
  • event - 事件类型
  • direction - 方向
  • mileage - 里程

example1

example2

特点

  • 数据连续性强
  • 数据量完整
  • 结构化数据
  • 数据量大(约数千条)
  • 字段丰富
  • 数据挖掘方向多样

explain


5、公交车20250209-20250212刷卡数据

数据描述:2025年2月9日至12日公交车刷卡数据

数据字段

  • city_code - 城市代码
  • industry_code - 行业代码
  • company_code - 公司代码
  • line_id - 线路ID
  • device_id - 设备ID
  • driver_no - 驾驶员编号
  • carpark_serial_no - 停车场序列号
  • carpark_no - 停车场编号
  • stop_serial_no - 站点序列号
  • stop_no - 站点编号
  • lon - 经度
  • lat - 纬度
  • ts - 时间戳
  • speed_sensor - 传感器速度
  • speed_gps - GPS速度
  • direction - 方向
  • in_temp - 内部温度
  • service_state - 服务状态
  • control_state - 控制状态
  • total_miles - 总里程
  • water_temp - 水温
  • oil_consumption - 油耗
  • engine_speed - 发动机转速
  • inout_stop - 进出站状态
  • days_year - 年天数
  • hours_day - 日小时数
  • server_ts - 服务器时间戳
  • create_date - 创建日期
  • section_code - 路段代码

dataset2

线路站点

特点

  • 数据连续性强
  • 数据量完整
  • 结构化数据
  • 数据量大(约数千万条)
  • 字段丰富
  • 数据挖掘方向多样

刷卡数据

GPS样例数据

车辆到离站数据


6、全量OD数据

数据描述:上海市区不同交通载体的OD数据,时间为2025年2月份

数据字段

序号 字段名称 类型 描述
1 ds string 日期,格式为YYYYMMDD
2 o_adcode string 起点城市代码区县级
3 d_adcode string 终点城市代码区县级
4 source_grid string 起点网格ID(100米、500米、1公里)
5 target_grid string 终点网格ID(100米、500米、1公里)
6 o_x string 起点坐标(网格中心点x)
7 o_y string 起点坐标(网格中心点y)
8 d_x string 终点坐标(网格中心点x)
9 d_y string 终点坐标(网格中心点y)
10 o_time string 开始时间,间隔为15分钟
11 d_time string 结束时间,间隔为15分钟
12 travel_mode string 出行方式,未知是无法识别的方式
13 duration string 出行时间
14 distance string 出行距离,为直线距离
15 dir string 方向,0出发,1到达,2内内
16 uv string 在该天100米网格对及15分钟间隔下的人数
17 confidence string 置信度

数据字段

特点

  • 数据连续性强
  • 数据量完整
  • 结构化数据
  • 数据量大(约数千万条)
  • 字段丰富
  • 数据挖掘方向多样

说明


7、交通流数据

数据描述:不同交通载体在区域内的行驶轨迹数据

数据字段

  • nodeId - 节点ID
  • genTime - 生成时间
  • statType - 统计类型
  • sequence - 序列号
  • stats - 统计信息

特点

  • 数据连续性强
  • 数据量完整
  • 结构化数据
  • 数据量大(约数千万条)

display

explain-2

example2

example3


8、地铁交通数据集(全国)

数据描述:中国大陆地铁站点数据和线路数据集,截止2020年12月31日

覆盖城市:北京、天津、上海、广州、长春、大连、武汉、重庆、深圳、南京、沈阳、成都、佛山、西安、苏州、昆明、杭州、哈尔滨、郑州、长沙、宁波、无锡、青岛、南昌、福州、东莞、南宁、合肥、石家庄、贵阳、厦门、乌鲁木齐、济南、兰州、常州、徐州、呼和浩特、太原

数据格式站点数据(subway_points)线路数据(subway_line)以shapefile形式提供

特点

  • 时间跨度大
  • 数据量丰富
  • 遍布全国大部分区域

example

points

lines


9、公交站点和边界数据集(全国)

数据描述:中国大陆公交站点数据和线路数据集

包含内容

  • 公交站点数据(bus_points)
  • 公交线路数据(bus_lines)
  • 公交边界数据(bus_edge)

bus_point and line

bus_edge and points


🎈10、2020年8月深圳市车辆轨迹数据集

数据来源:滴滴为ACM SIGSPATIAL GISCUP 2021大赛发布的链路级轨迹数据训练集

官方链接:https://sigspatial2021.sigspatial.org/sigspatial-cup/

数据字段结构

部分 字段 类型 描述
head part order id string 唯一订单ID
ata float 实际行程时间
distance float 路线距离
simple eta float 出发时平均路段时间的累积值
driver id int 唯一司机ID
slice id int 出发时间的时间片(每5分钟一个桶)
link part link id int 路段ID
link time float 出发时该路段的平均通行时间(前10分钟)
link ratio float 路段覆盖率
link current status int 出发时路段交通状况(1=畅通,2=缓慢,3=拥堵,0=未知)
link arrival status int 到达时路段交通状况(测试数据中缺失)
cross part cross id int 交通灯ID(由进出路段组成)
cross time float 交通灯的等待时间

dataset

数据来源https://www.scidb.cn/en/detail?dataSetId=dc4a742cd5e644c28a789af95cb08632&version=V2

提示:私信即可获取一个轨迹文件示例


🐧11、地铁客流数据集

数据描述:地铁客流数据集,包含时间、线路、乘客、支付方式等信息

时间跨度:一个月

数据字段

  • 时间信息
  • 线路信息
  • 乘客数量
  • 支付方式
  • 其他相关字段

数据样例

data file-1

data file -2


🎄12、高速公路数据集(收费站及路段)

研究背景:高速公路收费站是交通网络中的瓶颈,在高峰时段可能造成严重拥堵。

数据内容

  • 道路网络拓扑结构
  • 道路链路属性
  • 车辆路线选择
  • 时间戳记录

道路链路属性表

road link properties

道路网络拓扑
image

道路链的In_top和Out_top
image

车辆路线表
image

路线示例
image

时间戳记录表
image


🎆13、北京市地铁和公交客流数据集(2019年五月份)

数据描述:2019年5月份北京市地铁客流数据

特点

  • 数据连续
  • 数据量大(约54G)
  • 时间跨度完整

数据字段:IC卡号、起点站方式(公交地铁)、起点线路、起点方向(上下行)、起点站号、起点站经纬度(WGS84)、出发时间、终点站方式、终点线路、终点方向、终点站号、终点站经纬度、到达时间,蕴含丰富的个体出行信息,
dataset fold

datasets1

datasets2
私信可获取任意一天的数据集


写在后面:经过几期的图文更新,分享了一些数据集,本篇是相对比较完整的数据集,感兴趣的朋友可以私信获取数据

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐