交通轨迹数据集分享
轨迹数据集分享
文章目录
近期有众多读者私信交流,希望获取交通轨迹数据集。我在数年前学习数据分析课程时,由于兴趣恰好接触了数据分析的全流程。近两年来,由于公众号的定位,我时常接触数据分析的相关流程,本文分享一些交通轨迹数据集资源。
1、无锡市出租车轨迹数据集
数据描述:位于无锡的车辆轨迹数据,时间跨度为2020年7月18日到2020年8月17日。
数据字段:
id- 车辆标识经度- 经度坐标纬度- 纬度坐标采集时间- 数据采集时间戳方向- 行驶方向速度- 瞬时速度纵向加速度- 纵向加速度值横向加速度- 横向加速度值垂直加速度- 垂直方向加速度横摆角速度- 横摆角速度

特点
- 数据连续性强
- 数据量完整
- 结构化数据
- 数据量大(约数千万条数据)

2、2021年深圳市车辆轨迹数据
数据描述:2021年深圳市车辆轨迹数据
数据字段:
VehicleID- 车辆IDTripID- 行程IDPoints- 轨迹点Departure- 出发信息Time- 时间信息Duration- 持续时间Length- 行程长度

特点
- 数据量大(约数百万条)
- 包含区域路网的节点和路段
- 结构化数据

3、重货GPS数据
数据描述:2025年二月重型货车GPS数据
数据字段:
fstr_id- 车辆标识fdt_time- 时间戳lng- 经度lat- 纬度fstr_type1- 类型1fstr_type2- 类型2fstr_type3- 类型3

特点
- 数据量巨大(数千万条)
- 时间连续
- 数据类型具有针对性
- 空间跨度大

4、深圳市2018年10月份出租车数据
数据描述:深圳市2018年10月份出租车轨迹数据
数据字段:
elevation- 海拔高度recorder_speed- 记录速度system_time- 系统时间plate_color- 车牌颜色gps_time- GPS时间to_police_num- 警员编号plate_num- 车牌号码gps_longitude- GPS经度erro_type- 错误类型gps_speed- GPS速度operator- 操作员map_latitude- 地图纬度map_longitude- 地图经度gps_latitude- GPS纬度event- 事件类型direction- 方向mileage- 里程


特点
- 数据连续性强
- 数据量完整
- 结构化数据
- 数据量大(约数千条)
- 字段丰富
- 数据挖掘方向多样

5、公交车20250209-20250212刷卡数据
数据描述:2025年2月9日至12日公交车刷卡数据
数据字段:
city_code- 城市代码industry_code- 行业代码company_code- 公司代码line_id- 线路IDdevice_id- 设备IDdriver_no- 驾驶员编号carpark_serial_no- 停车场序列号carpark_no- 停车场编号stop_serial_no- 站点序列号stop_no- 站点编号lon- 经度lat- 纬度ts- 时间戳speed_sensor- 传感器速度speed_gps- GPS速度direction- 方向in_temp- 内部温度service_state- 服务状态control_state- 控制状态total_miles- 总里程water_temp- 水温oil_consumption- 油耗engine_speed- 发动机转速inout_stop- 进出站状态days_year- 年天数hours_day- 日小时数server_ts- 服务器时间戳create_date- 创建日期section_code- 路段代码


特点
- 数据连续性强
- 数据量完整
- 结构化数据
- 数据量大(约数千万条)
- 字段丰富
- 数据挖掘方向多样



6、全量OD数据
数据描述:上海市区不同交通载体的OD数据,时间为2025年2月份
数据字段:
| 序号 | 字段名称 | 类型 | 描述 |
|---|---|---|---|
| 1 | ds | string | 日期,格式为YYYYMMDD |
| 2 | o_adcode | string | 起点城市代码区县级 |
| 3 | d_adcode | string | 终点城市代码区县级 |
| 4 | source_grid | string | 起点网格ID(100米、500米、1公里) |
| 5 | target_grid | string | 终点网格ID(100米、500米、1公里) |
| 6 | o_x | string | 起点坐标(网格中心点x) |
| 7 | o_y | string | 起点坐标(网格中心点y) |
| 8 | d_x | string | 终点坐标(网格中心点x) |
| 9 | d_y | string | 终点坐标(网格中心点y) |
| 10 | o_time | string | 开始时间,间隔为15分钟 |
| 11 | d_time | string | 结束时间,间隔为15分钟 |
| 12 | travel_mode | string | 出行方式,未知是无法识别的方式 |
| 13 | duration | string | 出行时间 |
| 14 | distance | string | 出行距离,为直线距离 |
| 15 | dir | string | 方向,0出发,1到达,2内内 |
| 16 | uv | string | 在该天100米网格对及15分钟间隔下的人数 |
| 17 | confidence | string | 置信度 |

特点
- 数据连续性强
- 数据量完整
- 结构化数据
- 数据量大(约数千万条)
- 字段丰富
- 数据挖掘方向多样

7、交通流数据
数据描述:不同交通载体在区域内的行驶轨迹数据
数据字段:
nodeId- 节点IDgenTime- 生成时间statType- 统计类型sequence- 序列号stats- 统计信息
特点
- 数据连续性强
- 数据量完整
- 结构化数据
- 数据量大(约数千万条)




8、地铁交通数据集(全国)
数据描述:中国大陆地铁站点数据和线路数据集,截止2020年12月31日
覆盖城市:北京、天津、上海、广州、长春、大连、武汉、重庆、深圳、南京、沈阳、成都、佛山、西安、苏州、昆明、杭州、哈尔滨、郑州、长沙、宁波、无锡、青岛、南昌、福州、东莞、南宁、合肥、石家庄、贵阳、厦门、乌鲁木齐、济南、兰州、常州、徐州、呼和浩特、太原
数据格式:站点数据(subway_points)和线路数据(subway_line)以shapefile形式提供
特点
- 时间跨度大
- 数据量丰富
- 遍布全国大部分区域



9、公交站点和边界数据集(全国)
数据描述:中国大陆公交站点数据和线路数据集
包含内容:
- 公交站点数据(bus_points)
- 公交线路数据(bus_lines)
- 公交边界数据(bus_edge)


🎈10、2020年8月深圳市车辆轨迹数据集
数据来源:滴滴为ACM SIGSPATIAL GISCUP 2021大赛发布的链路级轨迹数据训练集
官方链接:https://sigspatial2021.sigspatial.org/sigspatial-cup/
数据字段结构:
| 部分 | 字段 | 类型 | 描述 |
|---|---|---|---|
| head part | order id | string | 唯一订单ID |
| ata | float | 实际行程时间 | |
| distance | float | 路线距离 | |
| simple eta | float | 出发时平均路段时间的累积值 | |
| driver id | int | 唯一司机ID | |
| slice id | int | 出发时间的时间片(每5分钟一个桶) | |
| link part | link id | int | 路段ID |
| link time | float | 出发时该路段的平均通行时间(前10分钟) | |
| link ratio | float | 路段覆盖率 | |
| link current status | int | 出发时路段交通状况(1=畅通,2=缓慢,3=拥堵,0=未知) | |
| link arrival status | int | 到达时路段交通状况(测试数据中缺失) | |
| cross part | cross id | int | 交通灯ID(由进出路段组成) |
| cross time | float | 交通灯的等待时间 |

数据来源:https://www.scidb.cn/en/detail?dataSetId=dc4a742cd5e644c28a789af95cb08632&version=V2
提示:私信即可获取一个轨迹文件示例
🐧11、地铁客流数据集
数据描述:地铁客流数据集,包含时间、线路、乘客、支付方式等信息
时间跨度:一个月
数据字段:
- 时间信息
- 线路信息
- 乘客数量
- 支付方式
- 其他相关字段



🎄12、高速公路数据集(收费站及路段)
研究背景:高速公路收费站是交通网络中的瓶颈,在高峰时段可能造成严重拥堵。
数据内容:
- 道路网络拓扑结构
- 道路链路属性
- 车辆路线选择
- 时间戳记录
道路链路属性表:

道路网络拓扑:
道路链的In_top和Out_top:
车辆路线表:
路线示例:
时间戳记录表:
🎆13、北京市地铁和公交客流数据集(2019年五月份)
数据描述:2019年5月份北京市地铁客流数据
特点
- 数据连续
- 数据量大(约54G)
- 时间跨度完整
数据字段:IC卡号、起点站方式(公交地铁)、起点线路、起点方向(上下行)、起点站号、起点站经纬度(WGS84)、出发时间、终点站方式、终点线路、终点方向、终点站号、终点站经纬度、到达时间,蕴含丰富的个体出行信息,


私信可获取任意一天的数据集
写在后面:经过几期的图文更新,分享了一些数据集,本篇是相对比较完整的数据集,感兴趣的朋友可以私信获取数据
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)