基于python的百度迁徙迁入、迁出数据分析（三）

图说交通

1206人浏览 · 2024-07-29 20:30:32

图说交通 · 2024-07-29 20:30:32 发布

百度迁徙定义

百度迁徙释义：

百度迁徙以用户常住地所在地市或停留超过一天的非常住地定义为出发城市，以用户离开出发城市，并在非出发城市停留超过4 h以上定义为到达城市。采用4h阈值，排除了城际出行中的途经地。

定义参考来源：人口迁居视角下的中国人口城镇化空间格局——基于百度迁徙数据的研究 - 中国知网 (cnki.net)

是钮心毅这位博导的2023年9月的文章，并在文中感谢了百度慧眼官方的支持，所以这个定义大概率是官方给出的定义，可以更明确的指导我们对数据的应用；

历史数据可溯源的时间区间

这里补充一历史迁徙数据来源可以溯源的时间区间，上次只是粗略测了一下，这次给出具体可以获取的历史数据时间区间；

这里以上海迁入为例，打开“开发人员工具”，快捷键Ctrl+Shift+i，点击网络，快捷键Ctrl+R刷新页面；

快捷键Ctrl+F，搜索historycurve，找到这个文件，双击打开；huiyan.baidu.com/migration/historycurve.jsonp?dt=province&id=310000&type=move_in&callback=jsonp_1722252952677_1248358

我们可以看到百度迁徙数据记录了这个城市从2019年1月12日到2019年3月9日、2023年1月4日到2023年5月6日、2024年1月23日今天的所有迁徙指数，所以我们可以查到历史数据的范围就明确了(20190112, 20190309)，(20230104, 20230506)，(20240123, 20240728)，也就是直到今天的截止日期前一天的数据；

当然这些数据看着密密麻麻比较费眼神，我们把它导出.csv，编码用了''GB18030 ''支持简体中文、繁体中文以及一些少数民族的文字，是一种比较全面的中文编码方案；

import pandas as pd
import requests
import json
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry


def get_migration_index(direction):
    # 创建一个会话对象来保持请求之间的状态
    session = requests.Session()
    # 定义重试策略以应对连接问题
    retry_strategy = Retry(connect=5, backoff_factor=0.5)
    # 设置 HTTP 和 HTTPS 适配器，并应用重试策略
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount('http://', adapter)
    session.mount('https://', adapter)

    # 定义 CSV 文件保存的路径
    file_path = './'

    try:
        # 动态构建 URL
        url = f'https://huiyan.baidu.com/migration/historycurve.jsonp?dt=city&id=310000&type={direction}'
        # 发送 GET 请求
        response = session.get(url)

        # 检查响应状态码
        response.raise_for_status()  # 如果响应状态码不是 200，则抛出异常

        # 获取响应文本并去除开头和结尾的不需要的部分
        response_text = response.text[4:-1]
        # 将处理后的文本转换为字典
        data_dict = json.loads(response_text)

        # 检查是否成功获取数据
        if data_dict['errmsg'] == 'SUCCESS':
            # 从字典中提取数据列表
            migration_data = data_dict['data']['list']

            # 创建一个 DataFrame 对象，将数据列表作为列，并转置以便按行存储
            dataframe = pd.DataFrame({f'上海市_{direction}': migration_data}).T

            # 保存 DataFrame 到 CSV 文件
            dataframe.to_csv(file_path + f'上海市历史迁{direction}指数.csv', encoding='gb18030')
            #  gb18030 支持简体中文、繁体中文以及一些少数民族的文字，是一种比较全面的中文编码方案
            print(f"数据已成功保存到 {file_path} 上海市历史迁{direction}指数.csv")
        else:
            print("未能成功获取数据，请检查 URL 或服务器响应。")
    except requests.exceptions.RequestException as e:
        print(f"请求过程中发生错误：{e}")
    except (KeyError, ValueError) as e:
        print(f"数据解析错误：{e}")


# 调用函数，传入 'move_in' 参数表示迁入数据
get_migration_index('move_in')  #  迁出move_out

为了看着更加直观，对输出结果略做调整，这里只做示意，只要了解我们可以获取历史数据区间即可；

文章仅用于分享个人学习成果与个人存档之用，分享知识，如有侵权，请联系作者进行删除。所有信息均基于作者的个人理解和经验，不代表任何官方立场或权威解读。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

企业级AI数字员工技术选型：从“问答”到“执行”的四个评估维度

DAMO开发者矩阵

从开发者到企业量产：香橙派四款昇腾产品解决什么问题？

20T版本支持40路1080P@30FPS硬件解码，在多路摄像头场景中，这颗芯片可以独立完成“解码→AI推理→编码输出”的全链路任务，无需外挂其他芯片。通过SODIMM接口引出了PCIe X4、USB3.0×3、MIPI CSI 4-Lane×2、HDMI等全功能高速信号，工业设备、机器人、边缘计算盒子的开发者可以灵活设计自己的底板。，但做成了一块可以嵌入产品主板的模块。硬件产品开发有一个经典困境