Python爬虫实战：高效爬取QQ音乐榜单数据并存储到Excel

菜鸟养成_记

1721人浏览 · 2025-03-13 18:59:19

菜鸟养成_记 · 2025-03-13 18:59:19 发布

一、技术选型与工具准备

Python库：
- requests：发送HTTP请求
- json：解析API返回数据
- openpyxl：存储数据到Excel
- pandas：数据清洗（可选）
开发环境：Python 3.8+、Chrome浏览器（用于抓包分析）

# 安装依赖
pip install requests openpyxl

二、榜单数据接口分析

通过浏览器开发者工具（F12）分析发现，QQ音乐榜单数据通过XHR动态加载，核心接口为：
https://u.y.qq.com/cgi-bin/musics.fcg，其关键参数如下：

topId：榜单ID（如4代表热歌榜）
period：榜单统计周期（格式：YYYY-MM-DD）
sign：动态签名（需通过JS生成或抓包固定）

示例请求参数：

params = {
    'ct': '24',
    'cv': '0',
    'format': 'json',
    'data': '{"detail":{"module":"musicToplist.ToplistInfoServer","method":"GetDetail","param":{"topId":4,"offset":0,"num":20}}}'
}

三、核心代码实现

1. 发送请求获取原始数据

import requests
import json

def get_qqmusic_rank(top_id=4, page_size=20):
    url = "https://u.y.qq.com/cgi-bin/musics.fcg"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...",
        "Referer": "https://y.qq.com/n/yqq/toplist/4.html"
    }
    payload = {
        "data": json.dumps({
            "detail": {
                "module": "musicToplist.ToplistInfoServer",
                "method": "GetDetail",
                "param": {"topId": top_id, "offset": 0, "num": page_size}
            }
        })
    }
    response = requests.get(url, headers=headers, params=payload)
    return response.json()

2. 解析JSON数据

def parse_rank_data(json_data):
    song_list = json_data['detail']['data']['data']['songInfoList']
    rank_data = []
    for song in song_list:
        item = {
            "排名": song.get("rank", 0) + 1,  # 从0开始需+1
            "歌曲": song["title"],
            "歌手": " / ".join([singer["name"] for singer in song["singer"]]),
            "专辑": song["album"]["title"],
            "时长": f"{int(song['interval']//60)}:{int(song['interval']%60):02d}"
        }
        rank_data.append(item)
    return rank_data

3. 存储到Excel文件

from openpyxl import Workbook

def save_to_excel(data, filename="QQ音乐榜单.xlsx"):
    wb = Workbook()
    ws = wb.active
    ws.title = "热歌榜"
    ws.append(["排名", "歌曲名称", "歌手", "专辑", "时长"])
    for item in data:
        ws.append([item["排名"], item["歌曲"], item["歌手"], item["专辑"], item["时长"]])
    wb.save(filename)

四、完整调用示例

if __name__ == "__main__":
    # 获取热歌榜前100首
    rank_json = get_qqmusic_rank(top_id=4, page_size=100)
    songs = parse_rank_data(rank_json)
    save_to_excel(songs)
    print("数据已保存至QQ音乐榜单.xlsx")

五、关键技术点解析

反爬对策
- 使用真实浏览器UA头（可通过fake_useragent库动态生成）
- 添加Referer字段模拟页面跳转
动态签名处理
若接口更新需要动态sign参数，可通过以下方式解决：
- 使用Selenium自动抓取最新签名
- 逆向JS加密算法生成签名
数据扩展
- 歌词抓取：通过songmid调用歌词接口
- 评论爬取：解析hot_comment字段
- 音源下载：需破解vkey加密逻辑

六、注意事项

遵守robots.txt协议，控制请求频率
商业用途需获得腾讯官方授权
动态接口可能随版本更新失效，需定期维护

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

具身智能实现AI从认知到实操的价值

DAMO开发者矩阵

深度解析强化学习核心算法 PPO：原理与 PyTorch 代码

PPO算法：强化学习的工业级解决方案 PPO（近端策略优化）算法通过引入“信任区域”思想，解决了传统策略梯度算法因更新步长过大导致的训练不稳定问题。PPO的核心创新在于使用截断机制（Clipping）或自适应KL散度约束策略更新幅度，仅需一阶优化即可实现稳定训练，平衡了样本效率与实现复杂度。其Actor-Critic架构结合策略网络和价值网络，通过广义优势估计（GAE）计算优势函数，指导策略优化。

DAMO开发者矩阵

DotNetPy：现代.NET 与 Python 互操作实战指南

例如，一个具备实时语义分析能力的客服机器人，可以用 C# 处理高并发的 WebSocket 连接和用户权限校验，而将核心的 NLP 任务交给通过 DotNetPy 调用的 Python 脚本。它通过直接封装 Python 的原生 C API，构建了一套简洁、安全的托管接口，使得 C# 能够直接在进程内执行 Python 代码，且无需外部脚本文件或复杂的构建步骤 5。模型可以在交易日开始时初始化，并