11.13 大数据分析与应用 ‘随机森林在用户行为分析中的实践’ 作业记录

huafu_fuhua

660人浏览 · 2026-01-06 17:40:52

huafu_fuhua · 2026-01-06 17:40:52 发布

前言

最近在做 “电商用户行为分析” 的大数据项目时，用随机森林建模踩了一堆 “隐蔽坑”—— 比如特征冗余导致训练慢、类别不平衡使模型偏向多数类、超参数调优后泛化能力下降等。查了 2 天资料 + 反复测试后，终于总结出一套能稳定落地的随机森林实践方案。

本文会按 “问题现象→根因分析→分步解决” 的逻辑，拆解用户行为分析中随机森林的 5 个高频卡壳场景，新手也能跟着一步到位完成模型构建与优化。全文结构：先讲基础原理适配性，再走实操流程，接着逐个攻破报错，最后附验证方法和避坑总结。

一、随机森林在用户行为分析中的适配性（前置认知）

用户行为分析（如复购预测、流失预警）属于 “分类任务”，随机森林的核心适配优势：

能处理用户行为的高维特征（如浏览时长、点击次数、优惠券使用等数十个特征）；
对缺失值 / 异常值容忍度高（用户行为数据常存在部分字段缺失）；
可输出特征重要性（能明确 “哪些行为影响用户复购”，辅助业务决策）。

二、随机森林在用户行为分析中的实操流程（以复购预测为例）

以 “100 万条电商用户行为数据 + 45 个特征” 的复购预测任务为例，步骤如下：

1. 数据预处理（用户行为数据的核心清洗）

python

运行

import pandas as pd
import numpy as np

# 读取用户行为数据（分块避免内存溢出）
chunk_size = 100000
chunks = []
for chunk in pd.read_csv("user_behavior_data.csv", chunksize=chunk_size):
    chunks.append(chunk)
data = pd.concat(chunks, axis=0)

# 1. 缺失值处理（用户行为数据的典型填充逻辑）
data["last_browse_time"] = data["last_browse_time"].fillna(data["last_browse_time"].median())
data["coupon_use_num"] = data["coupon_use_num"].fillna(0)  # 未使用优惠券→填0

# 2. 类别特征编码（用户等级、城市等特征编码）
from sklearn.preprocessing import LabelEncoder
for col in ["user_level", "city"]:
    le = LabelEncoder()
    data[col] = le.fit_transform(data[col])

2. 特征工程（用户行为的特征筛选）

python

运行

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

# 分离特征与标签（标签：是否复购）
X = data.drop("is_repurchase", axis=1)
y = data["is_repurchase"]

# 筛选重要特征（减少冗余，加速训练）
temp_rf = RandomForestClassifier(n_estimators=50, random_state=42)
temp_rf.fit(X, y)
selector = SelectFromModel(temp_rf, threshold="mean")
X_selected = selector.fit_transform(X, y)

3. 模型训练（用户行为数据的适配调参）

python

运行

from sklearn.model_selection import train_test_split

# 分层抽样（保持复购/非复购的比例）
X_train, X_test, y_train, y_test = train_test_split(
    X_selected, y, test_size=0.2, stratify=y, random_state=42
)

# 训练随机森林（适配用户行为数据的参数）
rf = RandomForestClassifier(
    n_estimators=200,    # 树的数量：平衡精度与速度
    max_depth=12,        # 限制树深：避免过拟合用户行为的噪声
    min_samples_split=80,# 分裂样本数：适配百万级数据
    class_weight="balanced",  # 解决复购用户少的类别不平衡问题
    random_state=42
)
rf.fit(X_train, y_train)

4. 模型评估（用户行为分析的核心指标）

python

运行

from sklearn.metrics import accuracy_score, f1_score, recall_score

y_pred = rf.predict(X_test)
print("准确率：", accuracy_score(y_test, y_pred))
print("F1-score：", f1_score(y_test, y_pred))  # 类别不平衡时的核心指标
print("复购用户召回率：", recall_score(y_test, y_pred))  # 业务关注的复购识别能力