数据挖掘校招面经二

Y1n

1948人浏览 · 2025-03-06 00:15:00

Y1n · 2025-03-06 00:15:00 发布

得物数据挖掘

一、线性回归 y = ax 中参数 a 如何计算

1.1. a 是待学习参数

在线性回归中，a 是模型的权重（或斜率），需要通过数据来学习其最优值。学习的目标是找到 a 的值，使得模型的预测值 $y^=ax\hat{y} = ax$ 尽可能接近真实值 y 。

1.2. 最小二乘法

在线性回归中，通常使用最小二乘法来学习 a 。最小二乘法的目标是最小化误差平方和（即真实值 y 和预测值 $y^\hat{y}$ 之间的差异）：
$\text{误差平方和} = \sum_{i=1}^{n} (y_i - a x_i)^2$
通过最小化这个目标函数，可以找到 $a$ 的最优值。

1.2.1. 数据准备

假设有 n 个数据点 $x_i, y_i)$ ，其中 $\dots, n$ 。

1.2.2. 最小二乘法

通过最小化误差平方和来求解 $a$ ，即：
$\text{误差平方和} = \sum_{i=1}^{n} (y_i - a x_i)^2$

1.2.3. 求导并令导数为零

对误差平方和关于 $a$ 求导，并令导数为零：
$\frac{d}{da} \left( \sum_{i=1}^{n} (y_i - a x_i)^2 \right) = 0$

展开并简化：
$\sum_{i=1}^{n} x_i (y_i - a x_i) = 0$
$\sum_{i=1}^{n} x_i y_i - a \sum_{i=1}^{n} x_i^2 = 0$

1.2.4. 解方程求 $a$

将方程整理为：
$\frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2}$

1.2.5. 最终公式

因此，系数 a 的计算公式为：
$\frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2}$

二、最大似然估计(Maximum Likelihood Estimation, MLE)

见【搜广推校招面经十六】：交叉熵可以通过MLE推导
最大似然估计是一种用于估计统计模型参数的方法，它通过寻找能使观察到的数据出现概率最大的参数值来确定模型的参数。在简单线性回归模型 $y = a x$ （无截距项）中，我们可以使用MLE来估计斜率 $a$ 的值。
通过最大化对数似然函数，我们可以获得与最小二乘法相同的参数估计结果。这不仅验证了最小二乘法的有效性，还展示了MLE作为一种【通用方法】的强大之处。

2.1. 基本概念

给定一组独立同分布(i.i.d.)的数据点 $x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$ ，假设这些数据点符合某个特定的概率分布（例如正态分布），MLE的目标是找到最有可能生成这些观测数据的参数值。
对于线性回归模型 $y = a x$ ，我们通常假设误差项服从正态分布 $\sigma^2)$ 。这意味着每个观测值 $y_i$ 可以被看作是从正态分布 $N(axi,σ2)N(ax_i, \sigma^2)$ 中抽取的样本。

2. 计算斜率 $a$

步骤

定义似然函数: 对于给定的参数 $a$ 和 $σ2\sigma^2$ ，似然函数 $\sigma^2)$ 是所有观测值同时发生的联合概率密度。

如果假设误差项服从正态分布，则似然函数可以写为：
$\sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - ax_i)^2}{2\sigma^2}\right)$
取对数似然函数: 为了简化计算，通常取似然函数的自然对数，得到对数似然函数 $ln⁡L(a,σ2)\ln L(a, \sigma^2)$ ：
$\ln L(a, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i - ax_i)^2$
最大化对数似然函数: 要找到使得对数似然函数最大的 $a$ 值，可以通过对 $a$ 求导并令导数等于零来求解。注意到对 $σ2\sigma^2$ 的优化不影响 $a$ 的估计（因为 $σ2\sigma^2$ 在对 $a$ 求导时会被消去），所以我们主要关注与 $a$ 相关的部分：
$\frac{\partial \ln L}{\partial a} = \frac{1}{\sigma^2} \sum_{i=1}^{n} x_i(y_i - ax_i) = 0$

解这个方程可得：
$\sum_{i=1}^{n} x_i y_i = a \sum_{i=1}^{n} x_i^2$

因此，斜率 $a$ 的最大似然估计为：
$\frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2}$

三、mse的缺点？

均方误差（Mean Squared Error, MSE）是回归分析中常用的损失函数之一，用于衡量预测值与真实值之间的差异。 $MSE=1n∑i=1n(yi−y^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

3.1. 对异常值敏感

MSE通过平方误差来惩罚预测错误，这意味着较大的误差会被平方放大，从而对异常值（outliers）特别敏感。
如果数据集中存在异常值，那么MSE可能会给出一个非常高的误差值，导致模型过度关注这些异常点，而不是整体数据的趋势。

3.2. 不适用于概率分布不对称的情况

在某些情况下，预测误差的概率分布可能是不对称的。例如，在金融风险评估中，低估可能带来的损失通常比高估更为严重。MSE假设所有方向上的误差都是等价的，因此它不适合处理那些需要不同对待正负误差的应用场景。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

一文读懂：工业机器人 WAM 技术路线与传统方案的边界

DAMO开发者矩阵

大湾区首个200亿具身智能独角兽诞生！“最像特斯拉”智平方吸金50亿，全矩阵顶级资本重仓

一个成立仅三年的企业，能够同时吸引国家战略资本、千亿产业龙头和市场化顶级机构的集体重仓——这背后是资本市场对智平方“最像特斯拉”定位的深度认同，更是对“模型×硬件×场景”三位一体能力的长期看好。：国家中小企业体系基金、中国文化产业体系基金、广东省人工智能基金、深创投、南山战新投、粤港澳大湾区系列基金等持续加码，形成从国家到地方政策与资本双重加持的格局。：多家保险公司，以及中金资本、中信建投、洪泰资

DAMO开发者矩阵

信创内网IM国产化替代的痛点与选型路径

当信创替代进入倒计时阶段，内网即时通讯的国产化迁移远非“换一个聊天工具”那么简单。头部政企、金融机构和能源集团的实际推进中，三个维度的痛点正在集中暴露。是首当其冲的难题。不少大型组织过去深度依赖 Skype for Business 或 Microsoft Teams，这些系统承载了多年积累的群组架构、聊天记录、文件关联和流程机器人。迁移过程中，一旦历史数据无法完整切割、不能做到可检索的平滑导入，