线性回归是时间序列预测的核心算法之一,也同样是机器学习的核心基础,本篇文章我们会结合实例一步步推演计算过程,也为接下来在AI领域如何应用打下基础。

在零售领域,线性回归模型可以用于预测销售额、库存需求、客户流量等。这里以 预测某零售店的销售额 为例,说明如何运用线性回归模型。

一、线性回归的应用

例子:预测零售店的销售额

假设我们想要预测某零售店的 日销售额(因变量 y),并且认为 广告支出(自变量 x)和 促销活动天数(自变量 x2)对销售额有显著影响。

1. 收集数据

我们收集了过去 10 天的数据,包括当天的广告支出、促销活动天数以及相应的销售额(单位:万元)。

图片

2. 假设线性回归模型

我们假设销售额与广告支出和促销活动天数之间存在线性关系。回归方程的形式为:

图片

图片

3. 计算回归系数

通过使用 最小二乘法(OLS,Ordinary Least Squares),我们计算得到了以下回归系数:

图片

所以回归方程为:

图片

4. 使用回归方程进行预测

假设某天的广告支出为 4 万元,促销活动持续 2 天,我们可以代入回归方程来预测当天的销售额:

图片

所以,在这种情况下,该天的预测销售额为 19 万元

5. 解释回归结果

·截距 β0:即使没有广告支出和促销活动,零售店的基础销售额也为 5 万元。这可能代表了零售店的固定销售额,例如常规客户流量等。

·广告支出的系数 β1:广告支出每增加 1 万元,预计销售额增加 2 万元。即广告支出对销售额有正向影响。

·促销活动天数的系数 β2:每增加 1 天的促销活动,预计销售额增加 3 万元。促销活动天数对销售额也有正向影响。

6. 模型的评估

为了评估回归模型的效果,我们需要检查一些重要的统计指标:

·R²(决定系数):R² 越接近 1,表示自变量对因变量的解释能力越强。它衡量的是回归模型对数据的拟合程度。

·p 值:用来检验回归系数的显著性。如果 p 值小于 0.05,通常表示该自变量对因变量的影响是显著的。

·残差分析:检查模型的预测值和实际值之间的差异,查看是否有规律可循。残差应当服从正态分布,且没有明显的偏差。

例子总结

我们使用了 线性回归 模型来预测零售店的销售额。我们发现广告支出和促销活动天数对销售额有正向影响,并得到了相应的回归系数。通过这个模型,零售店可以根据广告预算和促销活动天数的安排,预测可能的销售额,并优化其营销策略。

二、线性回归原理

我们看到了实际案例的应用,接下来要分析一下实际原理,要做到知其然更知其所以然。

回归问题主要关注的是因变量(需要预测的值,可以是一个也可以是多个)和一个或多个数值型的自变量(预测变量)之间的关系。

需要预测的值:即目标变量,target,y,连续值预测变量。

影响目标变量的因素:X1X1...XnXn,可以是连续值也可以是离散值。

因变量和自变量之间的关系:即模型,model,是我们要求解的。

我们以简单线性回归为例来介绍(多元线性回归就是有多个因变量,比如上面例子有两个参数广告支出、活动天数),算法说白了就是公式,简单线性回归属于一个算法,它所对应的公式。

图片

这个公式中,y 是目标变量即未来要预测的值,x 是影响 y 的因素,w,b 是公式上的参数即要求的模型。其实 b 就是咱们的截距,w 就是斜率嘛!所以很明显如果模型求出来了,未来影响 y 值的未知数就是一个 x 值,也可以说影响 y 值 的因素只有一个,所以这是就叫简单线性回归的原因。

同时可以发现从 x 到 y 的计算,x 只是一次方,所以这是算法叫线性回归的原因。其实,大家上小学时就已经会解这种一元一次方程了。为什么那个时候不叫人工智能算法呢?因为人工智能算法要求的是最优解!

最优解

Actual value:真实值,一般使用 y 表示。

Predicted value:预测值,是把已知的 x 带入到公式里面和猜出来的参数 w,b 计算得到的,一般使用 y^y^ 表示。

Error:误差,预测值和真实值的差距,一般使用 ε 表示。

最优解:尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失 Loss。

Loss:整体的误差,Loss 通过损失函数 Loss function 计算得到。

线性回归的损失函数

线性回归的目标:找到一条尽可能在所有点中间的直线,以预测未来。

图片

首先,表示出直线到每个点的平均距离。其次,让这个平均距离最小。举例,销售天数和销售件数直接的简单线性回归预测。

图片

图片

图片

图片

通过以上计算就可以找到计算出损失函数。

三、最小二乘法

上面其实已经推导出损失函数的计算方法,如果用于数学求解计算就是通过最小二乘法来计算,下面我们还是以广告支出和销售额的简单线性回归举例来说明最小二乘的运用方法。

最小二乘法(OLS)是线性回归分析中最常用的估计方法之一,它的核心思想是通过最小化观测值与模型预测值之间差异的平方和,来找到最佳拟合的直线(或超平面)。简单来说,就是让预测值与实际观测值之间的误差最小化。

1. 基本概念

假设我们有一组数据,包含 n 个样本点,每个样本点有一个自变量 Xi 和一个因变量 Yi ,我们希望通过线性回归模型来描述这组数据。回归模型的形式为:

图片

图片

2. 最小二乘法的目标

最小二乘法的核心思想是通过最小化 残差的平方和 来确定回归系数。残差是指实际值与预测值之间的差异,即:

图片

最小二乘法的目标是最小化以下目标函数(残差平方和):

图片

我们通过对 β0 和 β1求偏导数并使其为零,从而得到最优的回归系数。

3. 最小二乘法的求解

通过对目标函数 S(β0,β1)S(\beta_0, \beta_1)S(β0,β1) 求偏导数并令其为零,可以得到最小二乘法的解析解。这一过程比较复杂,但最终可以得到回归系数 β0\beta_0β0 和 β1\beta_1β1 的计算公式。

求解回归系数的公式:

对于一元线性回归(即只有一个自变量 x),最小二乘法的求解过程给出以下两个公式来计算 β0 和 β1 :

图片

图片

 

4. 最小二乘法的几何意义

最小二乘法可以从几何角度理解。它的目标是找到一条最佳拟合直线,使得直线与每个数据点的垂直距离(残差)的平方和最小。几何上,这条直线称为“最小二乘直线”。

 ·每个点到拟合直线的距离代表了回归模型的误差(残差)。

 ·最小二乘法通过调整回归系数,最小化所有点到拟合直线的垂直距离的平方和。

5. 最小二乘法的应用示例

我们可以通过一个简单的例子来进一步理解最小二乘法。

假设我们有以下数据,表示某零售店在过去 5 天的广告支出(万元)与销售额(万元)的关系:

图片

我们想要通过最小二乘法找到广告支出和销售额之间的线性关系。

1.计算均值

图片

2.计算回归系数 β1 :

图片

3.计算截距 β0 :

图片

所以,回归方程为:

图片

这个方程表示广告支出每增加 1 万元,销售额预计增加 2.6 万元。即,如果我们有 7 万元的广告支出,那么预测的销售额为:

图片

四、总结

通过以上的分析和举例,我们了解到线性回归的实际应用以及原理,这将是我们未来如何利用机器学习、AI等能力构建企业智能化的基础能力,接下来我们会通过以后的文章介绍基于线性回归的模型(ARIMA等),以及机器学习中回归的应用,还将开展逻辑回归等如何处理分类问题、运筹学等相关的话题,帮助大家通过实例和原理构建自己的智能化应用场景。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐