Q1: 什么是线性回归?
A: 线性回归是一种预测数值型目标值的最简单的算法。它基于自变量和因变量之间存在线性关系的假设。

Q2: 线性回归的方程是什么?
A: 线性回归的方程为:y = wx + b, 其中y是因变量,x是自变量,w和b是模型参数。

Q3: 如何得到线性回归的参数w和b?
A: 通过最小二乘法fitting line,计算w和b,使得线性回归线与所有样本点的残差平方和最小。

Q4: 什么是线性相关性?
A: 线性相关性是指两个变量之间存在线性依赖关系,一个变量的变化可以由另一个变量的变化精确地预测。

Q5: 线性回归有什么假设?
A: 线性回归的主要假设是自变量x和因变量y之间存在线性关系,且残差项是均值为0的正态分布。

Q6: 残差是什么?
A: 残差是实际观测值与线性回归模型预测值之间的差值。它代表了模型无法解释的因变量变化。

Q7: 如何评估线性回归模型的好坏?
A: 主要使用均方误差MSE(Mean Squared Error)、R-squared、F统计量等指标来评估线性回归模型的好坏。

Q8: 什么是多元线性回归?
A: 当有多个自变量影响一个因变量时,使用多元线性回归模型对其进行预测。方程为:y = w1x1 + w2x2 + ... + b。

Q9: 线性回归是否可以用于分类问题?
A: 线性回归模型本身是回归预测,不能直接用于分类任务。需要对其输出结果进行类别阈值划分,这样才可以用于二分类或多分类问题。

Q10: 怎样对线性回归结果进行类别划分?
A: 可以根据线性回归模型输出的预测概率,设置一个分类阈值(如0.5),大于阈值预测为1类,小于阈值预测为0类。这称为逻辑回归模型。

Q11: 如何处理线性回归中的多重共线性?
A: 可以通过特征选择或PCA等方法去除共线性features,也可以在模型中加入penalty项如岭回归或LASSO来惩罚共线性features。

Q12: 什么是相关系数?它与线性回归的关系是什么?
A: 相关系数(Correlation Coefficient)用以衡量两个变量之间的线性相关程度。绝对值越接近1,表示两个变量之间线性相关性越强。线性回归模型需要两个变量具有较强的线性相关性。

Q13: 如何判断自变量x和因变量y是否适合建立线性回归模型?
A: 可以绘制x-y散点图查看两者之间是否存在线性趋势,计算相关系数查看线性相关性是否强,并进行显著性检验判断线性关系是否显著。

Q14: 残差 Q-Q图可以判断什么?
A: 残差Q-Q图可以判断线性回归模型的残差项是否满足正态分布假设。如果是一条直线,则满足正态分布;否则说明模型出现了偏差。

Q15: 什么是过拟合和欠拟合?
A: 过拟合是模型对训练数据拟合得太好,无法泛化到新数据,出现高方差。欠拟合是模型对训练数据拟合不足,出现高偏差,泛化能力差。

Q16: 如何解决线性回归的过拟合问题?
A: 可以使用正则化方法如岭回归和LASSO,增加正则化项可以减小参数值,提高模型偏差减小方差;也可以提前停止迭代;或增加更多训练数据。

Q17: 怎样选择线性回归与逻辑回归?
A: 如果因变量是连续值,则选择线性回归;如果因变量是类别值,则选择逻辑回归。线性回归输出连续预测值,逻辑回归输出类别概率。

Q18: 线性回归可以用于时间序列预测吗?
A: 可以,在时间序列数据上建立线性回归模型,以历史时间点的观测值预测未来时间点的值。但线性回归的预测性能可能不如ARIMA等时间序列模型。

Q19: 什么是非线性回归?
A: 非线性回归是自变量x和因变量y之间关系为非线性的回归分析。常见的非线性回归模型有多项式回归、Logistic回归、决策树回归等。

Q20: 如何进行非线性回归?
A: 可以通过增加多项式项、选用Logistic函数等构建非线性回归方程;也可以使用可以拟合任意形式非线性关系的机器学习算法,如决策树、随机森林、神经网络等进行非线性回归预测。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐