天冕讲堂 | 隐私计算算法系列之传统逻辑回归算法详解

天冕讲堂 | 隐私计算系列 & 逻辑回归本系列是天冕隐私计算团队打造的知识分享系列，该系列注重于分享隐私计算领域的相关技术，分享课题涉及联邦学习，安全多方计算，同态加密等多个方向，致力于提供隐私计算领域最简单易懂的知识分享。欢迎关注 WeFe 隐私计算开源平台https://github.com/tianmiantech/WeFe传统的逻辑回归算法（Logistic regression，

天冕科技

367人浏览 · 2022-05-26 17:15:06

天冕科技 · 2022-05-26 17:15:06 发布

本系列是天冕隐私计算团队打造的知识分享系列，该系列注重于分享隐私计算领域的相关技术，分享课题涉及联邦学习，安全多方计算，同态加密等多个方向，致力于提供隐私计算领域最简单易懂的知识分享。

欢迎关注 WeFe 隐私计算开源平台 https://github.com/tianmiantech/WeFe

传统的逻辑回归算法（Logistic regression，简称LR）因其模型简单和模型可解释性强的优点，被广泛的应用在各个领域中，如在金融领域信用卡发卡机构可以根据逻辑回归建立信用卡评分模型，评估当前客户的信用情况。为了满足实际的需要，现阶段在隐私计算中已经出现多种实现逻辑回归的安全解决方案。本知识系列将从隐私计算的多个技术路线，科普介绍逻辑回归算法的实现。本篇文章将先介绍传统逻辑回归的一些算法知识，为理解后续理解隐私计算中的逻辑回归算法做铺垫。

1. Logit 变换

在实际应用中经常会遇到定性变量，如：用户性别男女，用户购买与不购买，贷款人违约与不违约等。如果建立用户购买与不购买的模型，这时不再满足线性回归方程的基本假定，需要新模型来解决这类问题。通常将因变量是定性的二元变量，转换为研究因变量取值1的概率 P，但直接处理 P 存在一下两点困难：

0≤ P ≤1，因此 P 与自变量的关系难以用线性模型来描述；
当 P 接近0或1时，P 值的微小变化用普通的方法难以发现和处理。

解决方案：

转化去处理 P 的一个严格单调函数 $f = f (P)$ ；
函数 $f (P)$ 需要满足在 P=0 或者 P=1 附近的发生的微小变化很敏感，即 $\frac{df}{dP}$ 与 $\frac{1}{P(P-1)}$ 成比例，可以得到：

$f=ln\frac{P}{1-P}$
当 P 取值从0 趋近于1 时， $f$ 的值从 $-\infty$ 趋向于 $\infty$ ，通过单调函数 $f$ 解决了以上存在问题，该过程称为 Logit变换 。若因变量包含 $x_1,x_2,...,x_n$ ，可得到：
$\frac{P}{1-P} = w_0+w_1x_1+...+w_kx_k$
进而得到逻辑回归模型：
$\frac{e^{w_0+w_1x_1+...+w_kx_k}}{1+e^{w_0+w_1x_1+...+w_kx_k}}$

2. 逻辑回归模型

$g(w^Tx)=\frac{e^{w^Tx}}{1+e^{w^Tx}} = \frac{1}{1+e^{-w^Tx}}\\ PY=0| x ) = 1-g(w^Tx)=1-\frac{e^{w^Tx}}{1+e^{w^Tx}} = \frac{1}{1+e^{w^Tx}}$

其中 $g (x)$ 为 sigmod 函数：
$\frac{e^x}{1+e^x}=\frac{1}{1+e^{-x}}$
函数图像如下：
在这里插入图片描述

3. 损失函数

3.1 无正则项的损失函数

数据集 $D ={ (x_1,y_i),( x_2,y_2),....，( x_n,y_n) }$ , 其中 $x _i =(x_{i1},x_{i2},...,x_{ik})^T$ 。在参数估计计算过程中，逻辑回归采用极大似然估计，可以得到逻辑回归的损失函数为：
$\sum_{i=1}^n [y_i log \ g(w^Tx_i) +(1-y_i)log \ (1- g(w^Tx_i))]$
根据逻辑回归的损失函数可以得到该问题的交叉熵损失函数：
$\frac {1} {n} \sum_{i=1}^n [y_i log \ g(w^Tx_i) +(1-y_i)log \ (1- g(w^Tx_i))]$