隐私计算概述
隐私计算概述
隐私计算是一种保护数据隐私的技术,它允许多个参与方在保护各自数据隐私的情况下,共同完成某项计算任务,实现“数据可用不可见”的目标。在数字经济的背景下,随着数据成为重要的生产要素,隐私计算的重要性日益凸显。它不仅能够促进数据的安全流通,还能在保护个人隐私和商业秘密的前提下,实现数据的价值挖掘和应用。
隐私计算主要就是MPC(安全多方计算)、FL(联邦学习)、TEE(可信执行环境)、PSI(隐私集合求交)、PIR(匿踪查询)、DP(差分隐私)等。
在选择隐私计算技术时,需要根据具体的应用场景、数据特性、计算资源和安全需求等因素进行综合考虑。例如,在需要保护高度敏感数据的场景下,可以选择MPC或TEE技术;在分布式机器学习场景中,则更倾向于选择FL技术。
1、MPC(Secure Multi-party Computation安全多方计算)
MPC是隐私计算的核心技术之一,能够为多方合作的大数据分析、计算、建模中发挥重要作用。允许多个参与者在保留各自输入隐私的前提下,进行联合计算并得出函数的输出结果。各参与方只能知道自己的输入和输出,无法得知其他参与方的信息。这个过程的核心思想是,通过加密、秘密共享等技术实现隐私保护。
MPC协议有两类主要的对手模型:
半诚实对手:这些对手会遵循协议规则,但可能试图从通信中获取额外信息。半诚实对手往往通过窥探传输数据来尝试推断其他参与方的输入。
恶意对手:恶意对手不仅可能窥探传输信息,还可能主动破坏协议,进行任意攻击。为了应对这种威胁,MPC协议必须具备验证和安全机制,保证即便在对手恶意操作时,协议仍然能正确执行。
MPC协议的实现主要有两种方法:
秘密共享方法:通过将各方输入的数据分割为多个份额,并在各方之间交换,这样即使单个方的份额泄露,也无法得出原始数据。这个方法能有效降低通信成本,且通信复杂度与电路深度线性相关。
混淆电路方法:参与方共同构建一个加密版本的电路,电路只能计算一次,且输出结果是加密的,轮数恒定。这个方法的通信量通常较大,但能有效保证恶意对手无法推断出其他参与方的输入。
MPC技术的核心在于确保参与者能在不泄露隐私的前提下共同计算,满足数据隐私和安全性需求。针对半诚实和恶意对手的不同安全要求,MPC有不同的设计方法和优化策略。其原理基于密码学技术,通过混淆电路、秘密分享、不经意传输等协议,确保每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入数据。
MPC技术广泛应用于联合统计、联合查询、联合建模和联合预测等场景,为多方数据的安全融合计算提供了有效的解决方案。
MPC技术具有较高的计算安全性和隐私保护能力,但计算开销较大。
2、FL(Federated Learning联邦学习)
FL是一种分布式机器学习方法,它允许多个设备或组织在本地训练模型,然后仅将模型参数或梯度发送到中央服务器进行聚合,从而避免原始数据的泄露。FL技术特别适用于需要保护用户隐私的场景,如金融、医疗、电商等领域。在金融行业,FL可以用于联合反洗钱、信用评估等;在医疗领域,它则支持健康档案共享、患者数据保护等。通过FL技术,各参与方能够在不共享原始数据的情况下,共同训练出更加精准的模型,提高数据利用的效率。
FL联邦学习可以细分为横向联邦学习、纵向联邦学习、横纵向混合联邦学习、联邦迁移学习。
FL技术适用于分布式机器学习场景,能够保护用户隐私,但通信成本较高。
3、TEE(Trusted Execution Environment可信执行环境)
TEE通过硬件或软件技术提供一个安全的环境,确保数据在计算过程中不被泄露或篡改。TEE技术的优势在于它能够提供更高的安全性和可信度,支持更复杂的计算任务。然而,TEE技术也面临着一些挑战,如硬件成本较高、侧信道攻击等安全威胁。目前,主流的TEE技术以X86指令集架构的Intel SGX和ARM指令集架构的TrustZone为代表,国产芯片厂商如兆芯、海光、飞腾、鲲鹏也在积极布局TEE技术。
TEE技术则提供了更高的安全性和可信度,但硬件成本较高。
4、PSI(Private Set Intersection隐私集合求交)
PSI是MPC领域的一个子问题,通常也被称为安全求交、隐私保护集合交集或者隐私交集技术等,其目的是允许持有各自数据集的双方或者多方,执行两方或者多方集合的交集计算,当PSI执行完成,一方或者两方,甚至多方,能够得到交集结果,但是任意一方都无法获得交集以外的其他方集合数据的任何信息。可以使用PSI解决的问题,总结起来可以归纳为“黑/白名单应用”以及“撞库应用”:
黑/白名单系列
1、金融机构黑名单共享:银行、信用卡公司等金融机构可以共享黑名单信息,防止被多个机构列入黑名单的客户再次申请贷款或信用卡。
2、犯罪调查:不同执法机构可以在不泄露案件详细信息的前提下,合作识别共同嫌疑人或案件线索,提高办案效率。
3、租赁公司黑名单共享:汽车租赁公司和房屋租赁公司可以共享不良租客信息,防止有违约或损坏财产记录的租客继续租赁。
4、医疗研究:不同医院或研究机构可以在不共享患者详细信息的情况下,识别共同患者,进行协同研究或联合分析。
5、身份验证:不同组织可以在不共享用户详细信息的情况下,验证用户的身份,确保用户的隐私安全。
撞库系列
1、广告投放和数据合作:广告商和平台可以在不暴露各自用户数据的情况下,确定共同用户,以实现更精准的广告投放。
2、市场分析:企业之间可以在保护客户隐私的情况下,合作进行市场分析,识别共同客户和市场趋势。
3、社交网络:不同社交网络平台可以在不泄露用户数据的情况下,找出重叠用户,以便更好地提供跨平台服务。
4、联邦学习:多个机构可以在保护数据隐私的情况下,共享数据特征,进行联合机器学习模型训练,提升模型性能。
5、账户保护合作:不同企业可以在不透露具体用户信息的情况下,合作保护那些使用相同账户信息的用户,防止他们在多个平台上遭受撞库攻击。
5、PIR(Private Information Retrieval匿踪查询)
PIR匿踪查询技术,又称为隐私信息检索(Private Information Retrieval, PIR),是一种在保护用户隐私的前提下进行信息检索的隐私计算技术。匿踪查询通过加密、混淆等技术手段,保障查询方能够隐匿被查询对象的关键词或客户ID信息,使得数据服务方提供匹配的查询结果但无法获知具体对应哪个查询对象。
匿踪查询可以按照不同的维度进行分类,业界主要按技术实现、服务器数量和查询类型三种方式分类。
(一)按技术实现分类
1.不经意传输(Oblivious Transfer, OT):OT是匿踪查询应用最广泛的实现模式。其允许发送方将多个消息中的一个或多个发送给接收方,而接收方只能得知其选择的那部分消息,同时发送方则不知道接收方选择了哪些消息。不经意传输有多种不同的实现,经典OT为1-out-of-2不经意传输协议,即接收方从2个消息中选择获取其一,之后拓展出不同的变种,包括1-out-of-N不经意传输协议和k-out-of-N不经意传输协议等。
2.同态加密(Fully Homomorphic Encryption, FHE):目前业界也有基于同态加密技术实现匿踪查询的方案。在这类方案下,数据库被加密存储在服务器。用户向服务器提交同态加密的查询索引,生成不可关联到原始索引的加密查询。服务器依据加密索引在加密数据库中进行运算后,返回对应索引的数据项的密文,由用户自行解密结果。
(二)按服务器数量分类
1.单服务器方案(Single-Server PIR):**所有的查询操作都通过一个服务器进行。用户向这个单一的服务器发送查询请求,服务器处理请求并返回结果。相较于多服务器方案,单服务器方案在实际应用中更为普遍,因为它避免了多服务器之间可能出现的合谋问题,且在部署和维护上相对简单。
2.多服务器方案(Multi-Server PIR):**涉及使用多个服务器来处理用户的查询请求。这种方案的核心目的是通过分散信息处理和存储,增强用户查询的隐私保护,可减少单一服务器泄露用户隐私信息的风险。
(三)按查询类型分类
1.基于索引的隐私查询方案(Index PIR):**用户基于数据的位置索引进行查询,例如查询服务端第k个数据。该方案通常在效率上较高,因为它不需要处理复杂的文本匹配问题,但不适用于数据变化频繁的场景。
2.基于关键词的隐私查询方案(Keyword PIR):服务端的数据是(key, value)类型的数据,这种方案允许用户根据关键词key进行查询,而不暴露查询的具体内容。该方案因包含查询关键词信息,因此技术复杂性更高,但使用更灵活。
6、DP(Differential Privacy差分隐私)
基于深度学习的差分隐私(Differential Privacy, DP)是一种保护数据隐私的方法,旨在在训练深度学习模型时,保证单个数据样本对模型输出的影响极小,从而保护个体数据的隐私。差分隐私通过在数据处理过程中引入随机噪声,使得单个数据样本对整体输出的影响变得难以察觉,从而保护数据隐私。基于深度学习的差分隐私在模型训练过程中应用这种方法,以保护训练数据的隐私。
全局差分隐私(Global Differential Privacy):在模型参数更新时加入噪声,以确保整个模型的训练过程满足差分隐私要求。
噪声机制:常见的方法包括拉普拉斯噪声和高斯噪声,分别基于拉普拉斯分布和高斯分布添加随机噪声。
差分隐私随机梯度下降(DP-SGD):在标准的随机梯度下降(SGD)过程中,对每个批次的梯度计算添加噪声,并进行裁剪(clipping),以控制梯度的敏感度。
局部差分隐私(Local Differential Privacy):在数据收集阶段,对每个数据样本进行本地化的噪声添加,以保证单个数据样本的隐私。
噪声注入:在数据上传到服务器之前,先对数据进行扰动,以保护原始数据隐私。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)