隐私计算技术路线

    2022/01/06 22:16 下午 标签: #隐私保护机器学习

    根据“大数据联合国全球工作组”(Bigdata UN Global Working Group)的定义, 隐私计算(Privacy-Preserving Computation)是一类技术方案, 在处理和分析计算数据的过程中能保持数据不透明、不泄漏、无法被计算方以及其他非授权方获取. 隐私计算是指在保护数据本身不对外泄漏的前提下实现数据分析计算的技术集合.

    数据安全法律法规

    法律法规 英文全称 简称 发起地区 施行时间
    《通用数据保护条例》 General Data Protection Regulation GDPR 欧盟 2018.5.25
    《加利福尼亚州消费者隐私法》 California Consumer Privacy Act CCPA 美国 2020.1.1
    《网络安全法》 中国 2017.6.1
    《数据安全法》 中国 2021.9.1

    隐私计算与传统数据安全的关系

    来源: 《隐私计算介绍》华控清交 赵一飞

    传统数据保密 隐私计算
    数据在加密后不可计算, 使用必须解密 数据加密后仍可计算, 计算结果解密后与明文计算结果一致
    需要信任系统管理员、硬件平台和操作系统 无需信任系统管理员、硬件和操作系统(密码学流派)
    主要能力面向数据的存储和传输 主要能力面向数据的使用和计算
    以Hash、非对称、对称等密码学为基础 安全性和正确性由数学理论保证(密码学流派)

    传统数据安全与隐私计算是互补关系, 综合使用才能够保障数据的全生命周期安全.

    隐私计算技术流派

    来源: 《隐私计算介绍》华控清交 赵一飞

    联邦学习 多方安全计算 可信执行环境 安全沙箱
    能力概述 数据不出域, 本地明文计算, 交互通过MPC加密 原始数据不出域, 纯密文计算 数据通过安全通道进入隔离硬件环境计算, 支持各种通用计算 明文数据进入安全沙箱, 支持第三方软件协作分析
    应用场景 多数据源联合机器学习建模 多数据源联合基础运算、联合查询、联合统计、部分机器学习建模 多数据源联合基础运算、联合查询、联合统计、机器学习建模 多数据源联合基础运算、联合查询、联合统计、机器学习建模
    安全等级 中~高 高(满足一定安全假设前提下)
    核心技术 交互层使用密码算法
    HE, OT, RSA, Hash
    底层基于严格论证的密码算法
    GC, SS, OT, HE, ZKP
    在硬件层面安全指令集设计 在网络、操作系统之上软安全域设计
    性能对比 中~高 分布式模式性能低
    代理模式性能中~高
    部署形式 各方部署计算和数据节点 分布式模式各方部署计算和数据节点
    代理模式计算节点集中部署
    各方部署数据节点,计算节点集中部署 集中部署

    密码学研究领域划分

    1. 计算问题: 基础困难假设;
    2. 密码原语: 基础功能算法, 包括对称加密算法、公钥加密算法、哈希函数算法、伪随机生成器等;
    3. 密码协议: 基于密码原语实现多种功能, 多方安全计算、零知识证明、可搜索加密等;
    4. 安全系统: 基于密码协议构建安全系统, 多学科交叉.

    以上四个层次层层递进, 每一层都依赖于上一层的相应实现.

    安全多方计算的类型

    通用安全多方计算

    1. 支持任意函数;
    2. 相同设计应用不用场景, 易于设计.

    专用安全多方计算

    1. 支持部分函数;
    2. 针对特定问题的解决方案定制, 效率高;
    3. 常见场景: 隐私集合求交(PSI)问题, 门限密码等.

    全同态加密技术的发展

    发展阶段 困难性假设 特点 代表方案
    第一代 理想格陪集问题、稀疏子集和问题 理论可行, 实现效率低 Gentry09
    第二代 LWE/NTRU问题 优化充分, 当前效率最高, 多项式运算优势 BGV、BFV、CKKS
    第三代 LWE问题 形式简洁, 参数选取更简便, 逻辑运算优势 TFHE、FHEW

    不同技术路线的对比

    安全多方计算类型 技术路线 优点 缺点
    通用 通用安全多方计算(混淆电路 + 不经意传输 + 秘密共享) 功能全面 计算及通信开销大
    通用 基于全同态加密的通用安全多方计算(FHE) 功能全面 自举效率低
    专用 基于秘密共享的专用安全多方计算 效率较高, 功能较多 运算往往依赖第三方辅助, 部分运算计算及通信开销大
    专用 基于不经意传输的专用安全多方计算 效率高 功能单一
    专用 基于半同态算法的专用安全多方计算 效率较高 功能有限
    专用 基于全同态加密的专用安全多方计算(Leveled HE) 效率较高, 功能按需设计 需要面向应用场景设置参数

    隐私计算关键技术综合评价表

    来源: 中国信息通信研究院、阿里巴巴(中国)有限公司、北京数牍科技有限公司《隐私保护计算技术研究报告(2020年)》

    技术 计算过程保护 计算结果保护 计算性能 计算精度 硬件依赖 理论支持场景 实际已商用场景 计算模式
    安全多方计算MPC ★★★★★ ★★☆☆☆ ★★★★★ 任意计算 国外: 拍卖、薪资统计、密钥管理;
    国内: 密钥管理、联合建模
    分布式
    联邦学习FL ★★★☆☆ ★★★☆☆ ★★★★★ 机器学习建模 国外: 以横向FL为主, 如谷歌Gboard;
    国内: 以纵向FL为主, 在金融风控领域应用居多
    分布式
    机密计算CC ★★★☆☆ ★★★★★ ★★★★★ 任意计算 国外: 密钥管理;
    国内: 联合建模、区块链
    中心化
    差分隐私DP ★★★★☆ ★★★☆☆ 任意计算 谷歌Gboard 中心化
    本地差分隐私LDP ★★★★☆ ★★★★☆ ★★☆☆☆ 数据统计 谷歌Chrome/苹果iPhone 分布式 + 中心化
    全同态加密FHE ★★★★★ ★☆☆☆☆ ★★★★☆ 任意计算 --- 中心化

    隐私计算技术体系

    来源: 中国信通院调研、Gartner

    技术 性能 通用性 安全性 可信方 整体描述 技术成熟度
    多方安全计算(MPC) 低~中 不需要 通用性高,计算和通信开销大,安全性高,研究时间长,久经考验,性能不断提升 已达到技术成熟的预期巅峰
    可信执行环境(TEE) 中~高 需要 通用性高,性能强,开发和部署难度大,需要信任硬件厂商 快速增长的技术创新阶段
    联邦学习(FL) 均可 综合运用MPC、DP、HE方法, 主要用于AI模型训练和预测 快速增长的技术创新阶段
    同态加密(HE) 不需要 计算开销大, 通信开销小, 安全性高, 可用于联邦学习安全聚合、构造MPC协议 快速增长的技术创新阶段
    零知识证明(ZKP) 不需要 广泛应用于各类安全协议设计, 是各类认证协议的基础 快速增长的技术创新阶段
    差分隐私(DP) 不需要 计算和通信性能与直接明文计算几乎无区别, 安全性损失依赖于噪声大小 快速增长的技术创新阶段
    区块链(BC) 不需要 基于带时间戳的块链式存储、智能合约、分布式共识等技术辅助隐私计算, 保证原始数据、计算过程及结果可验证 逐渐接近技术成熟的预期巅峰

    隐私计算中的不可能三角

    以下三点相互制约, 三者无法同时达到最优.

    1. 安全性/隐私性
    2. 效率性
    3. 精确性

    安全多方计算协议的实现难度

    来源:阿里安全双子座实验室 洪澄博士

    实现难度 诚实大多数 不诚实大多数
    半诚实安全 ☆☆☆
    恶意安全 ☆☆☆ ☆☆☆☆☆

    联邦学习开源框架对比

    来源: 《WeBank - 联邦学习白皮书2.0》

    开源框架 FATE TensorFlow Federated PaddleFL PySyft
    受众定位 工业产品/学术研究 学术研究 学术研究 学术研究
    牵头单位/机构 微众银行 Google 百度 OpenMined
    联邦学习类型 横向/纵向/迁移 横向 横向/纵向 横向
    联邦特征工程算法 支持特征的分箱、选择、相关性分析 不支持 不支持 不支持
    机器学习算法 LR, GBDT, DNN等 LR, DNN等 LR, DNN等 LR, DNN等
    安全协议 HE, SS, RSA, DH DP DP HE, SS
    联邦在线推理 支持 不支持 不支持 不支持
    Kubernetes 支持 不支持 不支持 不支持
    代码托管平台 Github Github Github Github

    隐私保护机器学习的计算安全等级

    来源: 《隐私保护机器学习》, P85, 王力、张秉晟、陈超超 著, 2021.

    等级分类 安全要求 举例
    第一安全等级 不传输原始数据, 但不对中间数据进行保护 不传输原始数据, 明文传输梯度
    第二安全等级 概率性地保护半诚实安全模型下中间数据的安全, 概率应可计算 对传输梯度进行差分噪声的保护
    第三安全等级 在半诚实安全模型下, 可证明安全 基于半诚实安全模型的多方计算方案
    第四安全等级 在恶意安全模型下, 可证明安全 基于恶意安全模型的多方计算方案
    第五安全等级 在恶意安全模型下且有多攻击方共谋时, 可证明安全 不诚实大多数的多方计算方案