15.6 隐私保护技术:差分隐私、同态加密与联邦学习
随着人工智能系统处理的数据日益敏感,从个人医疗记录到金融交易信息,如何在利用数据价值的同时严格保护个体隐私,已成为人工智能工程实践中不可回避的核心挑战。传统的“数据不出域”的孤立模式已无法满足协同智能的需求,而简单的匿名化技术被证明极易受到重识别攻击。因此,在数据流动与计算过程中嵌入强隐私保护机制,是构建可信、合规人工智能系统的基石。
本节聚焦于当前隐私保护人工智能领域三大支柱性技术:提供严格数学隐私保证的差分隐私、支持密文计算的同态加密,以及实现数据不动模型动的联邦学习。三者从不同维度切入隐私保护问题,并在实践中形成互补与融合。本章将系统阐述其基本原理、关键技术、协同范式,并剖析其在实际应用中的权衡与前沿挑战。
15.6.1 差分隐私:可证明的隐私保证
差分隐私是一种严格的、可量化的隐私定义与实现框架。其核心思想是:通过向算法(如查询、分析或机器学习模型的输出)中注入精心设计的随机噪声,使得任何单一个体数据的存在与否,对算法的最终输出分布影响微乎其微[citation][citation]。
15.6.1.1 形式化定义与核心机制
形式化地,对于一个随机化算法MMM,若对于所有相邻数据集DDD和D′D'D′(两者仅相差一条记录)以及所有可能的输出子集SSS,满足:
Pr[M(D)∈S]≤eϵ⋅Pr[M(D′)∈S]+δ \text{Pr}[M(D) \in S] \le e^{\epsilon} \cdot \text{Pr}[M(D') \in S] + \deltaPr[M(D)∈S]≤eϵ⋅Pr[M(D′)∈S]+δ
则称算法MMM满足(ϵ,δ)(\epsilon, \delta)(ϵ,δ)-差分隐私[citation][citation]。其中,ϵ\epsilonϵ称为隐私预算,控制隐私保护的强度(ϵ\epsilonϵ越小,保护越强);δ\deltaδ是一个松弛项,通常设置为一个极小的值(如10−510^{-5}10−5),表示允许小概率的隐私违反。
实现差分隐私的两个最基础机制是:
- 拉普拉斯机制:适用于数值型输出。对于函数f:D→Rkf: D \rightarrow \mathbb{R}^kf:D→Rk,其全局敏感度Δf=maxD,D′∥f(D)−f(D′)∥1\Delta f = \max_{D, D'} \| f(D) - f(D') \|_1Δf=max