可信数据空间:联邦学习 / TEE / MPC 三种实现路径
政务数据流通的"既要又要"如何工程化解决
政务数据流通的"既要又要"如何工程化解决
这篇笔记关于一个被高估了密码学、低估了治理的领域 —— 可信数据空间。
下面 8 个段落覆盖:业务悖论、三种密码学路径(FL/TEE/MPC)、三层架构、可审计、治理优先于技术。
"数据可用不可见"是工程目标 ——
密码学是工具,治理才是答案。
政务数据共享有两个相反的诉求:
业务方要的:跨部门数据打通、AI 模型联合训练、监管决策的全维度数据。 合规要的:原始数据不出域、个人隐私不泄露、每次操作可审计、数据安全法 + 个人信息保护法 全合规。
传统做法走两条死路:① 拷贝数据互通 —— 数据出域、风险扩散;② API 实时拉取 —— 调用方实际能拿到原始数据,仍是变相出域。
可信数据空间的工程目标是 "数据可用不可见、数据计算不复制"。这八个字看着抽象,落地需要密码学 + 系统工程 + 法律治理 三栈协同。
工程界目前的三条主流路径:
联邦学习(Federated Learning):模型在各方本地训练,只交换加密的模型参数;适合多方联合训练 ML 模型。 TEE(Trusted Execution Environment):数据加密进入硬件安全区(Intel SGX / AMD SEV)运算,结果出来;适合纯计算任务。 MPC(Multi-Party Computation):多方密码学协议联合算结果,每方都看不到对方数据;适合互不信任场景。
每种路径有自己的适用场景。工程上常常是组合使用,不是替代关系。
下面分别看每种的工程取舍。
典型场景: - 多家银行联合反欺诈风控(不能互通客户数据但要训风控模型) - 多家医院联合疾病预测(不能互通病人数据但要训诊断模型) - 政务多部门联合训人口画像(户籍 / 教育 / 社保 / 医保 各自不外传)
工程要点: - 各方数据格式必须对齐(schema / 字段 / 编码) - ML 框架要兼容(PyTorch / TF / 自研) - 联邦协调器(中央方)只汇聚模型参数不接触原始数据 - 通信开销大:每轮训练要传完整模型参数
工具栈:FATE(微众银行)/ PySyft / TensorFlow Federated / FedML。
工程现实:跨机构协调比技术本身难 10 倍 —— 谁主导、谁出资、谁拥有模型 都是开会能开半年的问题。
典型场景: - 银行卡 CVV 验证(输入加密进 TEE 算完即销毁) - 政务数据统计分析(人口分布 / 经济指标,不需训模型) - 医疗数据联合查询(多个医院某病种的统计)
工程要点: - 硬件依赖:Intel SGX / AMD SEV-SNP / ARM TrustZone - 数据进 TEE 前已用各方公钥加密,TEE 内解密 → 计算 → 加密 → 输出 - 远程证明(Remote Attestation):使用方能验证 TEE 真实性 - 性能比明文低 5-10×(加密 / 解密 / 边界穿越开销)
工程难点:① 硬件信任链(如果 Intel 后门怎么办?)② 安全区内代码必须开源审计 ③ Side-Channel 攻击防御。
适合"算",不适合"训" —— TEE 内存有限,跑不了大模型。
典型场景: - 联合统计:3 家公司算"我们 3 家的总收入",但谁都不知道对方收入 - 加密求交集:2 家电商找"我俩的共同客户",但不暴露各自客户名单 - 隐私拍卖:所有人出价,最高价者中标,但其他人的出价永远保密
工程要点: - 不需要可信第三方(不像联邦学习有协调器,TEE 有硬件厂商) - 通信开销巨大:O(n²) 量级,n 是参与方数 - 算法工程化难:每种 MPC 协议(SS / GC / OT)都有不同性能特性 - 实战工具:MP-SPDZ / Sharemind / Cybernetica
核心限制:性能。MPC 比明文慢 100-10000×(取决于协议和数据量)。所以适合"小数据 / 高敏感",不适合"大数据 / 高吞吐"。
把可信数据空间简化成"用 TEE / FL / MPC 算就完了"是新人误区。真实架构有三层:
第一层 · 数据资产层:数据目录(什么数据在哪)+ Schema 元数据(字段含义)+ 责任主体(谁的数据,谁授权)+ 敏感度分级(公开 / 内部 / 秘密 / 机密)。
第二层 · 流通授权层:数据使用申请 + 审批工作流 + 时长限制 + 用途记录 + 撤销机制。每次跨域使用必须留痕,可被监管事后审计。
第三层 · 计算执行层:根据数据敏感度自动选择 TEE / FL / MPC。低敏感度可以联邦学习,高敏感度必须 MPC + TEE 双重保护。
工程上 70% 工作在前两层,只有 30% 在密码学算法。这是新团队最容易低估的事实。
可信数据空间的"可信"不只是"数据看不见",还要"操作可追溯"。
每次数据使用记录:申请人 / 用途 / 时间 / 输入 hash / 输出 hash / 计算路径 / 完成状态。
区块链存证:联盟链(Hyperledger Fabric / FISCO BCOS)上链关键操作 —— 这一步的目的是"防篡改",不是"分布式"。监管事后审计时,账本可证明操作真实发生且未被篡改。
监管接入:工信部 / 网信办 / 数据局 等监管部门可随时审计任意一次使用。这不是"做给监管看",是"被监管约束才能正常运转"。
法律映射:数据安全法 + 个人信息保护法 的具体条款必须能映射到系统具体功能。法律不是文档,是工程约束。
做完 5 个真实可信数据空间项目后的最大感受:密码学算法是最不难的部分。
真正难的是:
跨部门责权边界:A 部门的数据 B 部门要用,谁授权?谁担责?数据出问题谁背锅?这些不是技术问题,是组织问题。
主数据治理:什么数据是公开 / 内部 / 秘密 / 机密?标准建立 = 半年起步,落地 = 1 年起步。没有这一步,所有"可信计算"都是空中楼阁。
用户教育:让业务部门理解"数据可用不可见"是赋能不是限制。这需要无数次现场培训 + 真实案例 + 试错。
实战经验:长沙市大数据中心项目,30% 工作量在计算技术,70% 工作量在治理流程。先把治理打扎实,再选具体技术 —— 反过来必然项目搁浅。
可信数据空间的难点不在算法,
在"组织信任的工程化表达"。
先做扎实治理,再选具体技术 —— 反过来必然搁浅。