DATA JRN-008 · 16 分钟

可信数据空间：联邦学习 / TEE / MPC 三种实现路径

政务数据流通的"既要又要"如何工程化解决

青

这篇笔记关于一个被高估了密码学、低估了治理的领域 —— 可信数据空间。
下面 8 个段落覆盖：业务悖论、三种密码学路径（FL/TEE/MPC）、三层架构、可审计、治理优先于技术。

"数据可用不可见"是工程目标 ——
密码学是工具，治理才是答案。

FL · TEE · MPC · GOVERNANCE

SECTION

"既要又要" — 政务数据流通的悖论

政务数据共享有两个相反的诉求：

业务方要的：跨部门数据打通、AI 模型联合训练、监管决策的全维度数据。 合规要的：原始数据不出域、个人隐私不泄露、每次操作可审计、数据安全法 + 个人信息保护法全合规。

传统做法走两条死路：① 拷贝数据互通 —— 数据出域、风险扩散；② API 实时拉取 —— 调用方实际能拿到原始数据，仍是变相出域。

可信数据空间的工程目标是 "数据可用不可见、数据计算不复制"。这八个字看着抽象，落地需要密码学 + 系统工程 + 法律治理三栈协同。

SECTION

三种主流路径 — 联邦学习 / TEE / MPC

工程界目前的三条主流路径：

联邦学习（Federated Learning）：模型在各方本地训练，只交换加密的模型参数；适合多方联合训练 ML 模型。 TEE（Trusted Execution Environment）：数据加密进入硬件安全区（Intel SGX / AMD SEV）运算，结果出来；适合纯计算任务。 MPC（Multi-Party Computation）：多方密码学协议联合算结果，每方都看不到对方数据；适合互不信任场景。

每种路径有自己的适用场景。工程上常常是组合使用，不是替代关系。
下面分别看每种的工程取舍。

SECTION

联邦学习 — 跨机构联合训练 ML

典型场景： - 多家银行联合反欺诈风控（不能互通客户数据但要训风控模型） - 多家医院联合疾病预测（不能互通病人数据但要训诊断模型） - 政务多部门联合训人口画像（户籍 / 教育 / 社保 / 医保各自不外传）

工程要点： - 各方数据格式必须对齐（schema / 字段 / 编码） - ML 框架要兼容（PyTorch / TF / 自研） - 联邦协调器（中央方）只汇聚模型参数不接触原始数据 - 通信开销大：每轮训练要传完整模型参数

工具栈：FATE（微众银行）/ PySyft / TensorFlow Federated / FedML。
工程现实：跨机构协调比技术本身难 10 倍 —— 谁主导、谁出资、谁拥有模型都是开会能开半年的问题。

SECTION

TEE — 硬件安全区，数据进出明文不可见

典型场景： - 银行卡 CVV 验证（输入加密进 TEE 算完即销毁） - 政务数据统计分析（人口分布 / 经济指标，不需训模型） - 医疗数据联合查询（多个医院某病种的统计）

工程要点： - 硬件依赖：Intel SGX / AMD SEV-SNP / ARM TrustZone - 数据进 TEE 前已用各方公钥加密，TEE 内解密 → 计算 → 加密 → 输出 - 远程证明（Remote Attestation）：使用方能验证 TEE 真实性 - 性能比明文低 5-10×（加密 / 解密 / 边界穿越开销）

工程难点：① 硬件信任链（如果 Intel 后门怎么办？）② 安全区内代码必须开源审计 ③ Side-Channel 攻击防御。

适合"算"，不适合"训" —— TEE 内存有限，跑不了大模型。

SECTION

MPC — 多方互不信任的密码学协议

典型场景： - 联合统计：3 家公司算"我们 3 家的总收入"，但谁都不知道对方收入 - 加密求交集：2 家电商找"我俩的共同客户"，但不暴露各自客户名单 - 隐私拍卖：所有人出价，最高价者中标，但其他人的出价永远保密

工程要点： - 不需要可信第三方（不像联邦学习有协调器，TEE 有硬件厂商） - 通信开销巨大：O(n²) 量级，n 是参与方数 - 算法工程化难：每种 MPC 协议（SS / GC / OT）都有不同性能特性 - 实战工具：MP-SPDZ / Sharemind / Cybernetica

核心限制：性能。MPC 比明文慢 100-10000×（取决于协议和数据量）。所以适合"小数据 / 高敏感"，不适合"大数据 / 高吞吐"。

SECTION

三层架构 — 数据空间不只是"算"

把可信数据空间简化成"用 TEE / FL / MPC 算就完了"是新人误区。真实架构有三层：

第一层 · 数据资产层：数据目录（什么数据在哪）+ Schema 元数据（字段含义）+ 责任主体（谁的数据，谁授权）+ 敏感度分级（公开 / 内部 / 秘密 / 机密）。

第二层 · 流通授权层：数据使用申请 + 审批工作流 + 时长限制 + 用途记录 + 撤销机制。每次跨域使用必须留痕，可被监管事后审计。

第三层 · 计算执行层：根据数据敏感度自动选择 TEE / FL / MPC。低敏感度可以联邦学习，高敏感度必须 MPC + TEE 双重保护。

工程上 70% 工作在前两层，只有 30% 在密码学算法。这是新团队最容易低估的事实。

SECTION

全程可审计 — 操作即记录

可信数据空间的"可信"不只是"数据看不见"，还要"操作可追溯"。

每次数据使用记录：申请人 / 用途 / 时间 / 输入 hash / 输出 hash / 计算路径 / 完成状态。

区块链存证：联盟链（Hyperledger Fabric / FISCO BCOS）上链关键操作 —— 这一步的目的是"防篡改"，不是"分布式"。监管事后审计时，账本可证明操作真实发生且未被篡改。

监管接入：工信部 / 网信办 / 数据局等监管部门可随时审计任意一次使用。这不是"做给监管看"，是"被监管约束才能正常运转"。

法律映射：数据安全法 + 个人信息保护法的具体条款必须能映射到系统具体功能。法律不是文档，是工程约束。

SECTION

工程难点 — 治理＞技术

做完 5 个真实可信数据空间项目后的最大感受：密码学算法是最不难的部分。

真正难的是：

跨部门责权边界：A 部门的数据 B 部门要用，谁授权？谁担责？数据出问题谁背锅？这些不是技术问题，是组织问题。

主数据治理：什么数据是公开 / 内部 / 秘密 / 机密？标准建立 = 半年起步，落地 = 1 年起步。没有这一步，所有"可信计算"都是空中楼阁。

用户教育：让业务部门理解"数据可用不可见"是赋能不是限制。这需要无数次现场培训 + 真实案例 + 试错。

实战经验：长沙市大数据中心项目，30% 工作量在计算技术，70% 工作量在治理流程。先把治理打扎实，再选具体技术 —— 反过来必然项目搁浅。

SUMMARY · 总结

Cheat Sheet

8 条可信数据空间工程取舍

01·"数据可用不可见、数据计算不复制" —— 八字工程目标
02·三条主流路径：FL（多方训练）/ TEE（硬件加密计算）/ MPC（密码学协议）
03·联邦学习适合"训"，但跨机构协调比技术难 10 倍
04·TEE 适合"算"，依赖硬件信任链，性能损失 5-10×
05·MPC 不需可信第三方，但通信 O(n²)，慢 100-10000×
06·三层架构：资产 / 流通 / 计算 — 70% 工作在前两层
07·全程可审计：链上存证 + 监管接入 + 法律映射
08·治理＞技术 — 30% 计算 / 70% 治理是真实工作量分配

可信数据空间的难点不在算法，
在"组织信任的工程化表达"。
先做扎实治理，再选具体技术 —— 反过来必然搁浅。

青莲 · idant

可信数据空间：联邦学习 / TEE / MPC 三种实现路径

"既要又要" — 政务数据流通的悖论

三种主流路径 — 联邦学习 / TEE / MPC

联邦学习 — 跨机构联合训练 ML

TEE — 硬件安全区，数据进出明文不可见

MPC — 多方互不信任的密码学协议

三层架构 — 数据空间不只是"算"

全程可审计 — 操作即记录

工程难点 — 治理＞技术

8 条可信数据空间工程取舍

返回笔记列表

需要做可信数据空间 / 政务数据流通？

"既要又要" — 政务数据流通的悖论

三种主流路径 — 联邦学习 / TEE / MPC

联邦学习 — 跨机构联合训练 ML

TEE — 硬件安全区，数据进出明文不可见

MPC — 多方互不信任的密码学协议

三层架构 — 数据空间不只是"算"

全程可审计 — 操作即记录

工程难点 — 治理 ＞ 技术

8 条可信数据空间工程取舍

返回笔记列表

需要做可信数据空间 / 政务数据流通？

工程难点 — 治理＞技术