许多大大小小的组织都利用云来满足他们在存储和人工智能解决方案中的数据相关需求。为了保护敏感数据的隐私和安全,必须使用机密计算。对于那些不知道的人,这基本上是一组硬件和软件控件,用于管理数据的共享和使用方式,以及数据所有者如何验证这些过程。
Intel 和 AMD CPU 已经支持创建可信执行环境 (TEE),以在 CPU 级别为机密计算提供支持。TEE 确保数据在静态、传输中甚至在使用中都保持加密状态。它还提供远程证明以验证硬件配置并仅授予对所需算法的数据访问权限。Microsoft 在 Azure 上的机密计算解决方案也使用了相同的原理。
但是,现有的解决方案与内置在 CPU 中的 TEE 相关联,因此Microsoft现在正在寻求将此边界扩展到 GPU,以确保数据可以安全地卸载到更强大的硬件以满足计算需求。对于组织和Microsoft的 AI 工作负载,这一点更为重要正在与英伟达合作在这方面。
微软注意到这不是一个简单的实现,因为它需要保护 GPU 免受各种攻击,同时确保 Azure 主机对管理活动有足够的控制。即使在硬件层面,实施也不应该对散热和性能产生负面影响,理想情况下,也不应该需要对现有 GPU 微架构进行更改。该公司的愿景包括机密 GPU 的以下功能:
- 一种新模式,其中 GPU 上的所有敏感状态(包括 GPU 内存)与主机隔离
- GPU 芯片上的硬件信任根,可以生成可验证的证明,捕获 GPU 的所有安全敏感状态,包括所有固件和微码
- 扩展 GPU 驱动程序以验证 GPU 证明,建立与 GPU 的安全通信通道,并透明地加密 CPU 和 GPU 之间的所有通信
- 通过 NVLink 透明加密所有 GPU-GPU 通信的硬件支持
- 客户操作系统和管理程序支持将 GPU 安全地附加到 CPU TEE,即使 CPU TEE 的内容已加密
微软曾表示已经在英伟达构建了机密计算能力Azure 上的 A100 张量核心 GPU。这是通过称为安培保护内存 (APM) 的新功能实现的。实施细节本质上是高度技术性的,您可以在此处查看它们。
此解决方案现在可通过 Azure 机密 GPU VM 提供私人预览版。组织可以使用最多四个Nvidia的 VMA100 Tensor Core GPU 目前用于其 Azure 工作负载。微软的下一步措施包括确保更广泛地采用这些做法并与Nvidia合作在其 Hopper 架构上,以进一步增强现有实现。