实时AI—微软喊你来玩

AI应用信息1年前 (2024)发布 XIAOT

什么是“Project BrAInwave”

就在8月23日，微软团队推出了一个新的深度学习加速平台——

Project Brainwave。该系统专为实时 AI 而设计——这意味着它接到处理请求时，就会以超低的延迟时间来处理。因为云基础设施需要处理实时数据流，无论是搜索查询、视频、传感器流，还是与用户的交互。所以实时人工智能正变得越来越重要。

它可分为以下3个层面：

✦高性能的分布式系统架构;

✦整合到 FPGA 硬件上的深度神经网络（DNN）引擎；

✦编译器和runtime。

分布式架构

首先，脑波（Brainwave）利用微软在过去几年部署的大量FPGA基础设施。通过将高性能的FPGAs直接连到数据中心网络，把DNNs作为硬件微服务，进而使DNN可以映射到一个远程FPGAs池，再由loop中的服务器调用。

由于CPU不需要再处理传入的请求，因此，该系统架构减少了延迟；同时，FPGA处理请求的速度与网络接受请求的一样快，因此允许非常高的吞吐量。

强大的DNN

其次，使用强劲有力的“软”DNN处理单元（DPU），将其整合到商品级的FPGAs上。许多大公司和许多初创公司正在开发硬化处理单元。虽然这些芯片具有很高的峰值计算性能，但是它们在设计时必须选择自己的运算符和数据类型，这限制了它们的灵活性。

那Brainwave是如何提高灵活性的呢？

Project Brainwave采用了一种不同的方法，它提供了横跨多数据类型的设计。该设计将FPGAs的ASIC数字信号处理模块和合成逻辑结合在一起从而提供了一个更大、更优化的功能处理单元。这种方法充分利用了FPGA的灵活性。

某不愿透露姓名的专家说

神奇的编译器

第三，Project Brainwave整合了一个软件堆，旨在支持广泛流行的深度学习框架。支持微软的认知工具箱（CNTK）和谷歌的Tensorflow，并计划支持许多其他的工具包。我们已经定义了一个基于图的中间表示，可转换那些常见的框架上训练模型，编译到高性能的基础设施上。

除此之外，还有专家要说话。。。。。。

使用英特尔的 Stratix 10 FPGA，Brainwave 不需要任何 batching 就能在大型 GRU （gated recurrent unit）达到 39.5 Teraflops 的性能。

Eric Chung and Jeremy Fowers

也就是说：

该测试使用Microsoft的定制8位浮点格式（“ms-fp8”），不会遭受准确度损失，测试结果表明使用英特尔的 Stratix 10 FPGA，Brainwave 在大型GRU可达到39.5Teraflops。在性能方面，Brainwava架构每一个周期保持了超过 130000 个计算操作，并且由每 10 个周期发布的宏指令驱动。“Brainwave”项目实现了前所未有的实时AI性能水平。

看了这么多东西，这个玩意现在长什么样子？

废话不说，直接上图！