aws reinvent 2019 Inferentia详解

中国站 LIVE
AWS 机器学习推理芯片 Inferentia 详解
张铮
合作伙伴资深解决方案架构师
AWS
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
议程
背景介绍
AWS Inferentia 介绍
AWS Neuron 介绍
Amazon Elastic Compute Cloud (Amazon EC2) Inf1 实例
用户案例
众多用户选择 AWS 运行机器学习工作负载
“推理”成本在机器学习基础架构成本中占很大比例
机器学习训练
(<10%)
机器学习推理
(>90%)
使用定制芯片优化机器学习性能
AWS Inferentia 简介
AWS 独家定制：从芯片、软件到服务器 AWS Inferentia
Memory Memory
Memory Memory
4 个 NeuronCores 内存内存
最高 128 TOPS Neuron

TPB 62
TPB 6
Core
Neuron
TPB 63
TPB
Core 7
Neuron
缓存缓存
Engine
2 级内存
- 大容量片上缓存和 DRAM 内存
TPB 61 TPB 64
TPB 5
Neuron
Neuron TPB 8
Neuron
Neuron
支持 FP16、BF16、INT8 数据类型 Core Core
Engine Engine
缓存缓存
芯片间高速互联 Memory
Memory
Memory
Memory
内存内存
在高负载情况下依然提供低延迟推理
NeuronCore
管道
超低延迟
全带宽
AWS Neuron 简介
支持在 AWS Inferentia 上实现高支持所有主流框架
性能深度学习推理的软件开发套件
编译器
运行时
性能分析和调试工具
github.com/aws/aws-neuron-sdk
AWS Neuron
支持论坛
AWS Neuron 概览
编译部署剖析
Neuron 运行时 Neuron 工具

(NRT)
C:\>code --version
1.1.1
Neuron 编译器 Neuron Binary

(NCC) (NEFF)
Neuron 特色
智能分区
自动优化神经网络的
计算
Neuron 特色
自动 FP32
智能分区转换
自动优化神经网络的输入 FP32 训练的模

计算型，Neuron 可自动
转为 BF16
Neuron 特色
自动 FP32 NeuronCore
智能分区转换管道
自动优化神经网络的输入 FP32 训练的模超低延迟

计算型，Neuron 可自动全带宽
转为 BF16
Neuron 特色
自动 FP32 NeuronCore NeuronCore

智能分区转换管道组
自动优化神经网络的输入 FP32 训练的模超低延迟并发运行多个模型

计算型，Neuron 可自动全带宽
转为 BF16
Neuron 运行时
部署
使用 Neuron 工具进行性能分析
性能分析
专用于机器学习推理的 Inf1 实例
Inf1 实例完全由 AWS 定制开发
高性能
低成本
Amazon EC2 Inf1 实例类型一览
AWS
内存 Inferentia AWS Inferentia Amazon EBS
实例规模 vCPU (GiB) 存储芯片芯片间互联网络带宽带宽
inf1.xlarge 4 8 仅 EBS 1 N/A 高达 25 Gbps 高达 3.5 Gbps
inf1.2xlarge 8 16 仅 EBS 1 N/A 高达 25 Gbps 高达 3.5 Gbps
inf1.6xlarge 24 48 仅 EBS 4 有 25 Gbps 3.5 Gbps
inf1.24xlarge 96 192 仅 EBS 16 有 100 Gbps 14 Gbps
• 提供 4 种规格 • 第 2 代 Intel Xeon 可扩展 • 将支持应用于Amazon

处理器 SageMaker、Amazon EKS 和
Amazon ECS
• 单芯片和多芯片实例 • 最高 100 Gbps 网络带宽
云中最佳性价比的机器学习推理实例
吞吐量 OD 价格吞吐量：每推断成本：
实例类型 (Seq/Sec) ($/小时) 每推断成本 Inf1 vs. G4 Inf1 vs. G4
inf1.24xlarge 19,200 $7.619 $0.0003968

3.28x 40.7%
G4.12xlarge 5,846 $3.912 $0.0006692
上述结果源自使用 TensorFlow 端到端运行 BERT 模型所进行的测试
相比 Amazon EC2 G4 实例， Amazon EC2 Inf1 可提供最高 3

倍的吞吐量并且每个推理的成本可降低 40%
在机器学习推理方面，是最高性价比的实例类型
立即尝试 Amazon EC2 Inf1 实例！
Amazon EC2 Inf1 实例目前已在 US-East-1 (N. Virginia) 和 US-West-2 (Oregon) 上线
更多区域即将提供！
Amazon EC2 Inf1 实例支持按需、预留和 Spot 购买选项，此外也可包含在 Savings Plan 中
1 年标准预留实例 3 年标准预留实例
实例规模按需（40% 折扣）（60% 折扣）
inf1.xlarge $ 0.368/小时 $ 0.221/小时 $ 0.147/小时

inf1.2xlarge $ 0.584/小时 $ 0.351/小时 $ 0.234/小时
Amazon EC2 上的机器学习推理部署选项
定制芯片基于 GPU 基于 CPU
AWS EC2 Inf1 实例 Amazon EC2 G4 实例 Amazon EC2 C5 实例
可使用通用机器学习框架的需要访问 CUDA、CuDNN 或对推理性能要求较低的应用程序
应用程序 TensorRT 库的应用程序
由 AWS Inferentia 驱动基于 NVIDIA T4 GPU 的 Amazon 支持 AVX-512/VNNI 指令集的

EC2 G4 实例 Intel Skylake CPU
机器学习推理最佳性价比的实例
相比 Amazon EC2 G4 实例，推理成本
最多可降低 40%
已全面发布！已全面发布！已全面发布！

Alexa 服务概述
Alexa 云服务自动语音识别
识别
语音命令
识别结果
自然语言理解
识别结果
意图
Alexa技能
意图
“播放”指令
文字到语音
文字到语音 (TTS) 文字
输出语音
Alexa 神经网络文字到语音概述
梅尔频谱
语言输入表达语音
上下文生成语音合成
（序列到序列网络）（神经网络声音合成）
• 侧重于语音表达 • 侧重于高保真语音信号
• 依赖于特定讲话人和风格 • 不依赖特定讲话人和风格
神经网络文字到语音转
换的挑战 —— 低延迟
输出语音的延迟应尽可能保持最
小，吞吐量则应尽可能最大
换的挑战 —— 高内存
占用
上下文的生成是一种序列到序列
模型
推理性能受制于内存带宽
由于需要处理整条句子，导致出
现延迟
换的挑战 —— 高运算
量
高密度运算
受制于计算能力，比如需要
90GFLOP 才能生成 1 秒时长的
输出语音
需要非常高的吞吐量
换的挑战 —— 高成本
截至目前，很多用户依然在使用
基于 GPU 的 Amazon EC2 P3 和
G4 实例进行推理
单个推理的成本较高
同时客户也在探寻低成本，低延
迟并且高吞吐率的方法
Alexa TTS 迁移至 Amazon EC2 Inf1 —— 易于迁移
Alexa TTS 迁移至 Amazon EC2 Inf1 —— 架构
Inferentia1 Inferentia2
运行为 NeuronCore 管道运行为 NeuronCore 组
Neuron Neuron Neuron Neuron Neuron Neuron Neuron Neuron

Core Core Core Core Core Core Core Core
缓存缓存缓存缓存缓存缓存缓存缓存
TTS 流程
语音合成 1 语音合成 2
上下文生成
语音合成 3 语音合成 4
Alexa TTS 迁移至 Amazon EC2 Inf1
在相同延迟相当的情况下，Alexa 常规语音生成的推理成本可降至最低
140% < 延迟预算

126%
120%
100% 100% 105%
100%
75% 最低成本
80%
60% 55%
40%
20%
0%
语音生成的成本延迟
P3 G4 Inf1
Alexa 长文本语音生成的推理（如图书、新闻）获益更大
120%
100%
100%
80% 74%
最低成本
60%
45%
40%
20%
0%
语音生成的成本
P3 G4 Inf1
通过进一步软件优化，Alexa 将能全面发挥 Inf1 的优势进而获得更大收益
140%
126%
120%
100% 100%
100%
81%
80% 75%
最低成本
60%
37%
40%
20%
0%
语音生成的成本延迟
P3 G4 Inf1
立即体验
Thank you!

aws reinvent 2019 Inferentia详解

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

aws reinvent 2019 Inferentia详解

Uploaded by

Copyright:

Available Formats

中国站 LIVE

AWS 机器学习推理芯片 Inferentia 详解

Amazon Elastic Compute Cloud (Amazon EC2) Inf1 实例

最高 128 TOPS Neuron

Neuron 运行时 Neuron 工具

Neuron 编译器 Neuron Binary

自动优化神经网络的 输入 FP32 训练的模

自动优化神经网络的 输入 FP32 训练的模 超低延迟

自动 FP32 NeuronCore NeuronCore

自动优化神经网络的 输入 FP32 训练的模 超低延迟 并发运行多个模型

inf1.xlarge 4 8 仅 EBS 1 N/A 高达 25 Gbps 高达 3.5 Gbps

inf1.2xlarge 8 16 仅 EBS 1 N/A 高达 25 Gbps 高达 3.5 Gbps

inf1.6xlarge 24 48 仅 EBS 4 有 25 Gbps 3.5 Gbps

inf1.24xlarge 96 192 仅 EBS 16 有 100 Gbps 14 Gbps

• 提供 4 种规格 • 第 2 代 Intel Xeon 可扩展 • 将支持应用于Amazon

inf1.24xlarge 19,200 $7.619 $0.0003968

上述结果源自使用 TensorFlow 端到端运行 BERT 模型所进行的测试

相比 Amazon EC2 G4 实例， Amazon EC2 Inf1 可提供最高 3

Amazon EC2 Inf1 实例支持按需、预留和 Spot 购买选项，此外也可包含在 Savings Plan 中

inf1.xlarge $ 0.368/小时 $ 0.221/小时 $ 0.147/小时

由 AWS Inferentia 驱动 基于 NVIDIA T4 GPU 的 Amazon 支持 AVX-512/VNNI 指令集的

已全面发布！ 已全面发布！ 已全面发布！

Neuron Neuron Neuron Neuron Neuron Neuron Neuron Neuron

140% < 延迟预算

通过进一步软件优化，Alexa 将能全面发挥 Inf1 的优势进而获得更大收益

You might also like

自动优化神经网络的输入 FP32 训练的模

自动优化神经网络的输入 FP32 训练的模超低延迟

自动优化神经网络的输入 FP32 训练的模超低延迟并发运行多个模型

由 AWS Inferentia 驱动基于 NVIDIA T4 GPU 的 Amazon 支持 AVX-512/VNNI 指令集的

已全面发布！已全面发布！已全面发布！