You are on page 1of 40

中国站 LIVE

AWS 机器学习推理芯片 Inferentia 详解

张铮
合作伙伴资深解决方案架构师
AWS

© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
议程
背景介绍

AWS Inferentia 介绍

AWS Neuron 介绍

Amazon Elastic Compute Cloud (Amazon EC2) Inf1 实例

用户案例
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
众多用户选择 AWS 运行机器学习工作负载
“推理”成本在机器学习基础架构成本中占很大比例

机器学习训练
(<10%)

机器学习推理
(>90%)
使用定制芯片优化机器学习性能
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Inferentia 简介
AWS 独家定制:从芯片、软件到服务器 AWS Inferentia
Memory Memory
Memory Memory
4 个 NeuronCores 内存 内存

最高 128 TOPS Neuron


TPB 62
TPB 6
Core
Neuron
TPB 63
TPB
Core 7
Neuron
缓存 缓存
Engine
2 级内存
- 大容量片上缓存和 DRAM 内存
TPB 61 TPB 64
TPB 5
Neuron
Neuron TPB 8
Neuron
Neuron
支持 FP16、BF16、INT8 数据类型 Core Core
Engine Engine
缓存 缓存

芯片间高速互联 Memory
Memory
Memory
Memory
内存 内存
在高负载情况下依然提供低延迟推理

NeuronCore
管道

超低延迟
全带宽
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Neuron 简介
支持在 AWS Inferentia 上实现高 支持所有主流框架
性能深度学习推理的软件开发套件

编译器

运行时

性能分析和调试工具

github.com/aws/aws-neuron-sdk
AWS Neuron
支持论坛
AWS Neuron 概览

编译 部署 剖析

Neuron 运行时 Neuron 工具


(NRT)

C:\>code --version
1.1.1

Neuron 编译器 Neuron Binary


(NCC) (NEFF)
Neuron 特色

智能分区

自动优化神经网络的
计算
Neuron 特色

自动 FP32
智能分区 转换

自动优化神经网络的 输入 FP32 训练的模


计算 型,Neuron 可自动
转为 BF16
Neuron 特色

自动 FP32 NeuronCore
智能分区 转换 管道

自动优化神经网络的 输入 FP32 训练的模 超低延迟


计算 型,Neuron 可自动 全带宽
转为 BF16
Neuron 特色

自动 FP32 NeuronCore NeuronCore


智能分区 转换 管道 组

自动优化神经网络的 输入 FP32 训练的模 超低延迟 并发运行多个模型


计算 型,Neuron 可自动 全带宽
转为 BF16
Neuron 运行时

部署
使用 Neuron 工具进行性能分析

性能分析
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
专用于机器学习推理的 Inf1 实例
Inf1 实例完全由 AWS 定制开发

高性能

低成本
Amazon EC2 Inf1 实例类型一览
AWS
内存 Inferentia AWS Inferentia Amazon EBS
实例规模 vCPU (GiB) 存储 芯片 芯片间互联 网络带宽 带宽

inf1.xlarge 4 8 仅 EBS 1 N/A 高达 25 Gbps 高达 3.5 Gbps

inf1.2xlarge 8 16 仅 EBS 1 N/A 高达 25 Gbps 高达 3.5 Gbps

inf1.6xlarge 24 48 仅 EBS 4 有 25 Gbps 3.5 Gbps

inf1.24xlarge 96 192 仅 EBS 16 有 100 Gbps 14 Gbps

• 提供 4 种规格 • 第 2 代 Intel Xeon 可扩展 • 将支持应用于Amazon


处理器 SageMaker、Amazon EKS 和
Amazon ECS
• 单芯片和多芯片实例 • 最高 100 Gbps 网络带宽
云中最佳性价比的机器学习推理实例
吞吐量 OD 价格 吞吐量: 每推断成本:
实例类型 (Seq/Sec) ($/小时) 每推断成本 Inf1 vs. G4 Inf1 vs. G4

inf1.24xlarge 19,200 $7.619 $0.0003968


3.28x 40.7%
G4.12xlarge 5,846 $3.912 $0.0006692

上述结果源自使用 TensorFlow 端到端运行 BERT 模型所进行的测试

相比 Amazon EC2 G4 实例, Amazon EC2 Inf1 可提供最高 3


倍的吞吐量并且每个推理的成本可降低 40%

在机器学习推理方面,是最高性价比的实例类型
立即尝试 Amazon EC2 Inf1 实例!
Amazon EC2 Inf1 实例目前已在 US-East-1 (N. Virginia) 和 US-West-2 (Oregon) 上线
更多区域 即将提供!

Amazon EC2 Inf1 实例支持按需、预留和 Spot 购买选项,此外也可包含在 Savings Plan 中

1 年标准预留实例 3 年标准预留实例
实例规模 按需 (40% 折扣) (60% 折扣)

inf1.xlarge $ 0.368/小时 $ 0.221/小时 $ 0.147/小时


inf1.2xlarge $ 0.584/小时 $ 0.351/小时 $ 0.234/小时
inf1.6xlarge $ 1.905/小时 $ 1.143/小时 $ 0.762/小时
inf1.24xlarge $ 7.619/小时 $ 4.572/小时 $ 3.048/小时
Amazon EC2 上的机器学习推理部署选项
定制芯片 基于 GPU 基于 CPU
AWS EC2 Inf1 实例 Amazon EC2 G4 实例 Amazon EC2 C5 实例
可使用通用机器学习框架的 需要访问 CUDA、CuDNN 或 对推理性能要求较低的应用程序
应用程序 TensorRT 库的应用程序

由 AWS Inferentia 驱动 基于 NVIDIA T4 GPU 的 Amazon 支持 AVX-512/VNNI 指令集的


EC2 G4 实例 Intel Skylake CPU

机器学习推理最佳性价比的实例
相比 Amazon EC2 G4 实例,推理成本
最多可降低 40%

已全面发布! 已全面发布! 已全面发布!


© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Alexa 服务概述
Alexa 云服务 自动语音识别
识别
语音命令
识别结果

自然语言理解
识别结果

意图

Alexa技能
意图

“播放”指令

文字到语音
文字到语音 (TTS) 文字

输出语音
Alexa 神经网络文字到语音概述

梅尔频谱
语言输入表达 语音

上下文生成 语音合成
(序列到序列网络) (神经网络声音合成)

• 侧重于语音表达 • 侧重于高保真语音信号

• 依赖于特定讲话人和风格 • 不依赖特定讲话人和风格
神经网络文字到语音转
换的挑战 —— 低延迟

输出语音的延迟应尽可能保持最
小,吞吐量则应尽可能最大
神经网络文字到语音转
换的挑战 —— 高内存
占用
上下文的生成是一种序列到序列
模型

推理性能受制于内存带宽

由于需要处理整条句子,导致出
现延迟
神经网络文字到语音转
换的挑战 —— 高运算

高密度运算
受制于计算能力,比如需要
90GFLOP 才能生成 1 秒时长的
输出语音
需要非常高的吞吐量
神经网络文字到语音转
换的挑战 —— 高成本

截至目前,很多用户依然在使用
基于 GPU 的 Amazon EC2 P3 和
G4 实例进行推理
单个推理的成本较高
同时客户也在探寻低成本,低延
迟并且高吞吐率的方法
Alexa TTS 迁移至 Amazon EC2 Inf1 —— 易于迁移
Alexa TTS 迁移至 Amazon EC2 Inf1 —— 架构
Inferentia1 Inferentia2
运行为 NeuronCore 管道 运行为 NeuronCore 组

Neuron Neuron Neuron Neuron Neuron Neuron Neuron Neuron


Core Core Core Core Core Core Core Core
缓存 缓存 缓存 缓存 缓存 缓存 缓存 缓存

TTS 流程

语音合成 1 语音合成 2
上下文生成
语音合成 3 语音合成 4
Alexa TTS 迁移至 Amazon EC2 Inf1
在相同延迟相当的情况下,Alexa 常规语音生成的推理成本可降至最低

140% < 延迟预算


126%
120%
100% 100% 105%
100%
75% 最低成本
80%
60% 55%

40%
20%
0%

语音生成的成本 延迟

P3 G4 Inf1
Alexa TTS 迁移至 Amazon EC2 Inf1
Alexa 长文本语音生成的推理(如图书、新闻)获益更大

120%
100%
100%

80% 74%
最低成本
60%
45%
40%

20%

0%

语音生成的成本

P3 G4 Inf1
Alexa TTS 迁移至 Amazon EC2 Inf1

通过进一步软件优化,Alexa 将能全面发挥 Inf1 的优势进而获得更大收益

140%
126%
120%
100% 100%
100%
81%
80% 75%
最低成本
60%
37%
40%
20%
0%

语音生成的成本 延迟

P3 G4 Inf1
立即体验
Thank you!

© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

You might also like