Professional Documents
Culture Documents
张铮
合作伙伴资深解决方案架构师
AWS
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
议程
背景介绍
AWS Inferentia 介绍
AWS Neuron 介绍
用户案例
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
众多用户选择 AWS 运行机器学习工作负载
“推理”成本在机器学习基础架构成本中占很大比例
机器学习训练
(<10%)
机器学习推理
(>90%)
使用定制芯片优化机器学习性能
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Inferentia 简介
AWS 独家定制:从芯片、软件到服务器 AWS Inferentia
Memory Memory
Memory Memory
4 个 NeuronCores 内存 内存
芯片间高速互联 Memory
Memory
Memory
Memory
内存 内存
在高负载情况下依然提供低延迟推理
NeuronCore
管道
超低延迟
全带宽
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Neuron 简介
支持在 AWS Inferentia 上实现高 支持所有主流框架
性能深度学习推理的软件开发套件
编译器
运行时
性能分析和调试工具
github.com/aws/aws-neuron-sdk
AWS Neuron
支持论坛
AWS Neuron 概览
编译 部署 剖析
C:\>code --version
1.1.1
智能分区
自动优化神经网络的
计算
Neuron 特色
自动 FP32
智能分区 转换
自动 FP32 NeuronCore
智能分区 转换 管道
部署
使用 Neuron 工具进行性能分析
性能分析
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
专用于机器学习推理的 Inf1 实例
Inf1 实例完全由 AWS 定制开发
高性能
低成本
Amazon EC2 Inf1 实例类型一览
AWS
内存 Inferentia AWS Inferentia Amazon EBS
实例规模 vCPU (GiB) 存储 芯片 芯片间互联 网络带宽 带宽
在机器学习推理方面,是最高性价比的实例类型
立即尝试 Amazon EC2 Inf1 实例!
Amazon EC2 Inf1 实例目前已在 US-East-1 (N. Virginia) 和 US-West-2 (Oregon) 上线
更多区域 即将提供!
1 年标准预留实例 3 年标准预留实例
实例规模 按需 (40% 折扣) (60% 折扣)
机器学习推理最佳性价比的实例
相比 Amazon EC2 G4 实例,推理成本
最多可降低 40%
自然语言理解
识别结果
意图
Alexa技能
意图
“播放”指令
文字到语音
文字到语音 (TTS) 文字
输出语音
Alexa 神经网络文字到语音概述
梅尔频谱
语言输入表达 语音
上下文生成 语音合成
(序列到序列网络) (神经网络声音合成)
• 侧重于语音表达 • 侧重于高保真语音信号
• 依赖于特定讲话人和风格 • 不依赖特定讲话人和风格
神经网络文字到语音转
换的挑战 —— 低延迟
输出语音的延迟应尽可能保持最
小,吞吐量则应尽可能最大
神经网络文字到语音转
换的挑战 —— 高内存
占用
上下文的生成是一种序列到序列
模型
推理性能受制于内存带宽
由于需要处理整条句子,导致出
现延迟
神经网络文字到语音转
换的挑战 —— 高运算
量
高密度运算
受制于计算能力,比如需要
90GFLOP 才能生成 1 秒时长的
输出语音
需要非常高的吞吐量
神经网络文字到语音转
换的挑战 —— 高成本
截至目前,很多用户依然在使用
基于 GPU 的 Amazon EC2 P3 和
G4 实例进行推理
单个推理的成本较高
同时客户也在探寻低成本,低延
迟并且高吞吐率的方法
Alexa TTS 迁移至 Amazon EC2 Inf1 —— 易于迁移
Alexa TTS 迁移至 Amazon EC2 Inf1 —— 架构
Inferentia1 Inferentia2
运行为 NeuronCore 管道 运行为 NeuronCore 组
TTS 流程
语音合成 1 语音合成 2
上下文生成
语音合成 3 语音合成 4
Alexa TTS 迁移至 Amazon EC2 Inf1
在相同延迟相当的情况下,Alexa 常规语音生成的推理成本可降至最低
40%
20%
0%
语音生成的成本 延迟
P3 G4 Inf1
Alexa TTS 迁移至 Amazon EC2 Inf1
Alexa 长文本语音生成的推理(如图书、新闻)获益更大
120%
100%
100%
80% 74%
最低成本
60%
45%
40%
20%
0%
语音生成的成本
P3 G4 Inf1
Alexa TTS 迁移至 Amazon EC2 Inf1
140%
126%
120%
100% 100%
100%
81%
80% 75%
最低成本
60%
37%
40%
20%
0%
语音生成的成本 延迟
P3 G4 Inf1
立即体验
Thank you!
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.