You are on page 1of 6

计算机研究与发展 I

SSN1000-1239
?CN11-1777 ?TP

our
nalo
fCompu
terRe
sea
rchandDe
vel
opmen
t 50(9):1799-1804,2013

深度学习的昨天 、今天和明天

余 凯 贾 磊 陈雨强 徐 伟
(百度 北京 100085)

yuka
i@ba
idu.
com)

De
epLe
arn
ing:Ye
ste
rday,Today,andTomo
rrow

i,J
Yu Ka i i,Chen Yuq
aLe iang,andXu We


Baidu,Be
ijng100085)

Abst
ract Machi
nelea
rningi
sanimport
anta
r e
ao fa
rti
fic
iali
nte
lli
gence.Si
nce1980s,hugesucc
ess
ha
sbe en a
chi
evedi
nt erms o
fal
gor
ithms,theoy,and app
r l
ica
tions.From 2006,a new mach
ine

earn
ing pa
rad
igm,named de
ep l
earn
ing,ha
s be
en popu
lari
nthe r
ese
arch commun
ity,and ha

becomea huge wave o
ft echnol
ogy t
rend f
orb i
g dat
a and ar
tif
ici
ali
nte
lli
gence.Deep lea
rn i
ng
simul
atst
e hehie
rarch
icals
tructureo
fhumanbr a
in,proces
singda
taf r
omlowerleve
ltoh
i ghe
rl evel,

andgadua
lly compos
ing mor
eand mo
res emant
icconc
epts.I
nr ec
entyears,Goog
le, Micr
osoft,
IBM,andBaiduhaveinve
stedal
otofresour
cesint
othe R&D ofdeepl
earn
ing,makingsi
gnif
icant
prog
resseson spee
ch re
cogni
tion,image underst
anding,natura
llanguage proc
ess
ing,and on
line
adve
rti
sing.I
nt ermsofthecontr
ibu
tiont
or eal-worl
dappl
ica
ti ,
ons de
epl ea
rningisperhapst
hemost
suc
ces
s f
ulpr
ogressmadebythe machi
nelea
rningcommuni
tyinthel
ast10yea
rs.Inthi
sa r
tic
le,we
wil
lgiveahigh-l
eve
lover
view aboutthepastandcur
ren
ts t
ageofdeeple
arn
ing,di
scussthe ma
in
cha
ll s,andsha
enge reourv
iewsont
hef
utur
edeve
lopmen
tofde
epl
earn
ing.

Keyword
s machinele
arning;de
epl
earn
ing;spe
echr
ecogn
iton;
i imager
ecogn
iton;na
i tur
all
anguage
pr
oce
ssi ;
ng onl
ineadvert
ising

摘 要 机器学习是人工智能领域的一个重要学科 .自从 20 世纪 80 年代以来,机器学习在算法、理论和


2006 年以来,机 器 学 习 领 域 中 一 个 叫 “深 度 学 习”的 课 题 开 始 受 到 学 术 界
应用等方面都获得巨大成功 .
广泛关注,到今天已经成为互联网大数据和人工智能的一个热潮 .深度学习通过建立类似于人脑的分层
模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射
IBM、百度等拥有大数据 的 高 科 技 公 司 相 继 投 入 大 量 资 源 进 行 深 度 学 习 技 术
关系 .近年来,谷歌、微软、
研发,在语音、图像、自然语言、在线广告等领域取得显著进展 .从对实际应用的贡献来说,深度学习可能
是机器学习领域最近这十年来最成功的研究方向 .将对深度学习 发展 的过 去 和 现 在 做 一 个 全 景 式 的 介
绍,并讨论深度学习所面临的挑战,以及将来的可能方向 .

关键词 机器学习;深度学习;语音识别;图像识别;自然语言处理;在线广告

中图法分类号 TP18

2012 年 6 月,《纽约时报》披露了谷歌的 Goog le 由著名的斯坦福大学的机器学习教授 Ng 和 在 大 规


n 项目 吸引 了 公 众 的 广 泛 关 注 .这 个 项 目 是 模计算机系统方面的世界顶尖专家 De
an 共同主导,

1]
Br
ai ,

收稿日期:
2013-08-16;修回日期:
2013-08-19
1800 计算机研究与发展 2013,50(
9)

用 16000 个 CPU Co
re的并行计算平台训练一种称 对未知事件做预测 .这 种 基 于 统 计 的 机 器 学 习 方 法
为“深度 神 经 网 络 ”(
deep neur
alne rks,DNN)
two 比起过去基于人工 规 则 的 系 统,在 很 多 方 面 显 示 出
的机器学习模型,在 语 音 识 别 和 图 像 识 别 等 领 域 获 优越性 .这个时候的人工神经网络,虽然也被称作多
得了巨大的成功 .
2012 年 11 月,微 软 在 中 国 天 津 的 层感 知 机 (mu
lti
-laye
rpe
rcep
tron),由 于 多 层 网 络
一次活动 上 公 开 演 示 了 一 个 全 自 动 的 同 声 传 译 系 训练的困难,实际使 用 的 多 数 是 只 含 有 一 层 隐 层 节
统,讲演者用英文演讲,后台的计算机一气呵成自动 点的浅层模型 .
完成语音识别、英中机器翻译和中文语音合成,效果 20 世 纪 90 年 代 ,各 种 各 样 的 浅 层 机 器 学 习
非常流畅 .据报道,后面支撑的关键技术也是 DNN, 模 型 相 继 被 提 出 ,比 如 支 撑 向 量 机 (
suppo
rtve
cto

或者深度 学 习 (
deepl
earn

[]
ng,DL)2 .2013 年 的 1 machi s,SVM ),Boos
ne t
ing,最 大 熵 方 法 (比 如
月,在中国最大的互 联 网 搜 索 引 擎 公 司 百 度 的 年 会 l
ogis
ticreg
res
sion,LR)等 .这些模型的结构基本上
上,创始人兼 CEO 李彦宏高调宣布要成立百度研究 可以 看 成 带 有 一 层 隐 层 节 点 (如 SVM,Boos
ting),
院,其中第一个重点方向的就是深度学习,并为此而 或没有隐层节点(如 LR).这些模型在无论是理论分
成 立I
nst
itu
teo
fDe
epLe
arn
i IDL).这是百度成
ng ( 析还是应用都获得了巨大的成功 .相比较之下,由于
立 10 多年以来第一次 成 立 研 究 院 [3].
2013 年 4 月, 理论分析的难度,而 且 训 练 方 法 需 要 很 多 经 验 和 技
《麻省理工学院技术评论》(MIT T
echno
logy Re
view) 巧,这个时期多层人工神经网络反而相对较为沉寂 .
杂志 将 深 度 学 习 列 为 2013 年 十 大 突 破 性 技 术 2000 年以来互联网的高 速 发 展,对 大 数 据 的 智

bre
akt
hrought
echno
logy)之首 .

4] 能化分析和预测提 出 了 巨 大 需 求,浅 层 学 习 模 型 在
为什么深度学习受到学术届和工业界如此广泛 互联网应用上获得 了 巨 大 的 成 功 .最 成 功 的 应 用 包
的重视?深度学习技术研发面临什么样的科学和工 括搜索广 告 系 统 (比 如 谷 歌 的 Adwo
rds、百 度 的 凤
程问题?深度学习带来的科技进步将怎样改变人们 巢系统)的 广 告 点 击 率 CTR 预 估、网 页 搜 索 排 序
的生活?本文将简 要 回 顾 机 器 学 习 在 过 去 20 多 年 (比如雅虎和微软的搜索引擎)、垃圾邮件过滤系统、
的发展,介绍深度学习的昨天、今天和明天 . 基于内容的推荐系统,等等 .
2 第二次浪潮:深度学习
1.
1 机器学习的两次浪潮 :从浅层学习到 深 度 2006 年,加 拿 大 多 伦 多 大 学 教 授,机 器 学 习 领
学习 域的泰 斗 Hi
nton 和 他 的 学 生 Sa
lakhu
t d
inov 在 顶
尖学术刊物《科 学》上 发 表 了 一 篇 文 章 ,开 启 了 深

6]

在解释深度学 习 之 前,我 们 需 要 了 解 什 么 是 机 度学习在学术界和 工 业 界 的 浪 潮 .这 篇 文 章 有 两 个


器学习 .机器学习是人工智能的一个分支,而在很多 主要的讯息:
1)很 多 隐 层 的 人 工 神 经 网 络 具 有 优 异
时候,几乎成为人 工 智 能 的 代 名 词 .简 单 来 说,机 器 的特征学习能力,学 习 得 到 的 特 征 对 数 据 有 更 本 质
学习就是通过算法,使 得 机 器 能 从 大 量 历 史 数 据 中 的刻划,从而有利于可视化或分类; 2)深度神经网络
学习规律,从而对新 的 样 本 做 智 能 识 别 或 对 未 来 做 在训练上 的 难 度,可 以 通 过" 逐 层 初 始 化 ”(
laye
r-
预测 .从 20 世纪 80 年代末期以来,机器学习的发展 wi
sepr
e-t
rai
ning)来有效克服,在 这 篇 文 章 中,逐 层
大致 经 历 了 两 次 浪 潮:浅 层 学 习 (
sha
llowl
earn
ing) 初始化是通过无监督学习实现的 .
和深度学习( deeplea
rnng).需 要 指 出 是,机 器 学 习
i 自 2006 年以来,深 度 学 习 在 学 术 界 持 续 升 温 .
历史阶段的划分是一个仁者见仁,智者见智的事情, 斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为
从不同的维度来看 会 得 到 不 同 的 结 论 .这 里 我 们 是 研究深度学习的重镇 .
2010 年,美国国防部 DARPA
从机器学习模型的层次结构来看的 . 计划首次资助深度学习项目,参与方有斯坦福大学、
1 第一次浪潮:浅层学习
1. 纽约大学 和 NEC 美 国 研 究 院 .支 持 深 度 学 习 的 一
20 世纪 80 年 代 末 期,用 于 人 工 神 经 网 络 的 反 个重要依据,就是脑 神 经 系 统 的 确 具 有 丰 富 的 层 次
向传播 算 法 (也 叫 Back Pr
opaga
tion 算 法 或 者 BP 结构 .一 个 最 著 名 的 例 子 就 是 Hube
l-Wi
esl模 型,

算法)的发明,给机 器 学 习 带 来 了 希 望,掀 起 了 基 于 由于揭示了视觉神经的机理而曾获得诺贝尔医学与
统计 模 型 的 机 器 学 习 热 潮 [
.这 个 热 潮 一 直 持 续 到
5]
生理学奖 .除了仿生学的角度,目前深度学习的理论
今天 .人们发现,利用 BP 算 法 可 以 让 一 个 人 工 神 经 研究还基本处于起 步 阶 段,但 在 应 用 领 域 已 经 显 现
网络模型从大量训 练 样 本 中 学 习 出 统 计 规 律,从 而 巨大能量 .
2011 年 以 来,微 软 研 究 院 和 谷 歌 的 语 音
余 凯等:深度学习的昨天、今天和明天 1801

识别研究人员先后采用 DNN 技 术 降 低 语 音 识 别 错 的 .发现一个好的特征,要求开发人员对待解决的问


误率 20%~30% ,是 语 音 识 别 领 域 10 多 年 来 最 大 题要有很深入的理解 .而达到这个程度,往往需要反
的突破性进 展 .
2012 年 DNN 技 术 在 图 像 识 别 领 域 复的摸索,甚至是 数 年 磨 一 剑 .因 此,人 工 设 计 样 本
取得惊人的 效 果,在 ImageNe
t评 测 上 将 错 误 率 从 特征,不是一个可扩展的途径 .
26% 降低到 15%.在这一 年,
DNN 还 被 应 用 于 制 药 深度 学 习 的 实 质,是 通 过 构 建 具 有 很 多 隐 层 的
公司的 Druge Ac
tiv
ity 预 测 问 题,并 获 得 世 界 最 好 机器学习模型和海 量 的 训 练 数 据,来 学 习 更 有 用 的
成绩,这一重要成果被《纽约时报》报道 . 特征,从而最终提升分类或预测的准确性 .所以,“深
正如文章开 头 所 描 述 的,今 天 谷 歌、微 软、百 度 度模型”是手段,“特 征 学 习”是 目 的 .区 别 于 传 统 的
等知名的拥有大数 据 的 高 科 技 公 司 争 相 投 入 资 源, 浅层学习,深度学习的不同在于:
1)强调了模型结构
占领深度学习的技 术 制 高 点,正 是 因 为 他 们 都 看 到 的深度,通 常 有 5 层、
6 层、甚 至 10 多 层 的 隐 层 节
了大数据时代,更加 复 杂 且 更 加 强 大 的 深 度 模 型 的 2)明确突出了 特 征 学 习 的 重 要 性,也 就 是 说,通
点;
能深刻揭 示 海 量 数 据 里 所 承 载 的 负 责 而 丰 富 的 信 过逐层特征变换,将 样 本 在 原 空 间 的 特 征 表 示 变 换
息,并对未来或未知事件做更精准的预测 . 到一个新特征空间,从而分类或预测更加容易 .
与人 工 规 则 构 造 特 征 的 方 法 相 比,利 用 大 数 据
2 大数据与深度学习 来学习特征,更 能 够 刻 划 数 据 的 丰 富 内 在 信 息 .所
以,在未来的几年 里,我 们 将 看 到 越 来 越 多 的 例 子,
在工 业 界 一 直 有 一 个 很 流 行 的 观 点:在 大 数 据 深度模型应用于大数据,而不是浅层的线性模型 .
条件下,简单的机器 学 习 模 型 会 比 复 杂 模 型 更 加 有
效 .比如说,在很多 的 大 数 据 应 用 中,最 简 单 的 线 性 3 深度学习的应用
模型得到大量使用 .而 最 近 深 度 学 习 的 惊 人 进 展 促
使我们也许到了要 重 新 思 考 这 个 观 点 的 时 候 .简 而 1 语音识别
3.
言之,在大数据情 况 下,也 许 只 有 比 较 复 杂 的 模 型, 语音 识 别 系 统 长 期 以 来,描 述 每 个 建 模 单 元 的
或者说表达能力强 的 模 型,才 能 够 充 分 发 掘 海 量 数 统计概 率 模 型 时 候,大 都 是 采 用 的 混 合 高 斯 模 型
据中蕴藏的丰富信 息 .现 在 我 们 到 了 需 要 重 新 思 考 GMM).这种模型由 于 估 计 简 单,适 合 海 量 数 据 训

“大数据 + 简单模型”的 时 候 .运 用 更 强 大 的 深 度 模 练,同时有成熟的 区 分 度 训 练 技 术 支 持,长 期 以 来,
型,也许我们能从大 数 据 中 发 掘 出 更 多 的 有 价 值 的 一直在语音识别应 用 中 占 有 垄 断 性 地 位 .但 是 这 种
信息和知识 . 混合高斯模型本质 上 是 一 种 浅 层 网 络 建 模,不 能 够
为了 理 解 为 什 么 大 数 据 需 要 深 度 模 型,先 举 一 充分描述特征的状态空间分布 .另外,
GMM 建 模 的
个例子 .语音识别已 经 是 一 个 大 数 据 的 机 器 学 习 问 特征维数一般是几 十 维,不 能 充 分 描 述 特 征 之 间 的
题,在其声学建模部分,通常面临的是十亿到千亿级 相关性 .最后 GMM 建 模 本 质 上 是 一 种 似 然 概 率 建
别的训练样本 .在谷歌的一个语音识别实验中,发现 模,虽然区分度训练 能 够 模 拟 一 些 模 式 类 之 间 的 区
训练后的 DNN 对训练样本 和 测 试 样 本 的 预 测 误 差 分性,但是能力有限 .
基本相当 .这是非常违反常识的,因为通常模型在训 微软 研 究 院 的 语 音 识 别 专 家 L
i 和 Dong 从
练样本上的预测误 差 会 显 著 小 于 测 试 样 本 .只 有 一 2009 年开 始 和 深 度 学 习 专 家 Hi
nton 合 作 .
2011 年
个解释,就是由于大数据里含有丰富的信息维度,即 微软基于深度神经 网 络 的 语 音 识 别 研 究 取 得 成 果,
便是 DNN 这样的高容量复 杂 模 型 也 是 处 于 欠 拟 合 彻底 底 改 变 了 语 音 识 别 原 有 的 技 术 框 架 [7].采 用 深
的状态,更 不 必 说 传 统 的 GMM 声 学 模 型 了 .所 以 度神经网络后,可以充分描述特征之间的相关性,可
在这个例子里我们看出,大数据需要深度学习 . 以把连续多帧的语 音 特 征 并 在 一 起,构 成 一 个 高 维
浅层 模 型 有 一 个 重 要 特 点,就 是 假 设 靠 人 工 经 特征 .最终的深度神 经 网 络 可 以 采 用 高 维 特 征 训 练
验来抽取样本的特 征,而 强 调 模 型 主 要 是 负 责 分 类 来模拟的 .由于深度 神 经 网 络 采 用 模 拟 人 脑 的 多 层
或预测 .在模型的运 用 不 出 差 错 的 前 提 下 (比 如,假 结果,可以逐级地进行信息特征抽取,最终形成适合
设互联网公司聘请的是机器学习的专家),特征的好 模式分类的较理想 特 征 .这 种 多 层 结 构 和 人 脑 处 理
坏就成为整个系统性能的瓶颈 .因此,通常一个开发 语音图像信息的时候,是有很大的相似性的 .深度神
团队中更 多 的 人 力 是 投 入 到 发 掘 更 好 的 特 征 上 去 经网络的建模技术,在实际线上服务时,能够无缝地
1802 计算机研究与发展 2013,50(
9)

和传统的语音识别 技 术 相 结 合,在 不 引 起 任 何 系 统 技术,但 最 重 要 的 是 GPU 带 来 的 计 算 能 力 提 升 和


额外耗费情况下大幅度地提升了语音识别系统的识 更多的训练数据 .百度在 2012 年底将深度学习技术
别率 .其在线的使用方法具体如下:在实际解码过程 成功应 用 于 自 然 图 像 OCR 识 别 和 人 脸 识 别 等 问
中,声 学 模 型 仍 然 是 采 用 传 统 的 HMM 模 型,语 音 题,并推出相应的桌面和移动搜索产品,在 2013 年,
模型仍然是采用传 统 的 统 计 语 言 模 型,解 码 器 仍 然 深度学习 模 型 被 成 功 应 用 于 一 般 图 片 的 识 别 和 理
是采用传统的动态 WFST 解码器 .但是在声学模型 解 .从百度的经验来看,深度学习应用于图像识别不
的输出分布计算时,完 全 用 神 经 网 络 的 输 出 后 验 概 但大大提升了准确 性,而 且 避 免 了 人 工 特 征 抽 取 的
率除以一个 先 验 概 率 来 代 替 传 统 HMM 模 型 中 的 时间消耗,从而大大提高了在线计算效率 .可以很有
GMM 的 输 出 似 然 概 率 .百 度 实 践 中 发 现,采 用 把握地说,从现在开始,深度学习将取代人工特征 +
DNN 进行声音建 模 的 语 音 识 别 系 统 的 相 比 于 传 统 机器学习的方法而逐渐成为主流图像识别方法 .
的 GMM 语音识别系统 而 言,相 对 误 识 别 率 能 降 低 3 自然语言处理
3.
25%.最终在 2012 年 11 月的时候,上线了第一款基 除了 语 音 和 图 像,深 度 学 习 的 另 一 个 应 用 领 域
于 DNN 的语音搜索系统,成为最早采用 DNN 技术 问题自然语言处理(
NLP).经过几十年的发展,基于
进行商业语音服务的公司之一 . 统计的模型已经成为 NLP 的主流,但是作为统计方
国际上谷歌也采用了深度神经网络进行声音建 法之一的人工神经 网 络 在 NLP 领 域 几 乎 没 有 受 到
模,和百度一起是最 早 的 突 破 深 度 神 经 网 络 工 业 化 重视 .本文作者之一 徐 伟 曾 最 早 应 用 神 经 网 络 于 语
应用的企业之一 .但 是 谷 歌 产 品 中 采 用 的 深 度 神 经 言模型 [11].加 拿 大 蒙 特 利 尔 大 学 教 授 Beng
io等于
网络有 4~5 层 [8],而百度采用的深度神经网络多达 2003 年提出 用 embedd
ing 的 方 法 将 词 映 射 到 一 个
9 层 .这 种 结 构 差 异 的 核 心 其 实 是 百 度 更 好 的 解 决 矢量表示 空 间,然 后 用 非 线 性 神 经 网 络 来 表 示 N-
了深度神经网络在 线 计 算 的 技 术 难 题,从 而 百 度 线 am 模型 12 .世界上最早的深度学习用于 NLP 的
Gr
[ ]

上产品可以采用更 复 杂 的 网 络 模 型 .这 将 对 于 未 来 研究工 作 诞 生 于 NEC Labs Ame


ria13 ,其 研 究 员

[ ]

拓展海量语料的 DNN 模型训练有更大的优势 . Co


llob
ert和 We
ston 从 2008 年 开 始 采 用 embedd
ing
2 图像识别
3. 和多层一维卷积的结 构,用 于 POSt aggi ,
ng Chunk-
图像是 深 度 学 习 最 早 尝 试 的 应 用 领 域 .早 在 ng,Named En
i tit
y Re
cogn
iton,Seman
i tic Ro
le
1989 年,
LeCun (现 纽 约 大 学 教 授 )和 他 的 同 事 们 Labe
ling 等 4 个典型 NLP 问 题 .值 得 注 意 的 是,他
就发表了卷积神经网络( convol
uti
onn e
ura
lnetwors,
k 们将同一 个 模 型 用 于 不 同 任 务,都 能 取 得 与 s
tat
e-
CNN)的工作 CNN 是 一 种 带 有 卷 积 结 构 的 深 度 t相当的准 确 率 .最 近 以 来,斯 坦 福 大 学 教

9]
. o
f-t
he-a

神经网络,通常至少有 2 个非线性可训练的卷积层、 授 Manning 等人在深度学习用于 NLP 的 工 作 也 值
2 个 非 线 性 的 固 定 卷 积 层 (又 叫 poo
lingl r)和 1
aye 得关注 [14].
个全连接层,一共 至 少 5 个 隐 含 层 .
CNN 的 结 构 受 总的来说,深度学习在 NLP 上取得的进展没有
到著名的 Hube
l-Wi
esl生物视觉模型的启发,尤 其
e 在语音图像上那么 令 人 影 响 深 刻 .一 个 很 有 意 思 的
是 模 拟 视 觉 皮 层 V1 和 V2 层 中 s
imp
lec
ell和 悖论是:相比于声音和图像,语言是唯一的非自然信
comp
lexc
ell的行为 .在很长时间里,
CNN 虽然在小 号,是完全由人类大脑产生和处理的符号系统,但是
规模的问题上,比如说手写数字,取得当时世界最好 模仿人脑结构的人工神经网络确似乎在处理自然语
结 果,但 一 直 没 有 取 得 巨 大 成 功 .这 主 要 原 因 是 言上没有显现明显优势?我们相信深度学习在 NLP
CNN 在大规模图像上效果不好,比如像素很多的自 方面有很大的探索空间 .从 2006 年图像深度学习成
然图片内容理解,所 以 没 有 得 到 计 算 机 视 觉 领 域 的 为学 术 界 热 门 课 题 到 2012 年 10 月 Hi
nton 在
足够 重 视 .这 个 情 况 一 直 持 续 到 2012 年 10 月, t上 的 重 大 突 破,经 历 了 6 年 时 间 .我 们 需
ImageNe
Hi
nton 和他的两个学生在著名的 ImageNe
t问题上 要有足够耐心 .
用更深的 CNN 取 得 世 界 最 好 结 果,使 得 图 像 识 别 4 搜索广告 CTR 预估
3.
大踏步前进 [
10]
.在 Hi
nton 的模型里,输入就 是 图 像 搜索 广 告 是 搜 索 引 擎 的 主 要 变 现 方 式,而 按 点
的像素,没有用到任何的人工特征 . 击付费(
cos
tperclck,CPC)又 是 其 中 被 最 广 泛 应

这个惊人的结果为什么在之前没有发生?原因 用的计费模式 .在 CPC 模式下,预估的 CTR ( pCTR)
当然包 括 算 法 的 提 升,比 如 d
r t等 防 止 过 拟 合
opou 越准确,点击率就会越高,收益就越大 .通常,搜索广
余 凯等:深度学习的昨天、今天和明天 1803

告的 pCTR 是 通 过 机 器 学 习 模 型 预 估 得 到 .提 高 的好处,比如更容 易 做 理 论 分 析 .另 外,针 对 具 体 应


pCTR 的 准 确 性,是 提 升 搜 索 公 司、广 告 主、搜 索 用 用问题,我们如何设 计 一 个 最 适 合 的 深 度 模 型 来 解
户三方利益的最佳途径 . 决问题?我们已经看到,无论在图像深度模型,还是
传统上,谷 歌、百 度 等 搜 索 引 擎 公 司 以 l
ogi
sti
c 语言深度模型,似乎 都 存 在 深 度 和 卷 积 等 共 同 的 信

egr
ess
i LR)作为预估模型 .而从 2012 年开始,
on ( 息处理结构 .甚至对于语音声学模型,研究人员也在
百度开始意识到模 型 的 结 构 对 广 告 CTR 预 估 的 重 探索卷积深度网络 .那么一个更有意思的问题是,是
要性:使用扁平 结 构 的 LR 严 重 限 制 了 模 型 学 习 与 否存在可能建立一个通用的深度模型或深度模型的
抽象特征的能力 .为了突破这样的限制,百度尝试将 建模语言,作为统一的框架来处理语音、图像和语言?
DNN 作用于搜索广告,而这其中最大的挑战在于当 另外,对 于 怎 么 用 深 度 模 型 来 表 示 象 语 义 这 样
前的计算能力还无法接受 1011 级别的原始广告特征 的结构化的信息还 需 要 更 多 的 研 究 .从 人 类 进 化 的
作为输入 .作 为 解 决,在 百 度 的 DNN 系 统 里,特 征 角度来看,语言的能 力 是 远 远 滞 后 于 视 觉 和 听 觉 的
数从 10 数量级被降到了 10 ,从而能被 DNN 正 常
11 3
能力而发展的 .而除了人类以外,还有很多动物具有
的学习 .这套深度学习系统已于 2013 年 5 月开始服 很好的识别物体和 声 音 的 能 力 .因 此 从 这 个 角 度 来
务于百度搜索广告系统,每天为数亿网民使用 . 说,对于神经网络这样的结构而言,语言相较于视觉
DNN 在搜索广 告 系 统 中 的 应 用 还 远 远 没 到 成 和听觉是更为困难 的 一 个 任 务 .而 成 功 的 解 决 这 个
熟,其中 DNN 与 迁 移 学 习 的 结 合 将 可 能 是 一 个 令 难题对于实现人工智能是不可缺少的一步 .
人振 奋 的 方 向 .使 用 DNN,未 来 的 搜 索 广 告 将 可 能 3 工程问题
4.
借助网页搜索的结 果 优 化 特 征 的 学 习 与 提 取;亦 可 需要指出的是,对于互联网公司而言,如何在工
能通过 DNN 将 不 同 的 产 品 线 联 系 起 来,使 得 不 同 程上利用大规模的并行计算平台来实现海量数据训
的变现产品不管数据多少,都能互相优化 .我们认为 练,是各个公司从事 深 度 学 习 技 术 研 发 首 先 要 解 决
未来的 DNN 一 定 会 在 搜 索 广 告 中 起 到 更 重 要 的 的问题 .传统的大数 据 平 台 如 Hadoop,由 于 数 据 处
作用 . 理的l
at y 太高,显然不适合需要频繁迭代的深度
enc
学习 .现有成 熟 的 DNN 训 练 技 术 大 都 是 采 用 随 机
4 深度学习研发面临的重大问题 SGD)方 法 训 练 的 .这 种 方 法 本 身 不 可 能 在
梯度法(
多个 计 算 机 之 间 并 行 .即 使 是 采 用 GPU 进 行 传 统
1 理论问题
4. 的 DNN 模型进 行 训 练,其 训 练 时 间 也 是 非 常 漫 长
理论 问 题 主 要 体 现 在 两 个 方 面,一 个 是 统 计 学 的 .一般训练几千小 时 的 声 学 模 型 所 需 要 几 个 月 的
习方面的,另一个 是 计 算 方 面 的 .我 们 已 经 知 道,深 时间 .而随着互联网服务的深入,海量数据训练越来
度模型相比较于浅层模型有更好的对非线性函数的 越重要,
DNN 这种缓慢的训练速度必然不能满足互
表示能力 .具体来 说,对 于 任 意 一 个 非 线 性 函 数,根 联网服务应 用 的 需 要 .谷 歌 搭 建 的 Di
stBe
lif,是 一

据神经网络的 un
ive
rsa
lappr
oxima
tiont
heo
ry,我们 个采用普通服务器 的 深 度 学 习 并 行 计 算 平 台,采 用
一定能找到一个浅层网络和一个深度网络来足够好 异步算法,由很多的 计 算 单 元 独 立 的 更 新 同 一 个 参
的表示 .但是某些类函数,深度网络只需要少得多的 数服务器的模型参 数,实 现 了 随 机 梯 度 下 降 算 法 的
参数就可以表示 .但 是,可 表 示 性 不 代 表 可 学 习 性 . 并行化,加快了模型训练速度 .与谷歌采用普通服务
我们需要了解深度 学 习 的 样 本 复 杂 度,也 就 是 我 们 器不同,百度的多 GPU 并行计算的计算平台,克 服
需要多少训练样本 才 能 学 习 到 足 够 好 的 深 度 模 型 . 了传统 SGD 训练的不能并行的技术难题,神经网络
在另一方面来说,我 们 需 要 多 少 的 计 算 资 源 才 能 通 的训练已经可以在 海 量 语 料 上 并 行 展 开 .可 以 预 期
过训练得到更好的 模 型,理 想 的 计 算 优 化 方 法 是 什 未来随着海 量 数 据 训 练 的 DNN 技 术 的 发 展,语 音
么?由于深度模型 都 是 非 凸 函 数,这 方 面 的 理 论 研 图像系统的识别率还会持续提升 .
究极其困难 . 目前最大的深度模型所 包 含 的 参 数 大 约 在 100
2 建模问题
4. 亿的数量级,还不及人脑的万分之一 .而由于计算成
在推进深度学习的学习理论和计算理论的同时, 本的限制,实际运用 于 产 品 中 的 深 度 模 型 更 是 远 远
我们是否可以提出 新 的 分 层 模 型,使 其 不 但 具 有 传 低于这个水平 .而深度模型的一个巨大优势在于,在
统深度模型所具有 的 强 大 表 示 能 力,而 且 具 有 其 他 有海量数据的情况 下,很 容 易 通 过 增 大 模 型 来 达 到
1804 计算机研究与发展 2013,50(
9)

更高的准确率 .因此,发展适合深度模型的更高速的 [
10] La
rge Sc
ale Vi
sua
l Re
cogn
iti
on Cha
llenge 2012

ILSVRC2012)[
OL]. [
2013-08-01].h
ttp:?www.
image-
硬件也将是提高深度模型的识别率的重要方向 . ?
ne
t.o
rgcha
? llenge
s?LSVRC
?2012
?

11] Xu W, Rudn
icky A.Can a
rti
fic
ial neur
al ne
two
rk l
ear

5 总 结

anguage mode
ls [
C] ?
?Pr
oco
fIn
t Con
f on S
tat
ist
ica

LanguagePr
oce
ssng.2000:1-13

深度 学 习 带 来 了 机 器 学 习 的 一 个 新 浪 潮,受 到 [
12] Beng
io Y, Ducha
rme R, Vi
nc t P, e
en tal. A neur
al
从学术届到工业界的广泛重视,也导致了“大数据 + r
pobab
ili
sti
cl l [
anguage mode J]. J
our
nal o
f Ma
chi
ne
深度模型”时代的 来 临 .在 应 用 方 面,深 度 学 习 使 得 Le
arn
ingRe
sea
rch,2003,3:1137-1155

语音图像的智能识 别 和 理 解 取 得 惊 人 进 展,从 而 推 [
13] Co
llobe
rtR,We
stonJ,Bo
ttou L,e
tal.Na
tur
all
anguage

poc
ess
ing (Almo
st)f
rom s
cra
tch [
J].J
our
nalo
f Ma
chi
ne
动人工智能和人 机 交 互 大 踏 步 前 进 .同 时 pCTR 这
Le
arn
ingRe
sea
rch,2011,12:2493-2537
样的复杂机器学习 任 务 也 得 到 显 著 提 升 .如 果 我 们

14] So rR,L
che inC,Ng A.Pa
rsi
ngna
tur
als
cene
sandna
tur
al
能在理论、建 模 和 工 程 方 面,突 破 深 度 学 习 技 术 面
anguage wi
l thr
ecur
siveneur
al Ne rks [
two C]?
?Pr
oco
fthe
临一系列难题,我们 将 大 大 加 速 推 进 人 工 智 能 向 前 28
thI
ntCon
fon Ma
chi
neLe
arn
i rmany:I
ng.Ga nte
rna
tiona

发展 . Ma
chi
neLe
arn
ingSo
cie
ty,2011

参 考 文 献 Yu Ka
i. Re
cei
ved h
is PhD f
rom t
he
Un
ive
rsi
tyo
f Mun
ichi
n2004.Pr
ofe
sso
r.

1] Ma
rko
ffJ.How manyc
ompu
ter
stoi
den
tif
yac
at?[
N]The Hi
s ma
in r
ese
arch i
nte
res
ts i
ncl
ude
New Yo s,2012-06-25
rk Time ma
chi
nel
ear
ning,imagep
roc
ess
ing,e
tc.

2] Ma
rko
ffJ.Sc
ien
tis
tss
e r
epomi
sei
nde
ep-l
ear
ni r
ngpog
rams

N].TheNew Yo s,2012-11-23
rk Time

3] L
iYanhong.To be
lievei
nthe powe
roft
echno
logy [
R].

iaLe
i.Re
cei
vedh
isPhDdeg
reei
nspe
ech
Be
ii
jng:Ba
idu,2013 (
inCh
ine
se)
(李彦宏 .2012 百度年会主题报告:相信技术的力量[

ecogn
iton f
i rom t
he I
nst
itu
te o

R].北
京:百度,2013) Au
toma
tion, Ch
ine
se Ac
ademy o

4] 10Br
[ eak
thr
ough Te
chno
log
ies2013 [
N].MIT Te
chno
logy Sc
ienc
es,i
n 2003. Hi
s ma
inr
ese
arch
Rev
iew,2013-04-23 i
nte
res
ts i
ncl
ude spe
ech r
ecogn
iton,


5] Rume
lha
rt D, Hi
nton G, Wi
ll
iams R. Le
arn
ing ma
chi
nel
ear
nnng, d
i i i
tals

g gna
lpr
oce
ssng and na
i tua


epr
esen
tat
ions by ba
ck-p
ropaga
ting e
rro
rs[
J]. Na
t e,
ur

anguagep
roc
ess
ing.
1986,323(
6088):533-536

6] Hi
nton G,Sa
lakhu
tdi
novR.Reduc
ingt
hed
imens
iona
lit
yof
Ch
enYuq
iang.Re
cei
vedh
is Ma
ste
rdeg
ree
da
ta wi
th neur
alne rks [
two J].Sc
i e,2006,313(
enc 504).
i:
Do

rom Shangha
i J
iao
tong Un
ive
rsi
ty.
10.
1126
?sc
ienc
e.1127647

7] Dah
lG,Yu Dong,Deng L
i,e
tal.Con
tex
t-dependen
tpr
e- Eng
ine
er. Hi
s ma
in r
ese
arch i
nte
res
ts

rai
ned de
ep neur
al ne
two
rks f
orl
arge vo
cabu
lar
y spe
ech i
ncl
udema
chi
ngl
ear
ning.

ecogn
iton [
i J]. IEEE Tr
ans on Aud
io, Spe
ech, and
LanguagePr
oce
ssng.2012,20(
i 1):30-42

8] J
ait
ly N, Nguyen P, Nguyen A,e
tal. App
lic
ati
on o

Xu We
i.Re
cei
vedh
is Ma
ste
rdeg
reef
rom

pet
rai
nedde
ep neur
alne
two
rkst
ola
rgevo
cabu
lar
yspe
ech
Ca
rneg
ie Me
llon Un
ive
rsi
tyi
n 2001.Hi


ecogn
iton [
i C]?
?Pr
oco
fIn
ter
spe
ech, Gr
enob
le,Fr e:
anc
ma
inr
ese
arch i
nte
res
tsi
ncl
ude c
ompu
ter

nte
rna
tiona
lSpe
echCommun
ica
tion As
soc
iat
ion,2012

9] LeCun Y,Bo
ser B, Denke
r J S,e
tal.Ba
ckp
ropaga
tion v
ison, da
i ta mi
ning, ma
chi
ng l
ear
ning

app
lied t
o handwr
itt
en z
ipc
ode r
ecogn
iton [
i J]. Neur
al e
spe
cia
llyde
epl
ear
ning.
Compu
tat
ion,1989,1:541-551

You might also like