You are on page 1of 62

。 一


斥 V 疋 v巧

V请 巧
  "

' ? 巧

V 与 午  

: ,

、 ?

; . ; ;



_

冰 哨 違 巧 斧 巧




,


尸 
 

 ,

Li v   1


rv

 

,  ,

诗 ,

 V 

 ?
 '


 -

 > t 



与  ,

 


吉 无

v . ,

芒 皆  密 级


保密期 限 

: 导 4 乂 


硕± 学位论文

普 通 话 音 节 时 长 与 其 所携 帯 信 息 量关 系 的 语 音 实 验 研 究


■  '



\  乂 .   

P h o n et i cE mp i r i ca l S t u d yo nt h eR e a t o n s h pb e t w e e n


l i i

 | 

Sy l l a b eD u
l ra t i o n a n d C o r re s
po
n d n g n fo r m a t o n

 
i I i

 .





C a r r e d  nM a n d a nC h i n e s e 

ri
i i


\ :




餐 




学号 
F 1 3 20 1 055 
 

姓名 
蓝值  

学位类别 
文学硕± 

学 科 专 业 语 言 学 及 应 用 语 言 学 

指导教师 
圭修去 

完 成 时 间 2 0 1 6 年 4 月 


答辩 委 员 会  ?  

主 席 签 名 施春宏 — 


 


。 ?

i 







古 /

 *

'  i

' ?
l Aa


独 创 性 声 明 

_

本人 声 明 所 呈 交 的 学 位 论 文是 本 人 在 导 师 指 导 下 进行 的 研 究 工 作 及 取得 的

研究成果 。 据 我所知 , 除 了 文 中 特别 加 1


标注 和 致谢 的 地方 外 , 论 文 中 不 包 含其

他 人 己 经 发表 或 撰 写 过 的 研 究 成 果 也 不 包 含 为 获得 安徵 大 学 或 其他 教育 机 构 的


学 位 或 证 书 而 使用 过 的 椅 料 与 我 同 工 作 的 同 志 对 本研 究 所 做 的 任 何 贡 献 均 己


在论文 中 作 了 明 确 的 说 明 并表 示 谢 意 

学 位沦文作者 签 签字 日 期 :
年 ^




学 位 论 文 版 权使 用 授 权 书

本 学位论文作者 完 全 了 解 安徵大 学 有 关 保 留 、
使 用 学 位 论文 的 规 定 ,
有权

保 留 并 向 国家有关部 口 或 机构 送交论文 的 复 印 件和磁 盘 ,


允 许 论 文被 查 阀 和 借

阅 。
本 人 授农 安 徵 太 学 可 W 将 学 位 论 文 的 全 部 或 部 分 巧 容编 入有 关 数据库 进行 栓

索 , 可 W采用 影 印 、
缩 印或扫 描 等 复 制 手 段保 存 、
汇编 学 位论文 

( 保密 的 学 位论文在解 密 后 适用 本授 权 书 

学 位 论 文 作 者 签名 :
m 營心 .

呵fj/ 

签字 曰 期 :
年 月 曰 签字 曰 期 :

i w 年 又 月 /



5 7
摘要


言 语 交流 是 日 常生活 中 最重要 的 活动 之 而 言 语交流 的 实质 是 种 人与 人


一 一

之 间 信 息 交互 的 方式 既然是信 息 交互 那么每 个独立 的 语 音 单位 都携 带着其




, ,

独立 的 信 息量 , 从这个立足 点 出 发 文 章 从语 音 时长 的 角 度探索 其 与 信 息 量之 间

 ,

的 关 系 结 合 信 息 论 中 的 霍 夫 曼 编 码 原 理 与 互 信 息 理 论进 步解读 语 音 时 长和 信


息 量之 间 的 关系 

文章 W 普通话为研 究 客体 , 实 验 语 音 材料 的 来 源 均 来 自 中 央 人 民 广 播 电 台 

包 含新 闻 、 娱乐 、 生活 、 教 育 等各 类广播节 目 ,
保 证 了 材料 的 多 元 化 。
利用 语言

分析软件 p r a at 对语句 进 行独 立 切 分 并获 得每个语 音 单 位 的 时 长 且进 行 统 计 , 



确 保 时长之 间 横纵 向 比 较 的 公平 所有数据 都进 行 了 归 处理 建立 时长数据库




, 。

后 , 再 从 语 音 个 体 出 现 在 现代 汉 语 中 的 频 率 入 手 , 通过信 息 量计算 公 式得 出 其在

信 息论意 义上 的 信 息量 , 结 合 二 维 图 和 计算将 音 节 时 长和 信 息 量进行 联系 , 论证



两 者之 间 存在 的 联系 

本文分为 四 个 部分 

第 章 为绪论 主 要 介 绍 了 实 验语 音 学 的 背 景 关于音节 时长 的 国 内 外研究




, ,

现状 , 化及 文 章 研 究 的 目 的 、 意义和 方法 

第 二 章 为 音节 时 长数据 收集与 统计 ,
本 章 分为三个 部 分 , 首先对实验材料来

源和 语音 软件 p r a at 进行 简 单介 绍 ; 然后 将 实验材料来源 和 实验步骤 , 数 据 收集

并 如 何 建立数 据 库 进行 详 细 说 明 与 解 释 最 后 部分说 明 数据 归 处理 的 必要性




一 一

和 重要 佑

第三 章 为 音 节 时长 与 信 息 量之 间 的 研 究 本 章作 为 文 章 的 核 如 章 节分 为 四 部

 ,

分 第 部 分 对信 息 论 中 的 信 息 滴 和 霍 夫 曼 编 码 进 行 简 单 的 说 明 第 二 部 分根据


, ;

研 究 需 要 对所 有 的 实 验 数 据 进 行 了 分 类 , 并对数据 的 抽 样进 行 说 明 ; 第 兰 部 分通

过信 息 赌 的 计算 方 法得 出 所 测 音节包 含 的 信 息 量 之后 通过将 音节 时 长分为 时 长



 ,

最大值 、 平均 值 和 最 小 值分别 进行联系 比 较 , 最后 得 出 时 长 与 其携 带 信 息 量之 间



确 实存在联系 , 主 要表现为 时长较长 的 音节其所携 带 信 息 量较大 , 时长较短 的 音



节所携 带 信 息 量较 少 第 四 部 分 从 互信 息 量入手 得 出 信 息 量 和 音节 时 长 之 间 的 关


系 ; 互 信 息 量 的 采集 涉 及 工 作 量 较 大 且 需 要 找 寻 音 节 之 间 的 交 互 关 系 ,
因 此本文

在此部分只 做 了 小 部 分 的 测 试来 查 看 两 者 么 间 的 关 系 通 过计 算 所 测 短 时 音 节





的 互 信 息 量 得 出 了 时 长 较 短 的 音 节 所 携 带 的 交 互信 息 量 也 较 小 的 结 论 

第 四 章 为 结语 本 章 梳 理 了 全 文 的 脉络 并进 步说 明第H章得 出 的音节时


, ,

长和 其巧 带 信 息 量 抖 及 霍 夫 曼 编 巧之 间 的 关 系 同 时 也 说 明 了 文 章 研 究 有 待 改 进
; 

的 地方 并对将 来 进 步 的研究做 了 展望

, 

文 章通过 实 验语音 学 得 出 普通话 音 节 时 长 与 所携 带 信 息 量 之 间 的 关 系 从 ,




个全 新 的 角 度 去 探 索 语 言巧 信 息 论之 间 存 在 的 联 系 并希望 通 过 本文 为语 言 学 和
, 

计 算 机科 学 的 交 叉 研 究 做 出 微 薄 的 贡 献 

关键词 : 音节 时长 信息量 编码 关系




A b s t r a c t

Ve r b a l  c o m i m m i c at i o n  i s  o n e  o f  化 em o s ts i
g n i 打 c a n t  a c t i v i t i e s  i n  d a i l y  l i fe ,
化e

n a t u r e  o f  wh i c h  i s  a  m a n n e r  o f  i n t e r p e r s o n a l  i n fo r m at i o n  i n t e r a c t o n  S p e a k i n g  o f

 i .

i n fo r m at i o n e x c h a n g e  e v e r y  s i n g e  p h o n e t i c  un i t  c a r r

i e s  i n d e p e n d e n t  n fo r m a t i o n

 l i

c o nt e n t , o打 化e  b a s i s  o f w h i c h  t h i s  化 e s i s  i nv e s t i g at e s 
 化e r e l at i o 打 s h i
p b e w e e n  s y
t l l ab l e

d u r a t i o 打  a nd  i n fo r m a t i o n c o n t e n t . B e s i de s  H u ,
in an  C o d
f i n g  T h e o r y  a n d  M u t u a l

I n fo r m a t i o 打  T h e o r y  a r e  c o m b n e d  t o  f
i irth e r i  i nt e r p r e t  t h e  r e l at i o n s hi p b e tw e e n  s y

l l ab e

 l

d u r at i o n  a n d  i n fo r m at i o n  c o n t e n t 

T h e  r e s e a r c h  s ubj e c t  i s  M a n d a r i n  C h i n e s e  w it hal l e x i al sf


p e ri m e nt a l  m at e r ro m

C hi n a  n at i o n a l  r ad i o ,
i nc l u d ng ai l l  ki n d s  o f  b r o ad c as t i n g  p r o gr am s  s u c h  as  打 e w s 

e n t e r t a i nm e n t ,  l i fe ,
e d u c at i o n ,
et c : .  〇  e n s ur e  t h e  v ar
! : i e t y  o f  d a t a  S p e e c h  an a y s . l i 

so t w a r e  p r aat 
f i s  app l i e d  化 s e g m e n t  化es en t e n c e  i n d i v i d u a l l y  a n d  o b t a i n e a c h



y l l ab l e s  d ur a ti o 打  fo r  s t at i s t i c a l  a n a l y s i s . I n  o r d e r  化  m ak e  s ur e  t h e  d ur at i o n

c o m p ar
i s o n  m ad e  i s  fa r  b o i t h h o r
i z o n t a l y  a nd  o n g l l i t u din a l l
y ,  n o rm a l i z at i o n

pr o c e s s i n g i s  m ad e  t o  al lt h e  d at a  A f
t e r  e s t ab
. l i s hm e n t  o f  t h e  du r a t i o n  d a t ab a s e  t h e

 ,

c o rr e s i i e d  b y  i n d i v i d u a l  s y l l a b e  i s  c a l c u l a t e d  t hr o u g h
p o n d n g  i n fo r m at i o n c a r r 
 l

i n fo r m a t i o n  c a c 山 a t i n g  fo r m u l a  f
r o m  t h e  p e rs p e c t i v e  o f
l  t he i r r e q u e n c y  app e a
f re d n

i

c o nt e m p o r a r y
 C h i n e s e  T h e n  t h e  aut h o r  e
. l at e s  s y l ab l e  du r a t i o n  o  n fo r m at i o n
l 
 1; i

c o n t e nt  t h r o u

h  t w o d i m e n s i o 打 a l  p o t  a nd  c a l c u l a t o n  d e m o 打 s t r at i n g  t h e  c o n n e c t i o n s

l 
 i

be t w e e n  t hem 

C ur r e n t t he s i si sc o m
pr
i s e d  o f fo u r p a r t s 




C h ap t e r  o n e i s  i n tro d u c t i o 打 ,
w hi c h  n c u d e s  t h e  b a c k g r o u n d  o f  e x p e r
i l i m e n ta 

ph o n e t c s i

r e s e ar c hs i t u a t i o n  o f d o m e s t c  a n d  fo K g n  r e s e a r c h e s  o n  s y
 i i l l a b l e  d ur at i o n 

an d  o b e c t i v e s
j ,
si
gni f
i c an c e  a n d  m e t h o d o o g y  o f c ur r e n t  s t u d y l  

c h ap t e r t w o   i sco l l e c t i o n  an d  s t at i s t i c  o f  d at a , 
c o n s i s t i 打 go f  t hr e e  s e c t o 打 s i . F i r st l
y 

t h e  s o urc e o f  t h e e x p e r
i m e n t a m a t e r
i a l s  a nd s p e e c h  a n a y s l l i ss o t w a r e  a r e b r
f i ef y

 l

d i s cus s ed ;  s e c o n d l y  t h e  s o u r c e  o f  r e s e arc h  d a t a  a n d  r e s e a r c h  p r o c e d u r e s  w a y s  o f


 ,

e cti n s hi n g  d a t a b a s e  a r e  e l ab o r a t e d  n  d e t a i l th ene c


co l l
g  d at a  a n d  e s t a b l i i
; 
l as t l y ,
e s s i ty

I I I


an d s i
gni f c a n e  o f n o r m a l i
c zat i o 打
p ro c e 巧 n g  s  e x p l a n e d
i  i i i 

C h ap te r  thre e  i s 化6 a n al y s i s  o f  s

l l ab l e  d u r a t i o n  a n d  i 打 fo r m at i o n  c o nt e n t ,
wh i c h

i s  t h e  e s s e nti a l
 p ar t  o f  t h e w h o l e  th e s i s ,
i n c l u d i n g  fo u r  s e c t i o 打 s  To  b e g i 打 w i t h



i n fo r m at i o 打  e n t r o py  and  H u f
i n a n  c o d i n g  i n  I n fo r m at i o 打  T h e o r y  a r e  b r
i ef
l y  e x p l ai n e d 

s e c o nd l ,
i m e n t a l  d at a  i s  c l a s s i 打 e d  a c c o r d n g  化  r e s e a r c h  p u r p o s e  a n d  d a t a
y  a l l  e xp e r 
 i

s e l e ct i o ni s
j
us t i f
ied ; 
F urt h e r m o re ,
i n fo r m at i o 打  c o n t e n t  c a r r
i e d  i n  s y l l ab l e  du r at i o 打  i s

c a l c u l at e d  a n d  t h e  s
y l ab e  du r at i o 打 o f  s e l f
l l

i n fo r m at i o 打  i s  o b t a i n e d ; f na
i l l
y ,
化e

K l a t i o n s h i p  b e t w e e 打  m fo m i at o n  C O 打 t e n t  a n d  s y l l ab l e  d u r at i o n  i s  行 g u r e d  o u t
i ,  t h at  i 

化 e l o n g e r  s y l l a b l e  d u r a t o n  t h e  m o r e  i n fo r m a t i o n  i t  c a r r


i e d  a s  w e l l  a s  t h e  s h o r t


y l l ab l e  d ur at i o n ,
t he l e s s  m u t u a l  i nfo r m a t i o 打  i t  c o n t e n t e d 

C h a p t e r  fo u r  i s c o nc l us i o n ,  w h i c h  g i v e s  c l e a r  o u t l i n e  o f  t h e  wh o l e  t h e s i s  a nd

ii r t h e r 
f i ll u s t r a t e s  化 e  r d at i o 打 s h i p  b e t w e e 打  s y l a b l l e  d u r a t i o 打  a n d  i nfo r m at i o n  c o n t e n t 

M e an w h il e ,
化e l i mi tat i o n  o f  c u r r e n t  r e s e a r c h  i s  s t at e d  an d  r e c o mm e n d at i o 打  fo r  f u t u r e

s tu d
yi sal s ogiv e n 

T h e  the s i s  i n v e s t i g at
e s  t h e  r e l at i o n s h i p be t w e e 打 s y l l a b e  du r at i o 凸  a nd
l 

p o nd i n g  i n o r m a t o n c a r r i e d  i n M a d ar n  C h i n 的 e
c o rr e s f n i i  th r o u g h  e x p e r
i m e nt a l

 化 e  c o nn e c t i o n s  o f  l an u a
p h o net i c s p ro b 打 g  打 o

g e  a nd  n fo r m at o n  化 e o r y  f
roma


i i


g i

b ran d 打 e w  p e r s p e c t i v e

.  I t  i s  au t ho r sex
pe cta
ti on  t h a t  t h i s  s t u d y  w o u l d  m a k e  a  h umb l e

c o nt r
i b ut i o n  t o  i nt e r d i s c i p l i n ar y  s t u d y  o f  li n gu i s t i c s  an d  c o m p ut e r  s c i e n c e 

K ey 
w o r d s  s y l l a b l e  d u r at i o n

,  i n fo r m a t i o n  c o n t e n t , c o d e  re

l at i o n s hi p

I 


目 

第 章 绪论

 

1 . 1 实验语音 学概述  

1 . 2 音节 时长 与 信 息量么 间 关系 的 国 内 外 研 究 现状  

1 . 2 . 1 国 内 研 究现状  

1 . 2 丄 1 早 期 关于 声调 的 时 长研 究  

1 . 2 丄2 发展期关于辅音 、 元音 、 声 调 的 时长研究  

1 . 2 丄3 成熟期 关 于 语流 中 音节 时长 的 研 充  

1 . 2 2 .
国 外研 究现状  

1 . 3 研究 目 的 、 意义与 方法  

1 . 3 . 1 研究 胃 的  

1 . 3 2 .
研究意义  

1 . 3 3 .
研 究 思 路 与 方法  

第 二 章 音 节 时 长 数据 收 集 与 统计  1 

2 . 1 实验语料与 软件  1 

2丄 1 实验 语 料采集  1 

2 . 1 . 2 实验软件  P R A AT  1 

2 2 .
实 验数据 提取  1 

2 2 . . 1 语音 片 段切分  1 

2 2 2
. .
片 段音节切 分  1 

2 2 3
. .
音节 时长统计  1 

2 3 .
实验数据 处理  1 

数据 归 化处理 的 重 要性

2 3 . . 1  1 

数据 归 化处理 的方法

2 3 2
. .  1 

第 H 章 音 节 时 长 与 其 所携 带 信 息 量 的 关 系 研 究  1 

3 . 1 信息论原理  1 

3 丄 1 信息论与 信息赌  1 

3 丄2 霍 夫 曼编码  20




3 . 2 分析实验数据  22

3 . 2 . 1 数据 时 段分 类 统计  22

3 . 2 2 .
抽 样数据 分析与 说 明  25

3 . 3 从信 息 论信 息 量角 度论证关系  3 0

3 . 3 . 1 信 息论 中 信 息 量 的计算  3 0

3 . 3 2 .
所测 音节携 带 信 息量计算 与 统计  3 0

3 . 3 . 3 音节 时长与 信 息量 的 关系 论证  33

3 . 4 从互信 息量证音节 时长与 信 息 量 的 关系  



3 . 4 . 1 互信 息量  3 8

3 . 4 2 .
实验所用 音 节 互信 息 量 统 计  39

第 四 章 总结  44

4丄 关系 论述  44

4 丄 1 .
音节 时 长 与 霍 夫 曼 编 码之 间 的 关 系 论述  44

4 丄2 音节 时长 与 其所携 带信 息 量之 间 的 关系  45

4 2 .
论文待 改 进之 处 W 及对未 来研 究 工 作 的 展 望  46

4 2 . . 1 论 文待 改进 之处  46

4 2 2
. .
对未来研 巧工作 的 展 望  46

参考 文 献  48

 5 

致谢  53

攻 读 研 究 生 期 间 发表 的 论 文  54

V 


第 章 绪论

 

第 章 绪论


语 音 是语 言 最重 要 的 组 成 部分 之 是语 言 的 表现形 式 研 巧语音 的 科 学被


, 。

" "

称为 语音学 , 语 音 学 又分 为传 统语 音 学 和 实 验语 音 学 ,
传 统语音 学 主要是 听 

实记为手段对 种 语 言 的 语 音特征 进 行描述 但 是 人耳 的 听辨 能 力 有 定局 限性




一 一

和 主观性 , 因此 , 后 来 新 兴 的 现代 语 音 学 W 实 验 、
数据 、 技术等更客观 的 研 究 方

法逐 渐 占 据 了 语 音 研 究 的 主 体地 位 

本 文 从 实验语音 学 的 角 度 出 发 通 过 语 音 软件 , P r aat 对音 节进行 时长 的 实验 



切 分语音 中 的 每 个音节并 W WAV 波形文件保存 统计音节 时长 观察 时长数




 , ,

据 从而找 出 相 关规 律 如 句 话 中 的 每个音节长短不 同 但其 时长是 否 与 音节




, , ,

长短成正 比 ; 其 中 时 长最长 的 音节又有 怎 么 样 的 特 点 ; 时长较短 的 音节又有什么



规律 ; 最短 的音节时长与 正常 的 音节时长是否有 比率关系 等 , 而在文 章 中 , 要解



决 的 最大 问 题是通过 实验数据 和 分析 结 果 论证人类 的 语 言 交流是否 符合信 息传



递的原则 

1 1 .
实验 语 音 学 概述

实验语音 学 是 W 科学 的 机械与 方法对人 的 语音进行本质 探索 的 新兴 学科 发



 。

展 于 二 十世 纪初 传 统 语 音 学 家 发现单 纯 凭 借 头 脑记忆和 听 觉 敏感对语音 进行研




巧具 有很大局 限性 , 而 通 过 假腾 、 浪纹计 、 X 光机等 医 疗器械 可 W 对 发音 的 部 位



和 方法进巧科学 的 描 述 这便 是最早 的 实 验语音 学 而这 时期 语音学家




, 。 ,

E W S cr
i p tur e 在 年撰 写 了 实 验语 音 学 基础 》 这被认 为 是 第 本实验语音


. . 1 902 《 ,

学著作 

在 二千年代至 四 十年代 , 实验语音 学逐步发展 , 在 欧洲 产 生几个 具有代表 意



义的研巧中 屯 这 时期 德 国 波恩 的 语音 学家 M anz e r a 用 X 光照 相 来拍 摄和



, , t h

观 察舌位 的 活动 第 次对 曰 腔 内 发音 部位 的 动 作进行描 写 同 时解 决 了 些其


一 一

, ,

他语音难题 这 时 期做 出 贡 献 的 还有德 国 的 Zw mer 他提 出 要 对 所 研 究 的 语 音




。 i

进行录音 的 重要提示 ,
并且在 当 时 克服 了 录音 的 众 多 难题 ,
从蜡 筒 录音 、 钢丝录

音 直到磁带录音 在这 录音过程 中 还 意 识 到 了 语音 最重要 的 韵律特征 




一 一

, , ,





普通话音节时 长与 其所携 带信 息量关 系 的语音 实验研 究 

音高 、 音 强和 音长 。
除 此之外 , 还有 P an c o n c e l l i

Ca l zi a( 德 ) , D J o ne s ( 英 ) 

B o omf
i e l d ( 美 等 代表语音 学家 在这 时 期 都对 实验语音 学 的 发展做 出 贡献

l ) 

同 时在 这 时期 电 话机使用 的 不 断扩大 由 于 电 话机 的 原 理是语音 W 电 波 的形




, ,

式传送 , 因 此就产生 了 众 多 新 的 语音 问 题 , 其 中 最 突 出 的 问 题是如 何保证 语音在



频带压缩后 保证它 的 真实性 因 此对声 学特征 的 研 究成为解决这 问题的出 路


, 

实验语音 学 家 必 须找 出 在 语音 的 声 学特征 中 哪 些 要素 是不 可 忽 略 的 哪 些 因 素是

 ,

可 W 忽 略而 不 使语音 失真 

从 年到 年这 二十年是 实验语音 学蓬勃 发展走 向 成熟 的 时 期 




1 940 1 960 ,

列 专业 的 声 学 研 究 设 备相 继 问 世 , 1 94 6 年贝 尔 电话机公司 发 明 了 语图仪 , 这种

可 W 记 录 动 态 语 音 的 机 器 对 声 学 特 征 的 描 写 起 到 了 不 可 估 量 的 作 用 还 有 D ud , l ey

发 明 的 声码器 , li b e rm an 的 图 形还音 器 , F a nt 的 参量合成器 , 都对声 学研 巧 的



发展起到 了 决 定性 的 作 用 而这 时 期 的 语音 工作 除 了 声 学研 究 还有 言语产生


。 ,

研巧和 言 语知 觉研究 在 言 语产生研 巧这 领域 中 本 的千 叶勉通过 X 光对




。 , 日

口 腔 的 截面照 相 , 从而 研 巧元 音 的 共振 峰 声 学 参 数 , 在 1 94 1 年 发表 的 《 元音 的

性质 和 结 构 》 文 为 言 语产生 的 研 究 奠 定 了 基础 后 来瑞 典 的 通 讯 工 程 师 G F a nt

, ,

在 他 的 影 响 下 继 续 对 声 源进 巧 研 究 , 1 95 7 年 发表 了 《 言 语产生 的 声 学理论 》 , 

声 学参数定量 了 语音 中 的 每个元音和 辅音 同 时在这 方面 的 研究 中 屯 有美 国 的





哈金斯语音 实 验室 ,
贝 尔 电话公 司 语音实验室和 麻省 理工学 院 的 语音研 巧 中 必 

通过喉镜和 X 光照相 对 声源进 行研 究 



最后 个研究方 向 是言 语 知觉 主要 方 向 是语音接 收 的 问 题 信息论 的创始




, 。

人 认 为 语 言 传 送 接 收 的 过 程 也 是 编 码 和 解 码 的 过程 因 此 每 个码都携


S h a nno n ,

带 了 不 同 的信息量 , 而 实 验证 明 在 语 言 传 输 的 过程 中 确 实存在 多 余 的 码 , 因 此剔

除 冗余码成为解 决通讯工程 的 项重要工作 在信 息 论研 究之余 还意 识 到在语




。 ,

音传送 的 过程 中 是 W 音节 为传送单位 的 , 也提 出 非音质 音位 音 高 音长和 音 强 ; 、 



从六十年代 到 八十年代 ,
随着 电子计 算机 的 普遍使用 , 语音 的 计算机 处理成

就了新的 项学科 言 语工程学 主要研 究语音 的 分析 与 识 别 八十年代 W 后



一 一

, , 

计 算机 与 语 音 学 的 联系 越 来越 紧 密 , 瑞典的通 讯工程师 F an t 提出 了 语 言 代码 的

概念 同 时表 明 这 时期 需要精通计算机 的 语 言 学 家 也 即 第 五代 语 言 科 学 家

, , 

科 技 的 迅 速 发 展 迫 切 要 求 语 音 学 家 突 破传 统 , 学 习 数理知 识 , 这样 才 可 W 融入实




第 章 绪论




验语音学 的 研究 浪潮 

1 2 . 音节 时长与 信 息量么 间 关系 的 国 内 外研 究现状



1 . 2 1 . 国 内 研 究现 状

1 2 1 1
. . .
早期 关于 声调 的 时长研 究

我 国 关于 音节 时长 的 研 究有

些成果 相 比较其他语 言 学方面 的 研 究成果还


, 

相差甚远 , 但有很大 的 发展前景 。 在 实验语音 学 的 声 学研 究早期 刘 复 , 、 白 涂洲 



罗 常 培 和 王 力 先 生 等都 曾 有相 关 文 章 发表 , 其 中 W 刘 复先 生 的 博±论文 《 汉语字

声 实 验 录 》 为 现代汉 语 语 音 研 究 起 始 , 实验是 W 浪纹计为分析手段来分析北京 



南京 、 江阴 、 湖南 四 地 的 字调 。
白 涂洲 先生在 1 93 4 年通过刘 复 先生在 《 四 声实

验录 》 中 对声 调 的 记录方法 ( 浪纹计 ) 对 四 声 做 了 更加精 细 的推测 , 得出 四 声声



调 , 同 时 利 用 浪 纹针 的 浪 线 的 长 短 得 出 了 四 个 声 调 的 时 长 , 分别 是 : 阴 平 化 43 6 s 

阳 平 化45 5 s 、 上声 化483 s 、 去声 0 42 5
. s , 结果说 明 四 声 中 去声最短 、 上声最长 

这是我 国 实验语音学 史上第 次关于音长 的 分析




1 2 1 2
. . .
发 展 期 关 于 辅音 、 元音 、 声 调 的 时 长研 究

在 国 外 语音研 究方法和 手段 的 日 益成熟 下 我们语音 学研 究 也从声调转入单




音节研巧 , 首 先 考察 的就是 音节 中 的元 音 、 辅音和 轻重音 。


吴宗济先生在 1 9 62

年发表 的 《 谈 谈现代 汉 语 语 音 实 验方法 》 中 系 统地介绍 了 国 内 外 的 语音基础概念



和 实验方法理论 , 1 963 年出版 《 普通话 发音 图 谱 》 ( 与 周 殿福 先 生 合作 完 成 ) 



并于 1 9 64 年在在 《 声 学 学 报 》 上 发表 《 普通话元音和 辅音 的 频谱分析及共振峰



的测算 》 文 介绍 了 利 用 声 学仪器分析 语音频谱 并提拱 了 普通话 中 元 音 




, , 、

辅音 的 共振峰数据和 清辅音 的 能 量集 中 区 数据 这 时 期 众 多 关于 元音 辅音和




。 、

区 别特征 的 文 章 都 陆续 发表 

从八十年代起 , 语音研 究从单字节转 向 了 语流 中 的 音节分析 , 1 979 年吴宗



济 先生和 曹剑 芬先 生在 《 普 通话 辅音 声 学特征 的 几个 问 题 文中 利 用 示波器


》 , 

语 图 仪 等 实 验 仪 器对 辅音 和 元 音 的 过渡 段 的 时 长 进 行 了 分 析 





普通话 音节 时 长 与 其所携 带信 息量关 系 的 语 音 实 验研 究 

随后 , 林 茂灿 先 生 于 1 980 年 发表 的 《 普 通 话 二 字 词 变 调 的 实 验研 究 》 W 及

北 京话轻声 的 声 学性质 》 与颜景助先生 合作 在这 文 章 中 首 次对 话语 中 的




《 ( ) ,

轻 声 做 了 研 究 分析 , 采用 语仪 图对 巧 对两字 词 进 斤实验 , 分别 记 录第 二 字轻 读

和重读的音长 , 其 中 提到 轻 声 词 的 音长 在 轻 读 时 比 重 读 时 大大 缩短 , 而且 长度 是

重读时的 半左 右 齐±铃和 张家藏先生在 年发表 的 汉语普通话辅音 时




。 1 9 82 《

长分析 》 是我 国 第 篇 关于 时 长 分 析 的 专 著 文 章 W 十 H个 人 的 发音 为 实 验材料

, 

得出 22 个辅音 时长 。
同年 , 冯 隆先生 的硕±论文 《 北京话 的 声韵调 时长》 中 首

次对语流 中 的 音节进 行切 分然后 通 过语 图 仪进行观察 , 考 察 了2 1 个辅音声母 的



时长 、 8 个单元音韵 母 的 时长 、 四 个声调 的 时长 ^ ^及 说 话 速度 对 声 韵 调 时 长 的 影

响 四 个方面 , 这篇论文对于我 国 少 有 的 关 于 音长 的 分析作 了 更加 充分 的 补 充 



1 2 1 3
. . .
成 熟期 关 于 语 流 中 音 节 时 长 的 研 究

在林煮 先生 的 《 探讨 北 京话轻音 性质 的 初 步 实验 》 , 通过六十人 的 听辨实



验得 出 音高 、 音强 、 音长三方面对轻重 音 的 作 用 , 结果证 明 ;
音 高在重音 声 调

中 气 的作用 是不必 多 说的 , 而在 轻音 中 , 音长却 起着 最 主 要 的 作 用 ,


同 时文中

对于 轻音 时长做 了 分析 在 分析 结 果 中 轻音 时长 大约 是这个音之前 的 那 个重


音的 半 和 林茂 灿 先 生 的 实 验 结 果 基本 致 年我 国第 部关于 实验语


一 一 一

, 。 1 989

音 的著作 出 版 , 由 吴宗济和林茂灿 先生合作 的 《 实验语 音 学概 要 》 , 系 统 的介绍



了 语音概况 , 同 时介 绍 了 时长 的 特征 。 同年 , 林茂灿 先生 发表 《 语音研 究 的 新



进展 》 文 其 中 在 言语工 程与 语音 学 节 中 总 结 了 关于轻 声研究 的 实验结 果


一 一

, 

轻 声 音 节 的 时 长 比 它 重 读 时 大 大缩 短 。 张家嚴先生 在 1 995 年 发表 的 《 韵律特征



研 究 新进 展 》 文中 引用 国外 教授关于重音与 时长 的 结 果 音长是重读音


F ant :

节 的最相 关 因 素 , 而 且在 音 位数量相 同 的 情 况 下 , 重读音节 比非重读音节 的 时



长平均 长 同 时 也得 出 音长会 随着 音位数量 的 增 加 而増 长 这 结 果对




1 00ms ,

于普遍语 言 来讲 都有 定 的意义 我们 可 W 借鉴

, 

在此之前 关 于 时长研 究 都 是基于孤立音节 , 对于语流 中 的音节时长分析结



果很少 , 但于 200 1 年第 五届 现代语音 学 术会议 上 由 冯 勇 强 、 初敏 、 贺 琳和 吕 ±



楠 四 人合作 完成 了 没语话语音节 时 长统计 》 补充 了 这 块空缺 文章用 专业




《 , ,

切 音器切 分 了 语流 中 的 音 节 时长 总 共切 分 , 1 9 万 个音 节 ,
发音 人为 专业播音 员 




第 章 绪论

 

采用 播音 与 自 然语流两种 , 具 有 普遍 意 义 。 通过对 大量音节 的 分 析 , 首 次得 到



了 语流 中 音节 时长 的 总体分布 图 , 还有 音节 时长方面 的 诸 多 方面 的 统计特性 



包括韵律边界 , 音节 的 声 韵调 结 构 W 及音节在句 中 所在位置对 时 长影 响 等 。 



计结果湿示 :
韵 律短语边 界 , 语调 短 语边界和 语调 短 语群边界都 可 W 延 长音节

的 时长 但这 H 者 延 长 的 程 度 还 有 定 的差异 其次 不 同 声 调 对前边 界 音节


, ,

延长 的作用 也 有不 同 , 上声受到 的影响最小 , 其次是 阳平 , 受到影 响最大 的是



轻声 它 可 W 延长到和非轻声 边 界前音 节 样 的长度


, 、 

1 . 2 2
. 国外研 究现状

国 外研 究 现状 主 要从 语 言和 信 息 相 结 合 的 研 究 成果这 方面 阐 述 真正 意义


上把语 言和信 息 理论两者相 结合 的 研究起源于 20 世纪初 ,


而在 1 94 9 年 C l au d e

年 发表 了 A Ma hem 她 c a T h e o ry 文 信息论 问 世

S h a nn o n  《  t l

o f c o mm u n i c at i o n 》
 , 

在这篇 文 章 中 , 香农提 出 了 关于语 言 通信 的 H种 假设 W 及信 息 俯 , H种 假说分别



是 形 式 化假说 、 非决 定 论和 不确 定 性 。
形式化假说大胆 地 去 掉 了 消 息 主观方面 的

语义 、 语用 因 素 , 只 保 留 了 能用 数学描述 的 客观方面 的 形 式 因 素 ,
即 语法 ,
使用

数学工 具 定量度量信 息 成为 种 可 能 因 为香农认为通信 的 任务 只 是在 接 收端 把




发送端 出 发 的 消 息 从形 式 上 复 制 出 来 ,
并不 需 要 从语义 方面作 处理 。 而非决定论

是 指 采用 概 率 统计 的 方 法 作 为 分 析 通 信 问 题 的 数 学 工 具 不 确 定 性 是 指 当 收 到


条消 息后 ,
所获得 的 信 息 量可 W 用 不 确 定 度 的 消 除量来进 行度 量 这里 需 要说 明

 。

" "

的 是概率 统计方法 在 这 领域 不 得 不 提 到 的 是 齐 夫 定 律 齐夫定 律是 G e o rg e


, , 

K i ng s l 巧 邱 于 1 949 年 发表 的 实验 定 律 , 这是他早在 1 93 5 年 , 通 过对大 量文 献



的 统计 发现在文献 中 每 个词 出 现在频率有很大差异 按照词 出 现 的频次 的 递




, ,

减排列 发现 个重要 的 规律 即 词 出 现 的 次数和 其所处 的 频 次位置相 乘 为 




一 一

, ,

常数 但此 时 并 未发文进 步论证

, 

从 20 世纪 5 0 年代开 始 , 研 究 学者 开始 受益于信 息 理论 的 输入 , 获得 了 诸 多


" " " "

概念 , 例如 沟通渠道 和 兀长 , 再者 , 在 寻 求语 言 模 式和 结 构 的 解释 时 也

提到 了 信 息和 复杂度 的关系 这 关系 不 局 限于 是历 时 性 的 还是共 时 性 的 Z pf


, 。 
 i

作 了 里程碑式 的 说 法 在 音 素复杂趕度或大 小 和 它 出 现 的 相对频率之 间 存在 着 均



 :

衡关系 。
换句话说 ,
音 素 的 复杂程度越 高 , 出 现 的频率越低 ,
复杂程度越低 , 





普 通 话 音 节 时 长 与 其所 携 带 信 息 量 关 系 的 语 音 实 验 研 究 

现 的频率越 高 这两者之 间 保持 了 个常数 的均衡 Tr ub e t z k o y 和 强烈拌




, 。 Joo s

击 了 这种假设 , 在 《 语音学 》 期 刊 上发表 论文 , Tr ub e t zk o y 否认任 何支 持显 著 性



概念 的 不确 定 的 复 杂 意 义 的 解释 , 而 Jo o 的 批判 主 要集 中 在 方 法论 的 缺 陷 上 ,


将 Z pf
i 的 设 想 作 了 稳妥性分析并指 出 其 问 题所在 

随后 出 现 了 更 多 与 复杂 性相 关 的 讨 论 无论 是在 显 著 性 的确 定 上还是把复杂

 ,

性更 多 地看作 是 个功能性的框架 G r e e n s be rg 通过 回 答 个自 问 解释 了 第 


一 一 一


些 来 区 分好坏 发音清 晰度 的 特 点 吗
" "

倾向 问 题是 有 答案 是 有 且原



? : ,

" "

则 就是两个发音 中 较为不 复杂 的 便是更好 的 。 随后他总 结 到 :


更 复杂 的 , 较少



被接受 的 方法 叫 做 较不复杂 的 更 受欢 迎 的 那 种叫做 


m ark e d ,
, u nm ar k e d 。

二种 方法 , 由 Z pfi 的 最少努力 原 则 发展而来 , 认 为复 杂 性和 信 息 在 规 范语 言 系



统 和 言 语交流 中 可 W 起到 作 用 。
但是 Z ipf 大大忽 略 了 听 者 的 方面 , 表 明 最少努

为 只 是影 响 说话者 的 个约 束 而近期 的 研 究 证 实 其他 些 因 素 也 起着重 要作




一 一

用 经济和 均 衡 原 则 来源于 个更复杂 的 冲 突 压力 的 模 式 M ar 强调 交流 需




, 。 ti net

求 的 作用 即 说话者传 递 自 己信 息 的 需 求 抵消 说话者最少 努力 的 原 则
, , 。 L n加i l om

的 H& H 原 则 合 并 了 个相似的假定 从而导 致 自 己组织 了 语 言 发展 的 方式 




, ,

将 听 者 的 努力 考虑在 内 

后来 些理 论模 型 被 提 出 来解释语 言 与 复 杂 性之 闻 的 规 律 W 及 来重新分 析


Z pf
i 对于 语 音 复 杂 程度和 出 现频率 之 间 的 假设 这些工作 极大地 导 致 了 人类信 息

 。

渠道沟 通 的 重建 

在  20 1 1 年 打 an s 〇 i sP e ll e
gr
ino , 
C hr
i s t o p h e  C o 叩 S  and  E g i d i o  M ar s i c o  发表 的 《 

文中 提出 种 假想
一 一

an
g ua g e  p e r s p e c t i v e  o n  s p e e c h  i n fo r m a


c ro s s o n  r at e 》

l ti ,

在人类 的 日 常交流 中 , 音节 的 长短 与 其所携 带 的 信 息量之 间 呈 正 相 关状态 。 即如



果 音节越短 , 它 所携 带 的 信 息量就越小 , 反之 , 音 节越 长 , 所携 带 的信 息 量就越



大 。
研 究者通过对屯种 不 同 语 言 的 大量数据 研 究 , 并经过信 息 理论解释 ,
发现他

们 给这 假想 的 可靠性提供 了 很大 的 立论 并且开拓 了 语 音研 究 的新方 向


, 




第 章 绪论

 

1 3 .
研究 目 的 、 意 义与 方法

1 . 3 . 1 研究 目 

现代汉语语音研 究 是从二十世纪初 开始 , 从不 发达 的 语音分析仪器到 先进 的



语音实验室 语音研 究 的进步有 共睹 在这 研 究 领域 中 音节 时长 的 研 究就




, 目 。 ,

属于其中 的 个小 口 类 我 国 的 音 节 时 长研 究 从孤 立 的 单 音 节 到 语 流 中 的 音 节

。 

从声 调 到 辅音 ,
从轻重音 到 话语边界 , 都有着丰 富 的成果 。 但在 音节 时长和 信 息

量之 间 的 关系 这 方面还未见成熟 结 论



众所 周 知 , 语言 交流是编 码 、 发送 、 传递 、 接 收和 解码 的 过程 。 说话者将 自

己 要表 达 的 话 在 大脑里 进 行 组 织 ( 编码 ) 再经发音器 官发送 。 对于语 言 编 码我们



并不 陌生 因 为每 天 甚至 每个 时 刻 都在 进 行这 工作 而 到 底 为 何我们 会将
一 一 

, ,

连 串 的 词 语有效 的组合 ,
W 乔 姆 斯基 为 代 表 的 生 成 语 法 派 致 为 于 此 。 而我 思 考 的

问 题 是 究 竟每 个 音 节所用 的 时长 是 否 致 如果不 致 又起源 于什么 样 的 原




一 一 一

, ,

因 。 针对这些 疑 问 , 我们 应 该深入研 究 , 用 语 言事 实解答 



本文 的 的如下


目 : 

通过对话 语语 流 中 每 个音节 的 时长分析 通过归 化 处理 比 较音节 时




一 一

1 .

长 , 找 出 长于或短于 平均 时长 的 音节 ,
解决音节 时长差异 问 题 

2 .
研 究长 于 或短 于 均 值 时长 的 音节特 点 , 检测 音 节 所 携 带 信 息 量 对 时 长 的

影响 , 再结合信 息 论霍 夫 曼编 码 原 理 , 研 究人类 的 语音 中 , 音节 时长和 它 所携 带



信 息量之 间 存在 怎样 的 关系 

1 . 3 2 . 研 巧意义

日 常 交流 中 我们会察 觉到 在 句 话 中 有 些 词 的 发音 时 间 长 些 而有些词


一 一

, ,

的 发音相 对短 暂 些 到 底是什么 样 的 原 因 导 致 了 音节 时长差 异 是不 是所有 时




, ,

长较长 的 音节 都 是我们 认 为 的 句 子 重音 时 长较短 的 音节 又都 是汉语轻声 词 呢 ,




如果是 , 我们 需 要 找 到 充 足 的 数 据 来证 明 , 如果不是 , 那 更 需要找 出 是哪 些音节



长于或短于平均 时长 ,
更 重 要 的 是 探索 这 些造成音节 时 长差 异 的 原 因 。 只 凭靠语

感判 断 是远 远不 够 的 ,
本文针对这些 问 题 , 通过对 日 常 语 流 中 音 节 时 长分 析 ,





普通话音节 时 长 与 其所携 带信 息量关 系 的 语 音 实验研 巧 

立有效语料数据库 , 并 结 合信 息 理论 原 理分析 数据 规律 , 得 出 有效结论 



文 章 对不 同 情况 下 的巧 语 语 流进 行 实 验研 究 , 通过语音 分 析 软 件对语句 中 的

每个音节先进行切 分 , 再 统计 时 长 , 根据 现有 的 526 个音节 时长数据 ,


初步可 W

了 解时长差异分布结果 , 结合霍 夫曼编码原 理 , 可 得出 ! ^ 下 几点研究意义 



1 .
根据 严谨 的 语 音 实 验和 客观 的 实验数据 , 得 出 可靠性较高 的 实验结果 

验证 人类 的 日 常 语 言交流是 否 符合信 息传递 的 原 则 



2 .
在国 内 , 将 语音 的 时长差 异和信 息理论 结 合起来 的 研 巧还 未见成果 , 

文大胆在这 方面 尝试 期 望实验结论可 为这 方面 的 发展贡献 份力






量 

3 .
本 文 大量 采 集 语 料 , 并进行音 节分析 , 得 出 数据结 果 不仅 可 W 为 文 章 所

用 也可 为 日 后进 步 的 研 究提供参数

, 

4 .
分 析 数据 时 , 在有 效得 出 文 章 结 论 的 同 时 , 还可 W看 出 很 多 其他关于 时

长 的 规律 , 其 中 最 明 显 为边界调 对轻声 的 影响 , 为 1 ^ 后 的 研 究课题 提供 了 新 的 思



路 

1 . 3 3 . 研 究 思路 与 方法

本文 的 主要准备工作 为语音 实验 , 笔者在学 习 掌握语音 分析软件后 试 图找 出



最好最 有 效合理 的 实 验方法 在导师的指导下 确 定 了 语料 的 来源 W 电台新





。 ,

闻 广播 、 生活类节 目 、 谈话类节 目 的 语料为 主 , 原 因 是语料要 ^ ^ 普通话 为 主 , 



需要来 不 同 发音人与 发音情况 力 求语料 多 样化 切 分语料是 项繁重的工作


自 , ;


在 熟料 掌握语音 软件 的 前提 下 要尽量保证语 料 的 完整性 ,


从语流 中 切 分 出 语句 

再从语句 中 切 分 出 音节 , 都 需要进行严格反复地听 觉辨认 , 并 在 多 次切 分 后 取其



平均 值 W 保证 切 分 的 有 效性 , 从而得 出 可靠数据 ; 随 后 通过建立数据库 对所切 分



音节进行 统计 在这 阶段 的 工作 中 要解决 因 语速和 发音 习 惯所造成 的 音节 时 长




的 数 学计算方法对 数据进行整合 解决 了 这 问题
" "

差异 问题 笔者用


, 


实现真正有 效 的 时长 比较 在实验数据 统计完 毕 W 后 分析异 于 平均 时长 的 音节 ;


, 

结 合信 息论 中 信 息量 的计算解释 是 否 音节 时长和 其所携带信 息量之 间 存在着相



关关系 


步通过语音 软件 P r a at 对 语 言 片 段切 分 成 W 句 子 为 单位 的 独立语料 并加

 ,




第 章 绪论

 

W编号 , 各查询 

第 二步对句 子进行 音节为单 位 的 手工切 分 , 为 了 保证 精 确 度 , 音节切 分采



用 多 次切 分 的平均值 , 并将 切 分好 的 音 节 片 段 W  WA V 波形文 件 保存 , 需要说 明 的



是每 个句 子 的 语音 资料 W 及 它所包 含 的 每 个音节语音 资料都归 纳在 同 




一 一 一

件夹 内 , 避免发生错乱现象 

第H步 是测量每 个音 节所使用 的 时长 并将 时 长 数 据 精 确 到 小 数 点 后 六位




( W 秒 为 单位 ) , 把每个音节 的 数据存入 时长数据库 ,


分别进行编 号 和说 明 ,


便 W 后 的 结果分析和源头查找 

第 四 步是统 分析音节 时长 进行 时长 归 处理 消 除 因 个 人 语 素 快 慢所 导


一 一

, ,

致 的 时长羞异 , 使得 实验结 果 更加 可靠客观 , 提取大于和 小 于平均 时长 的 音节单



位 , 进行分析 比 对 , 总结 规律 





普通话音节 时长 与 其所携带 信 息量关 系 的 语音实验研 究 

第 二 章 音节 时 长 数据 收集 与 统计

2 1 .
实验语料与 软件

2丄 1 实验 语 料 采 集

语料是本 文研 巧 最重要 、 最关键 的 部 分 , 为 保证 语 音 质 量 , 所有 语稱 来源于



中国中 央广 播 台 对于语料 的 收集和 选取遵循 W 下 几项 原 则 第 不选用 失真




, : ,

压 缩 语料 ; 第二 , 不选用 含有 背景音语料 ; 第H , 不选用 含杂 噪 音 语 料 ; 力 求语



音语料的 高保真 在确 定 语音文件有 效性 的 前提 下 对于语音 内 容要进行进




' '

。 ,

步 筛 选 为 保证 语 料 多 样 化 所选取 的 语料 的 题 材 需 多 样 化 在 导 师 的 指 导 下

, , , 

文 章 所采用 语料题材 分 为 下 几个种 类 第 类为新 闻 报道 这类语料语速平稳


1^
| : , 

语调 标准 , 具有最典型研巧意义 ; 第二类为纪实播报 , 这类语料具有生活化 的 特



点 语料 内 容 贴近实 际 生活 语速相 对轻快 第 H 类 为 谈 话 访 谈 性节 这 




, ,
; 目 ,

节 目 可 代表 日 常生活交流 , 语 言 更加 曰 语化 , 具有普遍意义 

2 . 1 . 2 实 验 软件 P R A AT

P ra a t 是 由 荷 兰 阿 姆 斯 特丹 大 学 语 音 研 究 所 主 席 P au l B o e rs m a 教授 和 D av i 

We e n 助 教授 两人 合作 研 发 的 款 专 业 的 语 音 分析 软 件 在 荷兰 语 中 的 意


i nk 。 P raat

思 是说话或交谈 这 软件 的 原 名 为 后 来简 称为


, d o i n g  p h o n e t i c s  b y  c o m p ut e r ,

p r a at  

是 款专 业 的 跨平 台 多 功 能语音软件 对数字化 的 语音信 号进行 分析


P r a at , 

标注 、 整 合和 处理等 实 验 ,
同 时 生成各种 语 图 和 文字报表 。 通过 p r a at 语音软件 

我们 可 得 到 输入 的 语 音 材料 的 详细 信 息 ,
打 开 程序 界 面 , 能够得到 频谱 图 、


谱碟片 、 音高 曲线 、 共振峰 曲 线 和 音 强 曲 线 。 在频谱 语 图 中 可 W 显 示语 音片段 的



时 间 长度 在连续 的 语流 中 通过对音节频谱 的 曲 线和共振峰辨认和 听 读 对每




, ,

个音节 再切 分 , 记录音长 ( 时长 ) , 因 此所有 的 音 长 工作就在 频谱 图 上操作 



1 



第 二 章 音 节 时长 数据 收集 与 统计 

2 2 .
实验 数据 提 取

2 2
. . 1 语音 片段切 分

所有语料原 始 文件 时长均 在 个小时 W上 为 了 方便进 步 的 音节切 分工




一 一

作 我们将语音文件在 A d o b e A ud 专业音频编 辑软件 下切 分成 y 分钟 为单




,  iti on ?

位的 标语音文件 在第 步 的 切 分工 作 中 排 除对语音 内 容 的考量 具体切分




目 , , ,

工作如 下 

第 在 中 将 所有 原始 文件转换格式 ^ 便 9 1 3^ 软件 识读

, ? 0 11 1 1 31 ? 311 〇 01 ; 1
7 ,
1 

为 保证 语音 质 量 的 无损 , 所有原始 的 M4A 格 式 的 软件均转换为 WA V 文件 



第二 , 打开 A d o beA u d i ti on 界面 , 载入 所切 分 的 原 始 文 件 , 在双声 道音频



轨道 下对语 音进行 W 分钟为单位 的 手工切 分 切分后均 W WAV 波形文件格式




, 

对 语 音 片 段进 行 顺序 编 号 ; 最终切 分 出 3 00 个 目 标语音 文件 

2 2 2
. . 片 段音节 切 分

在 个 标文件 中 进行 的第 步 工作 是选取可用 音频 由 于在第 步的




一 一

3 00 目 , ,

切 分工作 中 并没有考虑 语音 内 容 的 原 因 , 所 需 要对语音 文件进行筛选 , 通过



对语音 片段 中 内 容 听辨 , 排 除含大量杂 噪音文件 的 低 效文件 , 最 终选定 80 个有



效 目 标音 频文件 

打开 软件 逐 对 标文件 中 的 音频进行切 分 切 分 W 完整句 子 为 单




P r a at , 目 ,

位的 二级 目 标文件 , 对于完整句 子 的 定义 为 :
有完整句 调 并 句号 , 问 号和感叹

号为结尾 的句 子 。 WAV 波 形 文 件 的 方 式 保存 并加 ! ^编 号 ,
最终切 出 69 个独

立有 效 的 语句 ; 再 分别 对这 的 个句 子 中 的 音 节进 行 时 长提取 , 这

步是本实验

研 究最 重要 关键 的 步 在 语图中 分为 宽带语 图和 窄带语 图 两者 的 区




, P r a at , ,

别 在 于滤波器 的 不 同 ,
其 中 宽 带语 图 的滤波器在 3 00 赫兹左右 , 窄 带语 图 的滤波

器在 45 赫兹左右 原 因 是 声 音 的 基频上 限在 , 300 赫兹 W 下 下 限在 , 50 赫兹 W上 



所 W 窄 带语 图取 赫兹的带宽 能够将相 邻 谐波 的 个个 区 分开来 宽 带语 图




45 , ,

取 赫 兹 的 带 宽 使相 邻谐波凝成 团 无法分开 换言之 带宽越小 频率分




3 00 , ; , ,

辨率越高 , 但时 间 分辨率越低 ; 带 宽越大 ,


频率 分辨 率越 下 ,
时 间 分辨 率越大 

I 



普通话音 节 时长与 其所携 带信 息量关系 的语音 实验研 巧 

因 此 宽 带 语 图 更 常 用 语 音 色特征 的 分析 窄 带 语 图 更 常 用 于谐波和 音 高特 性 的 分

 ,

析 , 考虑到 本实验 的 数据 只 需提取音节 时长 , 所W , 所 有 实 验 工 作 都在 宽 带 语 图



下进巧 , 具体提取工作 如 下 

第H , 在 P r a at 中 载入语句 ,
在 语 图 界 面 通 过对 所 有 音 节 的 听 辨 最 终 确 定 句

子所含音节数量 W 及每 个所记 录 标音节


目 

第四 , 在连续 语 流 中 切 分 出 句 中 每个音节 的 工作 是重 中 之重 , 为 保证切 分



节 点 的 准确 性 采 用 H 次切 分后 取 算术平均 值 在每 次音节提取 的 过程 中 需要


, ,

密 切 结 合 宽 带语 图 中 语音 能量 的 强弱 来判 定 音节 ,
再通过 听 辨进行提取 , 在听辨

的 过程 中 , 还采 用 了 切 除 听 辨 法 , 即 将选定 音 节剔 除后 再 听 辨整句 , 确 保提取 的



完整性 在 连 续 语 流 中 存 在 大 量音 和 音 的 重 叠 现 象 即在前 个音节结束 时 已 经




( ,

为后 个音节 的 开始做好准备

) 

第五 , 提取音节后 , 记录音长数据 , 秒为单位 ,


保 留 小数点 后H位 , 

计入 库 

操 作流程具体 实例 说 明 , 例句 1 : 在人 民 大会堂 东 口 外广 场 举 行 了 欢迎 仪

式 。
在 P r aat 软件 中 对这句 话进行 语 图 分析如 下 图 1 

4 犹 9 52
 
1 .

 

0 5 30 3
-  7 

觀 闕 解 H IT




 



4 509 52

 


Y L畔
^t
e !
bf

p与

d urg f
%
" 2 90 :

i p n 2 9〇 1 ^〇 5 s e co nd s 


辦 与 畔 99 ]]
ds
 

;  1 .

 


450 9 52 

; 別
y 常



; ;

早與 截5





 

ai  i n  ou t

 {  bak


巧 



图 1 ;
例 句 时长语 图

1 



第 二 章 音 节 时长 数据 收集 与 统计 

上图 1 上下 一

分为二 , 上 半 部 分为 语 音文件 的 频谱 图 , 分为 c hax m e l l 



ch aim e l 2 , 意为双声道 ; 下 半 部 分就是宽 带 语 图 , 在 语 图 中 能 量越 强 , 颜色越深 



宽 带 语 图 中 的 蓝 色 曲 线 是基频 曲 线 。 点击 t o t a l  d u r at i o n 键可 W 自 动播放语句 

便于编辑 。 左 下 角 的 五个按键可 帮 助放大 、 缩小 、 恢复等功 能 。


屏幕中 间 的红

色坚线可 W 根据 需要 移动 并拖拽 , 选 区 需 要 的 音频片 段 , 从而 提 取 音 节 



例 句 中 包 含 了 1 8 个音节 , 相 对较长 ,
频谱 中 曲 线和 能量分布都较密集 , 

分提取起来有 很大 的 困 难 所 W视 图 中 的 放大功 能可 W 更好地提取音节 如 图 , , 2 





0 00 344 8
- 

。 0063
' 1 3

 働批 雜省 
lu l l

  0 7 2 50 2 8

  
 





Vs i i i


t 0 7 2 54 7 6 second s
b e par . 

 
化 巧 5 4 7接  2 . 1 76 4 2 9 ^


 
To t ^ d ur a^ o n 2 9 0 .
1 90 5 ^ ecC
TT d s


叫 …
味 . ]
j  I
 _ j
策 細 

图 2 ; 例 句 音节 时长语 图

图 是 把语 图 放大 两倍 W 后 的 效果 图 放大后 页 面 只 会 显 示整个 语句 中 的


2 ,

部分 这 部分是从 化 开头 到 化 72 5 4 7 知 在这幅 图 中 可 W 更加清 楚 的 看 出 声




, , ,

波 曲 线和 宽 带语 图 中 的 能量强弱 。 在上半 幅 的 声 波 曲 线 中 看 到 明 显 的 起伏过程 



次 , 相 对应 地 在 下 半 幅 宽 带 语 图 中 看 出 能 量 最 强 , 颜色最深 的 部分有 5 部分 , 

此可 W 推 断 图 中 包含 了 五个音 节 在 人 民 大会 这 开 头 的 五 个字 通过听音


' '

, 即 ,

证实推断 。
现在 正 式提取音节 , 如下图 3 

1 



普通话 音节 时长 与 其 所携 带 信 息 量 关 系 的 语音 实 验研 巧 

 


. 00 0 7 6 3 《 ’
庄巧 巧 巧 1 1


520 / 的 (
0 . 化巧 1 3
    
早 

獅贈如 細誇 喔 賢

。 …


I f j

jj j

雖  /  U8 巧  t  0 54 3 &





 1 1 -


t   .

   

i f 
; ; ; : 

; 爭 飞 725 為E f ? M2S
 。
皆 莫 Tota Z B O 辩5 石

kra on

> s ec on d s
' :

 


一 一



l c t t

   W

o t i
I 
; M

l b ak

 , ? 0?< ? 盛 

I I  |
j |

图 3 :
提取音节 时长语 图

根据 移 动 拖拽屏 幕 中 的 红 线 , 锁定 选取 区 域 ,
根据 声波 曲 线和 宽 带 语 图 确 定

第 个音节 在 的 频谱 图 红 色 选 定 区 域 最 上 方 的 时 间 值 是 我们 所 需 要 记 录 的


' '

音节时长数据 , 点 击 时 长 值 栏 便 会 自 动 播 放所 选 语 音 , 帮助确定 音节的完整性 



在这 部分 最重要 的 便是确 定起终 点 也 就是所说 的 音节节 点 尤其对于位于




, , ,

居 中 的 音节提取 ,
所 为保证数据 的 有 效性 , 通过听辨 结 合 语 图 确 定稍 有差异 的

H 次起 终 点 后 , 再计算 时长 的 平均值 , 最终统计音节 时长 



所 [ ^1 , 例句 1 的 音 节 时长 统 计情 况 如 下 表 1 

表 1 例句 节 统 计 表

 ̄ 

^ 


音节
  时 长  声 母  彰 母  声 调
I I I

I I
备注


在 
0 . 1 68s




 ^ 

人 
0 088
. s


 ^ 
二声


民 0 . 1 79 s m i n 二声
    

大 
0 . 1 47 s




 ^ 

会 
0 . 1 06 s




 ^ 

堂 
0 266s



 ^  ^ 

东 0  d  on g  


. 1 3 8s

n m 二声

0 . 1 1 8s
  ^  

夕h

0 . 1 44 s





四声 

广 
0 . 1 65 s

g 
u an g

四声 

埼 兰声

0 25. 1 s
 ^  


1 



第 二 章 音节 时 长 数据 收集 与 统 计 

举 
0 . 1 77 s




 ^ 

行 二声

0 . 1 6 1 s


 ^  

7 
0 08. 1 s




 

欢 
0 . 1 3 0s


 
二声


迎 
0 . 1 78s

y  ^ 
二声


仪 
0 . 1 1 7s

y 

 ^ 

式 
O . l W s s h i
  四 声 I


2 2 3
. . 音节 时长 统计

在提取音节 的 工作 结束 W 后 ,
对 5 26 个 音 节 数据 进入入库 统计 , 建立新 的

ac c e s s 数据库 , 在 数 据 入库 时 ,
最重 要 的 是 对 音 节 内 容 的 分 化 简 洁 全 面 的 栏 

分析有 助 于在后 续研 究信 息 量 时使用 , 因此 ,


所创 建 的 数据库 录入 内 容 分为 ; 

节 语句 名 称 语句 内 容 实际时长 归 系数 归 时长 居 中 位置 声调
一 一

、 、 、 、 、 、 、 

声母 、 韵母和 备注 。 结 合例 句 1 的 时 长 数据 ,
可 W 创 建表格 2 ; ( 见下页 

在表格 中第二栏的 语句 名 称 是所录入音节所在 的 语句 编 号 在 这个表




' '

2 ,

中编号为 例句 r 而在 实 际 的 数据库 中 被编 为 语句 对语句进行编 号 的


' >



, 1 6 ,

原 因 在于每 个句 子 W 及 它 所包含 的 各个音节 都被纳入 到 同 个文件夹 内 方便





在后 期 需 要追踪语音材料 时追根溯源 ; 语句 内 容是为 了 查看音节所组成 的 语句 



实 际 时 长是音节在句 子 中 本来 出 现 的 原 始 时长 归 系 数与 归 时 长是音节在进


一 一

行归 计算之后 的 值 而后将在 中 详细说 明 句 中 位置 的 设畳 是 为 了 考 察




, 2 3 2
. .

同 音巧 出 现在 句 中 不 同 位置 时 会 产 生 怎 样 的 时 长差 异 属 于 后 期 分 析 工 作 的 考


量准备 ; 声母 、 韵 母和 声 调 是对 音节 自 身 的解析 , 后 会 结合音 节 的 长度和 声 调 来



研 究对 时 长 的 影 响 

1 


巧 J J J J ^


J J
^ ^ ^ d ^ 3 -

攝 0 ! I
  ̄

  -

巧         J 


^ m ^ ^ ^ ^ W
^ ^ ^ ^

^ ^ ^ i




 ̄  ̄
 ̄  ̄
 ̄  ̄  ̄

 ̄  ̄
 ̄  ̄  ̄
 ̄  ̄  ̄ 

醒 S S 5 ^ 5 ^
化 ^ ^ i i ^ ^ 5 ^ ^ ^ 国


材           


^ 一 ^
^ ^ 如 一 § ^ ^ n ^ ^ ^ ^ ^ 訂 ^




率                 
5 S S s
等 完 另 等 另 送
它 寸 5 置 舅 e



o 0 O N 到
0 g
巧 i 9 国 z

舍 i l 0 圖 — I
气 巧
2 :
. . . . ’ . . ’
. .

1 o 0 o 1 0 o 0 l l 1 0 0 l 0 一

S  ̄




撼    

榜 峨

二 1
^ ^ ^ ^






《 晏                 


半 S S S S S s s S s S s
苗 6 9 名 8 8 寸 另 o 甚 s
巧 轻 它 9 Z
S 0 9 £ 寸 9 5 £ 三 6
i 三 £ s u
迴 度 T 叫 。
- l 1 1 t 1

1 I

世 


? . . . ’ ,


. . . , , .

吿 0 o 0 0 0 0 0 0 0 0 0 o o o o 0 o



化 
聘              



叩 氣 柄 柄 柄 柄 柄 怡 柄 货 柄 柄 怡 侣 柄 传 侣 柄 柄
公 "


》  》 》 这 》 這 這 》 》 》 》 》 》 》 这 梦

奇 辑 哥 致 寶 貴 貴 哥 脅 贸 贸 穿 辑 浸 哥 君 哥 背
护 


砸 该 核 挺 该 挺 孩 挺 该 挺 挺 挺 该 挺 挺 核 挺 挺 挺
巧 把 把 把 把 把 把 担 把 把 担 把 把 把 担 担 担 把 把



雖  鞭 棘 雜 靴 雜 靴 翁 靴 雜 雜 棘 雜 拼 雜 棘 雜 排 靴
恨 鹰 鹰 頃 咳 鹰 鹰 鹰 鹰 頃 坂 頃 頃 頃 坂 咳 鹰 银


U 」 」 」 」 」 」 」 U 」 」 」 」 C 」 U 」 U
女 泰 泰 女 女 女 女 泰 女 女 女 泰 女 泰 泰 女 泰 女
巧 C 己 C 巳 C C 巳 己 己 己 L
」 己 巳 C C 己 巳 n

巧 快 巧 巧 巧 巧 挨 巧 巧 巧 巧 巧 巧 挨 巧 巧 巧 战
轴 制 刹 制 剌 刹 削 剌 刺 制 剌 刹 刹 制 轴 剌 刺 綱
撕 娜 如 如 撕 撕 撕 挪 撕 撕 撕 : : :
撕 部 娜 撕 鄉 撕 部 :

K K K K ^ ^ ¥ ¥ K K 长 ¥ ^

脏 此 脏 脏 监 监 监 监 监 此 监 此 监 监 此 监 监 监
Y Y Y Y Y Y Y Y Y Y ¥ Y Y Y Y Y Y Y
枯 巧 巧 巧 巧 枯 巧 巧 巧 巧 巧 讶 巧 巧 巧 巧 世 材

痕                
一 一 一 I 一 一 一 I I I I 一 I I 一 一




巧 尽 巧 町 町 尽 巧 巧 尽 巧 巧 面 巧 巧 贯 空 贯
巧 晏 晏 晏

 晏 晏 羣 晏 

晏 晏 晏 晏 受 晏 晏 晏 运 s 晏



               



卿 W
U M 时
 叫

^ 
 

『  

^ ^
 

^ 

—  ^

鬥  ^
 
  ^

叫  ^
 


第 二 章 音节时长数据 收集与 统计 

2 3 .
实验数据 处理

数据 归 化处理 的重要 性


2 3
. . 1

常生活 中 人们所说 的每 句 话都会 因 个人差异 环境 情绪 说话 内




日 , 、 、 、

容 交流对 象而产 生语速 的 差异 即 便是 同 句话出 同 人么 口 也会有语速




一 一

、 , 自 ,

的差别 。
本 文 所采 用 的 实 验 声 源 来 自 不同的 1 7 位成年人 , 其 中 男 成年人 7 位 

女成年人 1 0 位 , 且音频 内 容 又分为不 同 的 种 类 ,


如表 3 


 ̄  ̄
表 3 :
音 频文 件 分类 统 计表 

 语 料 类 型 语 句 数 量 所 占 比 例

新 闻 播报类 


1 5 . 9 4%



娱 乐 纪 实类 
1 3

1 8 . 8 4%


 谈 话 访 谈 类 45  65 . 2 2%

从表 3 中看出 ,
谈话访谈类节 目 所 占 比例 最大 ,
娱 乐 纪 实类和 新 闻 播报类 所

占 比例相 差 不远 。 由 于 H类 节 目 性质 不 同 所 W 语句 的 语速必 定 有非 常大 的差异 , 



总 得来说 :
新 闻 播报类语速适 中 , 相对稳定 ; 娱乐 纪实类语速快 , 气氛轻快 ; 

话访谈类语速不 定 , 因 其 贴近生活 , 话语 内 容较 日 语 , 情绪丰 富 , 语速受到 的 影



响 最大 , 差异也最大 

结合 W 上对发音人和语料类型 的 分析 , 可 得 出 音 节数据 之 间会有很大差



异 不具有对 比 的 科学性和 有 效性 所 所有 的 时长 比较都必须进行 归 处理


, , , 

排 除掉个人语速和 其他主客观 因 素所造成 的 差 异 



数据归 化处 理 的 方 法


2 3 2
. .

在确 定 数据 需 要进行 归 处理后 的 下 步 工作 就是采用 归 化法 文 章所用




一 一 一

到的归 化 公式为



Y 

 y


N I T
s )

在公式中 Y 是归 时长 是原始 实 际 时长 N 是语句 所含音节数量



, ,
y , , :



是音节所在语句 的 语句 时长 用 音节数量 除 W 语句 总 长可 得 出 归 系数 其实 


。 ,

真 正表示 的 是 音节 数量乘 W



1 



普通话 音 节 时 长 与 其所携 带 信 息量关系 的 语 音 实 验研 巧 

即 

Y 

 y


N* l / Ts


这 个等 式 中 的 表示 秒 那么 乘W 就表 示 将所 有 的 音 节 时 长 都 看


r N
一 —

作 秒后 的总 时长 这就是 归 的 真 正 关键 用归 总 时长 除 语句 的 实 际



' 一
' 一

, ,

时长得 出 的 便是 归 系数 从归 系数中 可 W看 出 数 值越 大 语 速越快 图


一 一

。 : , 。 

为 实验所用 个语 句 的 归 系数范 围 图

69 

戸 .


轉 ,

2 -





: 

乂 尸

 —

图 归 系数范 围 图


4 :

从 图 中 可 W看 出 归 系数在 到 之 间 的 语句 数量为 句 所 占 总 比例 为


5 6 32 ,

% 由 此推 断 出 在送 范围 内 的 语句属 于语速正 常 类 在这 范围上下的两




一 一 一

40 , ,

组数据分别 占 有第 二和 第三 的 百 分 比率 而 系 数最大 的 语句 只 占 据 了 总 数 的 , 4% 

最 小 的 语 句 占 据 了 % 说 明 语 速 很 快 或 者 很 慢 的 语 句 在 交 流 中 出 现 的 概 率 较 小
1 , 

当 组数据在普遍 意 义 的 研究上来说 甚至 可 W 忽 略这 类微 小 概率 的数据


一 一

, 

在 数据做 了 归 化 处 理 之 后 音 节 之 间 就 已 经 消 除 了 因 外 界 主 客 观 因 素所造


成 的差异 具有真正 意 义上 的对 比 性 对进 步 的研 究 工作提供最直接有效 的 数




, ,

据 依据 

1 



第H 章 音节时 长与 其携 带信 息量 的 关系研 究 

第 H 章 音节 时长与 其所携 带信 息量 的

关系研究

3 . 1 信 息论原理

3 . 1 . 1 信 息论与信 息赌

信 息 论是香农 C l au d e  S h a nn o n 于 1 9 48 年创 始 的 专 口 研 究信 息传输和 信 息 处理

中的 些规律 的 科 学 采用 概率论 和 数理统计论 的 方法解决关于信 息烦 信 息传




, 、

输 数据压缩等 系列问题

、 

般来 说 关 于 信 息 论 的 研 究 内 容主 要 分为兰类 第 类是 W 编 码理论为 中


一 一

, ,

也 的信 息论 , 主 要致力 于研究信 息 系 统模型 ,


信道容量 , 信 息度量 , 信源编 码和

信道编码 的 研 究贡献也 主要集 中 在这 领域 第 二类是主要研 究是为




, s h a nn o n ;

信 号 为主要对象 , 分别对信 息 和 噪 声进行统计分析 ,


从 而研 究 信 号 的 最 佳 过 滤 

预测 、 估值和 检测 等 ; 第H类是 W 计算机为 中 屯 的 信 息处理 、


, 包括语 言 、 文 字和

图像的识别 动 翻 译 W 及机器 学 习 等 理论 本文 立足于第 类研 究展开对音节





自 。

信 息 量 的 探索 而信 息量 的 计算和 消 除 不 确 定 性 的 程度有着 紧密联系 也可 W 说


, , 

消 除 多 少 不确 定 性就 获得 多 少 信 息 量 关于 如 何消 除不确 定 性 有 个历史 的发



展过程 在信 息论 出 现之前 科 学 界关于 信 息 的 萌芽 己 经孕 育 早在 世纪


" "
, , , 1 9 

吉 布 斯和波 耳兹 曼把统计 学 引 进 到 物理学 进而使 不确 定 性和 偶 然性成为不得不



 ,

考虑 的 问 题 , 而后 , 吉布斯于提 出 了 关于计算不确 定 性的 方法 , 这是最早 关 于计



算不确 性 的 科 学方法 ; 后 来波耳兹曼将 H 函 数 融入统计物理 学 ,


并指 出 了 赌的

定义 即 物理系 统信 息 不 足 的 度量 但在这 时期 中 由 于 客观条件 的 制 约 并未




, ,

将 信 息 理论进 步深化 直到 来表 示 在 数据 传 输 的 过程 中 具 有


" "
H ar
t 巧 用 N

。 l l og

N 个不 同 可 能状态发生 的 不 定 性后 信 息 的 概念 才 明 晰 起来 这 公式忽 略 了 各


, ,

种状态在 可 能 出 现上 的 差 别 。 随着无线通讯 、 电子计算机和 自 动控 的 出 现 ,


香农

信 息 论与 编 码 》 傅祖芸 赵建忠编 北京 电子工业大学 出版社 年 第 页


《 , , : , 20 1 4 , 5 

1 



普通话 音节 时长与 其所携带信 息量关系 的语音 实验研 究 

( s h ann o n ) , 维纳 ( wi e ne r )

i s her
f H人分别 从不 同 的 方面探索 完成 了 信 息 的 统计

理论 ,
结 果为在 通讯 中 需 要 随机事件为对 象才 能确 定信 息 的 不确 定性 , 也提 到

了 消 息 的 本质 就是在 于 消 除 的 不确 定 性 , 在 计算 中 ,
消 息 出 现 的概率越小 , 也即

不确 定 性越大 ; 那 么 消 除不确 定 性后 所得到 的 信 息 量就越大 , 反 之越 小 , 因此分



析消 息 的 概率分布是关键和 必 要 的 , 可 W 用 统计平均信 息 的 方法 来量化 



" "

信息贿 是 S h a nn o n 从物 理 学 中 引 进 的 概念 , 上文 己经提到在物理学 中

贿的定义 , 信 息 煽用 于计算消 息在 接 受 的 过程 中 所包含 的 平均 信 息量 , 也 是对消



息 中 不确 定 性 的 量度 , S h a nn o n  在 《 A Ma t h e m at i c a l  T h e o r y  o f  c o mm un i c a t i o n 》

" "
通信 的 数学 理论 》 文中提出信息 摘 的 计算 公式

( 《 ) 

好 (义) = -

戶 化 )
l og 6 ,
叫乂 ) )
。 =
 1

2 3 , ,
… … 


 ( ,

在这 公式中 表示为 随机变量 义 的 贿值 等式右边 的 为 随机




片 X

, // ,

( )

变量 X 的 概率质 量 函 数 , 戶 表示 W b 为底 , 随机变量 义 概率质 量 函



数 的 对数 在计算 中 的取值 般为 或者 然数 当 时 贿值




, , b 2 , 1 0 , e ;
b 2 ,

的 单 位为 当 b

1 0 时 , 烦值 单 位 为 化 当 b

e 时 ,
烦值单位为 口f 。
计算

出 的 贿值越高 , 事 件所包 含 的 信 息 量就越大 



3丄2 霍夫曼编码

编码是对信源 的 原 始符 号 按 定 的 数学规则进行 的 种变换 在无失真信




一 一

源 编 码有 霍 夫 曼码 费诺玛 香农 费诺 埃利 斯码 游程编码和 MH 编码 算数


、 、 、 、

编码 、 字典编码等 ,
其 中 霍 夫曼码 是最佳码 , 所 谓 的 最佳码 是 指 在 所有 的 可 能 的


可译码 中 , 此码 的 平均码长 最 短 

H uf
i n an C o d i n g( 霍夫曼编码 ) 是 D av i d A l ber
t H uf
in an  ( 戴维 ?
霍夫曼 ) 

巧42 年在麻 省 理工 大 学攻读 博± 时 发 明 的 种编码方式 用 于 无损 数据压缩 的




滴编 码算法 也称为权编 码算法 ,


, 并发表 《 A  M e t h o d  fo r  t h e  C o n s t r u c t o n o f

 i

M R e du n d a n c y C o d e s 》 种 构 建 极 小 多 余 编 码 的 方法 文加 W


一 一

i n i m um -

 ( 《 》 )

解释 这 编码方式主 要用 于计算机数 据处 理 采用 变长编 码表对源符 号进行编




。 ,

信 息论与编码 》 傅祖芸 赵建忠编 北京 电子 工 业大学 出 版社 年 第



《 , , : , 20 1 4 , 1 3 2 


20



第H 章 音 节时 长与 其携 带信 息 量 的 关系 研 巧 

" "
码 变长码是编 码 中 的 种 码 除此之外 还有 二元码 等长码 奇异码 


, , 、 、 、

奇异码 同 价码 码的 次方扩展码 唯 可译码走种 变长码用 在 组码字 的




一 一

、 、 N 、 ,

码长 各 不相 同 的 序 列 内 变长编 码 表是通过 种 评估 来源符 号 出 现机率 的 方 法得




到的 , 出 现机率 高 的 字 母 使 用 较短 的 编 码 , 反之 出 现机率低 的 使用 较长 的 编码 

这样 来就 会 使 编 码 后 的 字 符 串 平 均 长 度 和 期 望 值 降 低 从 而 达 到 无 损 压 缩 数 据


的 目 的 

例如 ; 在英文 中 , e 的 出 现机率最高 , 而 Z 的 出 现概率 则 最低 。 因 此当利用



霍 夫 曼编 码对 篇 英文进行压缩时 用 普通 的表示方法时 每个英文字母均 占用




, ,

个 字 节 卸始 即 个 比特 而 很有 可能用 个 比 特 来表 示 则可能需要


一 一

( >
, 8 , e , Z

个 比特 相 比发现 只 使 用 了 的 般编 码长度 则 使 用 了3 倍 多 




25 。 , e 1 / 8 , Z 。

果 能准确 估算英文 中 各个字母 出 现概率 就可 大 幅度提高无损 压缩 的 比 例



, 

霍 夫曼编 码分二元编 码 和 r 元编码 ,


两 者 的 区 别 就 在 于 二 元码 是 每 次将 两 个

出 现概率 最小 的 符 号 用 0 和 1 ( 二 进 制 ) 合 并作 为新 的信 源符 号 , 并进 行编码 

码是把 个概率 最 小 的 符 号 合 并 为 个新 的 信 源符号 并进行编 码



r r , , r 3 ,
4 5 ,
. . .


文 章 W 二元编码为例 进行编 码说 明 它 的编码步骤分为 四 步 第 步 将 




, , ,

个信 源符 号按 照 概率大 小 分布 W 递减顺次排 列 如 乃 > 尸2 > > > 户《

, , : / 3 . . .


第二步 ,
将 0 和 1 码分 别配备给概率最 小 的 两个信源符 号 , 同 时 将送两个信 源 符

号合并成 个新符 号 并 且 用 这 两 个 最 小 概率 的 和 作 为 新 符 号 的 概 率 这便会得




, ,

到 只 包含 N -

1 个符 号 的 新信源 , 可 称为 S 信 源 的 缩减信 源 S i ; 第H步 是把缩



减信源 S i 的 符 号 再 按 概率 大 小 的 降 序 依 次排 列 , 同 样 按 照 第 二 步骤将概 率最 小

的 两个符 号 合成 个新符 号 并分别用 和 码表示 形成 N 个减缩信 源


2 S




, 1 ,

最 后 依 次将缩 减信 源 只 剩 两个符 号 为 止 , 也用 0 和 1 表示 ,
最后两个符 号 的 概率

之和 定等于 然后 从最后 级缩减信源开始按 照 编 码路径返 回 就得 出 各个




一 一

1 , ,

信源符号 所对应 的 码 符 号 序 列 。 在 霍 夫 曼 编 码 过程 中 , 当 缩减信源 的 概率分布 重



新排列 时 ,
应使合 并得来 的 概率和 尽可 能 的 处于最 高 的 位置 , 这样 可 W 使合 并 的

元素重 复编 码 次数减少 ,
短码可 W 得 到 最大化利 用 

霍 夫 曼码 主 要 有 H个特 点 第 它 的 编 码方法保证 了 概率大 的 符号 对应 短




: ,

码 ,
概率 小 的 符号对应长码 , 且短码得到 了 充分利用 ; 第二 , 每 次缩减信源 的 最

实 例 来源 于 维 基 百科


2 



普通话音节 时长与 其所携 带信 息量关系 的语音实验研究 

后 两个码字 总 是最后 位码元不 同 前面各位码元相 同 第H 每次缩减信源 的




, ,

最长 两个码字有相 同 的 码长 。 而 之所 W 称 霍 夫 曼码 为 最佳码 , 是 因 为它 符合最隹



码 的 性质 最佳二 元码 的 性质 需 要满足

。 

若 则 Z < Z 若 在 信 源 中 出 现 的概率大于 那么 的 码长 


> k
1 )
气 6 ,

j  t j

小 于或等于 k 的 码长 

2) 两个 最 小 概率 的 信 源符 号 所对应 的 码字具有 相 同 的 长度 ; 在做减缩信 源



的 过程 中 己 经 实 现这 点



两个 最 小 概 率 的 信 源符 号 所对应 的 码 字 其 除最后 元码不 同 外 前面




3 ) , ,

各位码元 都相 同 霍 夫 曼码两 个最 小 概率 的 最 后 元码分别 为 和


。 0 1 

上述 己 经说 明 霍 夫 曼码符合最佳二元码 的 性质 ,
同时 ,
霍 夫 曼码

定 是最佳 即 时

码 因 为 它 的 平均码长 定小 于或等于任意其他 即 时码

, 

本 文 需 要 证 明 在 人 类 的 交 流过程 中 传 递 的 信 息 是 否 符 合信 息 的 传 递 原 则 霍

 ,

夫 曼码 是 最佳 的 信 息 传递编 码 原 则 , 即 :
出 现概率越 高 的 符 号 在 编 译 中 使用 的 码

长越短 , 且所有 码 的 平 均 长度 比 其他编 码方 式 的 平均 长度 短 



3 2 .
分析 实验数据

在 音节切 分工作结 束 W 后 需要对所 收集 到 的 数据进 行划 类 归 纳 方便进




, ,

步 的 分析 归 类 的 标准不唯 文 章 先 从整体 时 长 上进 行 划 分 主要分为短时音




, , ,

节和 长时音节 在 划 分 结 束之后 为 了 方便观 察 同 音节 内 部差异 又将所测 音




; , ,

节 中 出 现频 次大 于 的 音节进行 统计 并提取 时 长 数据

, 

3 2 . . 1 数据 时段 分类 统计

从整个数据入手 最 关 键 的 工 作 是 分 出 大 于和 小 于 归 时长 的 音节 换言之

, , 

音 节 时 长 偏 短或偏 长 都 需 要提 取 出 来进 行 分 析 根据 这 需求 将 音 节数据 分 为


, ,

三类 , 短时音节 、 正常音节和 长时音节 , 而划 分时 间 长短 的 依据 为数据库 中 所有



归 时长为准 定 正常音节为 秒 取 秒 的 前 后 波动 为合理范 围 如表



1 , 0 . 2 ,
4 


《 信 息论与编码 》 傅 祖芸 , 赵建忠编 , 北京 :
电子 工业大 学 出 版社 , 20 U 年 ,
第 2 1 8 


22



第H章 音节 时长与 其携 带信 息量 的 关系 研 究 

表 4 节数量按 时长分类数据表

 ^ 


短 时音节 ( f 氏于 0 8s . ) 正 常 音 (
0 8 .

1 . 2S


长 时音节 高 于 (
1 . 2s


音节数量  ^  ^ 
H2


所 占 比例 
3 m
 

^   ^ 

从表 中 可 W 得 出 短 时 音节在 定 程度 上 多 于 长 时 音 节 而 正 常 音 节毋 庸 置 疑


占 最大 比例 在划 分 好H类 时 长 值之后 再将 分 属 于 每 类 的 音节集合成为新 的 数




据库 , 便于观察和研 究 

在 短 时音节 中 我们 又 可 W 统计 出 每 时段的音节数量 并且将其所包含 的




, ,

所有 音节 列 入表 中 , 从而观察变化规律 , 根据 统计得 出 表 5 

  
表 5 短 时 音节分段数量统计 

音节 音节


所含音节


时 长 数 量   

0 . 3 S

0 4S
.  5 了 、 的 、 的 、 不 、 了 

了 、
了 、 了 、 的 、 了 、 就 、 不 、 了 、 的 、 了 、
啦 、 呢 、 着 、 了 

0 4s 0 5 s

.  1 


了 、 老 、 不 

了 了 你 了 把 西 火 里 了 了 了 了 了

、 、 、 、 、 、 、 、 、 、 、 、 、 

3 5 了 服 涂 听 和 了 人 就 了 的 了 的 了

0 5S 0 6S

. . 、 、 、 、 、 、 、 、 、 、 、 、 、 


的 、 也 、 了 、 的 、 你 、 宝 、 子 

子 、 本 、 回 、 的 、 是 、 给 、 带 、 宝 、 了 、 不 、 的 、 他 、 伙 

怎 、 看 、 了 

06 s
■  ■

0 7 s 4 4

来 、 你 、 要 、

、 们 、 到 、 地 、 是 、 子 、 被 、 我 、
会 、 了 、 个 


了 、 爸 、 维 、 住 、 我 、 到 、 满 、 了 、
没 、 头 、 不 、 了 、 又 、 


子 不 跟 我 你 呀 了 保 盖 你 么 刮

、 、 、 、 、 、 、 、 、 、 、 、 

的 、 了 、 开 

了 、 都 、 宝 、 仪 、 租 、 我 、 己 、 也 、 了 、 的 、 包 、 口 、 植 、 的 

0 7 s 0 8 s5 9
. 

去 、
了 、 他 、 么 、 礼 、
他 、
我 、 了 、 才 、 遍 、 还 、 子 、 体 、 也 

东 、 了 、 就 、 明 、 不 、 了 、 啦 、 爷 、 有 、 那 、 力 、
车 、
剩 、 部 



? 

在表 5 中 的 数据 可 W 看 出 随着 音长 的 不 断增 长 , 音节数量也 随着増加 , 再结


" " " "

合音 节 来看 , 可 W看 出 了  的 的数量 占 到 了 较大 的 比例 , W 化5s 为界 , 


" "

于 0 5

砂 所含 的 音节 除 老 W 外均为单音节虚词 , 大于 0 5 .
秒 所含 的 音节 中 出

现 的 音节 才逐渐 出 现其他单 字 

根据 统计得 出 , 在短时音节 中 轻声音节共 77 个 , 非轻声音节共 83 个 ; 




23



普 通话 音 节 时 长 与 其所 携 带信 息 量 关 系 的 语 音 实 验 研 究 

轻声 情节略 多 于轻声 音节 进 步得 出 个结论 短 时 音节 中 并不都是我们 通常




一 一

, :

认为 的 轻声 有 些 正 常 声 调 的 音节在语 流 中 和 轻声所用 时 长差 不 多 样短

, 

短时音节 时 间 为 标准 的 分 类 己 经 定 型 , 同样 ,
将长 时音节也 做此类分析 

表 6 为 长 时 音 节 的 分 段 统计表 

表 6 长 时 音节 分段数量统计 

音节 音节


所含音节


时 长 数 量  

糊 、 7K _
、 看 、 周 、 缝儿 、 进 、 式 、
护 、 头 、 你 、 实 、 汗 、 有 

1 . 2s -

1 . 3s  3 6 国 、 散 、 该 、 同 、 交 、 啦 、
块 、 完 、
买 、 环 、 又 、
了 、 堪 


、 子 、 说 、 车 、 红 、 肯 、 事 、 烧 、 销 、 起 

鞋 、 全 、 新 、 问 、 上 、 女 、 展 、 破 、 用 、 说 、 吗 、 想 、 手 

1 . 3 s

1 . 4 s 2 


啦 、 湿 、 测 、 垫 、 吗 、 看 、
看 、 别 

查 、 念 、 从 、
场 、 呢 、 及 、 咬 、 效 、 发 、 包 、 看 、 什 、 我 

1 . 4S -

1 . 5 S  2 0 一 _


始 、 现 、 年 、 啦 、 两 、 兀 、 是 

1 . 5S

1 . 6S  1 2 票 、 新 、 程 、 买 、 爬 、 成 、 上 、 场 、 真 、 全 、 嫂 、 


1 . 6s

1 . 7s  8 明 、 歇 、 活 、 堂 、 酒 、 这 、 钱 、 站 、


1 . 7s

1 . 8s  8 没 、 光 、 小 、 拜 、 学 、 妙 、
忙 、 端 

1 . 8S

1 . 9S 骗 、 全 、 我 、 吗 、 闷儿 、 找 、 


7


1 . 9s 2 4s


 .

在表 6 中 , 随着 音节 的 时长增 长 , 音节数 量呈 递 减趋 势 , 需要说 明 的是大于




" " " " "
L8 秒的音节 只 有 7 个 , 其 中 大于 2 秒 的 音节 只 有 闷儿 找 盛 个 ,


W和 秒归入 段 所含 音 节 极少 出 现 单 音 节虚 词

1 . 8 。 

从两个统计表 中 不难得 出 个结论 越靠近 正 常音节 时长 范 围 音节数量




, : ,

越多 ; 极端 时长 音节 如 0 3
. S

0 4S

和 1 . 8S

2 4S.
这两个时 长段 中 的 数量 只 占据 了 

小 的 比例 。
如 果用 曲 线 表示从 短 时 音节 到 长 时 音节 的 变化 的 话 , 曲 线 形状几乎接

近正 弦 函 数 

24



第H章 音节时长与 其携 带信 息量 的关系研究 

3 2 2
. . 抽样数据 分析 与 说 明

短时音节和 长 时 音节 的 分类提取结 束 之后 需 要在 其 内 部在进斤音节频次 的



 ,

提取 上 文 己经提 到 需 要对 出 现频 次大于 的 数据 进行分别 整合查看 数据变化


, 

寻 找数据特征规律 表 是所测 音 节大于 的 音 节 统 计表


。 7 


表 7 音节频 次 统计表 

音节


频 次 所 含 音 节


 

38  1 7 

1 4 1 的 

1 2  1 我 

 2 看

1 0 、


9  1 啦 

7  4 不 、
儿 、 你 、
子 

6  1 就 

5  3 大 、 至J I

、 是 

4 9 爸 、 宝 、 老 、 们 、 去 、 他 、 头 、 要 、 在 

包 、 别 、
车 、 当 、 东 、 个 、 开 、 吗 、 么 、 没 、 那 、 呢 、 钱 

3 22


全 、 外 、 忘 、 下 、 新 、 也 、 用 、
有 、 找 

吧 、 把 、 百 、 部 、 场 、 程 、 出 、 从 、 等 、 定 、 都 、 发 、 盖 

和 、 红 、 护 、 还 、 回 、 婚 、 挤 、 家 、 交 、 进 、 快 、 来 、 里 

2 5 

礼 、
买 、 口 、 年 、 娘 、 破 、 起 、 人 、 上 、 生 、 实 、 手 、
说 


听 、 问 、 西 、 现 、 小 、 鞋 、 学 、 呀 、 爷 、 又 、 照 、 


" " " "

表 中 处于第 位的是 了 共出现 次 其 次是 出 现 次的 的 




7  , 3 8 , 1 4

" " " "

出现 次的 我 需要特殊说 明 的在 出 现 次 的 单音节 儿 这 音节 出 现


1 2 ;
7 ,

" "

的 频次较 高 的 原 因 是在 语流 中 会 出 现 部分 儿化音 儿化音 中 儿 的 时长全 部




" " "

归入它 所 附着 的那 个音节 内 , 但在 文 字表述 中 注 明 儿 字 , 纳闷儿 为例 



" " " " " "

在切 分时长时 , 将 纳 、 闷儿 看为两部分 , 并不单独测 算 儿 音 , 但在入



因 此在 论证过程
" "

库 时 需 要文字注 明 ,
所 W 就产 生 儿 字 出 现频次较多 的 情况 , 

" "

中 儿 作 为 儿韵 时 不 纳 入考 查 范 围 

需 要注 意 到 的 点是 音节 出 现 的 次数并不单 而且 同 个音节在 不 同 的


一 一 一

: ,

语 言 片 段里 的 时 长 也 不相 等 因 此 需要 提取 同 音 节 的 时 长 并 查看 他 们 之 间 的 时


25



普 通 话 音 节 时 长 与 其 所携 带 信 息 量关 系 的 语 音 实 验 研 巧 

长差异 , 下文选取具有代表性 的 音节进行 分析说 明 



" "

表 8  了  的 时长数据 统计表 ( 时长 单位均为



字节

了 语 句

语句 名 称

高 跟儿鞋 断 了 笑 疯 了 6 0
I  语句 肖 容


 I

. 0 % 5

S数
. 3 1 5 0


置长


. 297

语 句 2 他 的 同 学 朋 友 们 来 了 场 盛 大 的 音 乐 宴 0  7云 品 0

. 052 . 3 76


 ̄  ̄

7 语 句  明 天 就 要 参 加 婚 礼 了 0
5 . 05 ^7 . 8 06

 ̄  ̄  ̄
语 句 % 是 烧 糊 涂 了  0 09 . 户 4 5 5 7 0 4
. . 1 


7 ^
语句 57 你 没 忘 了 我  0 08 . 广 5 . 1 7 

T 语句 6  高 銀 儿 鞋 断 了 笑 疯 了  0 0 8 2  5 3 5  0 4 6 . . 1 . 3

语句 6 出 租 车 司 机 们 认 为 损 失 了 块钱 0 0 7  0 44

5 . 3 . 


 ̄  ̄  ̄

 ̄  ̄
T  ̄
语句 1 4 把 我 从 回 忆 揣 到 了 现 实  0 0 9 4 9 0 4 7 7
 . 1 . 3 .


F  ̄
 语句  2 我 给 你 买 了
5 斤  4 8 9  0 4 7 8

. 5 .

T 语句 1 6 在 人 民 大 会 堂 东 口 外 广 场 举 行 了 欢 迎 仪 式  0 0 8 2  6 2 0 4  0 5 0 7

 . . .

 ̄  ̄



 ̄  ̄
语句 4 0 大 选 的 过 程 还 是 充 满 了 悬 念 0 0 7 5  6 8 7  0 5 4 
 . .


. 1


F  ̄
语句 3 9 己 经 销 到 了 全 国  0 方r 7 0 0 8 0 526 
 . ( .  .

T 语句 2 莫 名 其 妙 被 灌 了 肚 子 的 酒 0 0 9 4  ^ 6 0  0 5 2 7

3 . . 3 .





 ̄  ̄  ̄


T 语句 7  从 口 缝 儿 就挤 了 进 去  0 0 8  

99 0 5 2 . 8 5 . 1 . 8

T 语 句 6 4 事 件 调 查 有 了 新 的 进 展 0 0 7 5  0 5 2 9 . .

 ̄  ̄  ̄

语句 4 有 辆 面 包 车 发 生 了 故 障  0 0 7 户 7 7  0 另矿 


7  ̄  ̄
. . 1 5 .

7 语句 6 7 都 留 下 了 他 的 身 影 和 汗 水 0 0 8 8 6 0 0 5 . . 3 1 . 3 

语句 3 4 当 年 你 植 物 课 考 试 及 接 了 吗 0 万9 5  5 八 7  0 5 4 7 
 . .


语 句 1 8 再 说 了  0 . 1 0 2 5 4 2

. 1 0
 ̄  ̄
. 5 54


了 语 句

1 5 我 就 纳 闷 儿 了 

0 . 1 3 i

4 . 2 0 8 〇! 





 语句 6 6 只 交 了 八 百 元 0 086
. 6 . 48 1 0 . 558


7  语 句 巧 我 决 定 了  0 . 1 2 4 4 7 9 6



 ̄  ̄
7 语 句 起 到 了 战 略 角 色 的 作 用  0 0 9 9  6
4 1


 . 2 6 8 0 6 2 . 


7 语 句 0 部 破 电 视 看 了 不 下 两 百 遍 化 3 0 4 0

3  1 . 85 9 . 63 3


 ̄  ̄  ̄

J  语 句 5 4 不 是 该 你 了 吗  0
 0 4 6 . 1 . 3 5 2 0 6 60

.

了  语 句 0 不 要 忘 了 刚 才 我 们 问 的 那 个 问 题 呀 0 0 8 广 8
1 . . 1 74  化 品户


 ̄  ̄  ̄


T 语句 2 我 忘 带 钱 包 了 0 4 4 4
3  . 1 /7 5 5


了 语 句

 搞 起 了 野 外 勘 测  0 2 3  7 6 8
68

. 1 5 .



 ̄  ̄
语 句  找 新 娘 的 鞋 子 找 不 到 了  0 H 6 6 2 9 0

—  ̄  ̄
. . 3 . 724

T  语 句 2 当 然 了 1  0 0 8 2 义 8 7 0 .


1 . 725

语 句  我 又 要 结 婚 了  0 0 4  6 9 9  0
1 1 . 1 . 1 . 73 0

语 句  别 说 了  0 0^ 7 8 9 0
1 3 . . 8 . 746




 ̄  ̄
语 句 2 2 垫 了 鼻 子 你 也 成 不 了 美 女  0 4 2  4 4 0 . 1

5 . 3

. 759


T  语 句 1 9 下 雪 了 

0 . 1 68

4 . 6 3 3 0 J 77

 ̄  ̄ ^
语句 4 7

他 爬 出 去 了 0 . 1 1 0 7 . 64 2 0 . 83 8

 ̄  ̄
T  ̄
他 现 在 实 在 是 太 忙 了  0 7  5 4 8 6 0 省 3
语句 3 1  . 1 1 .




7  语 句 3 5 就 剩 个 礼 拜 了  6 4 4  0 9 9

 . . 5

7  语 句 6  老 爷 爷 这 么 大 年 纪 了 也 在 学 习 外 语 呢 0 2 2



42
 云户

 . 3

5 . 1

1 .

26



第H章 音节 时长与其携带信 息旦 的 关系研 究 

" "
表 8 是音节 了 的 具体数据 统计表 , 其 中 罗 列 了 所测 音节 中 包含 的 共 3 8

" "
个 了解的 除外 的 时长 数据 数据 己 经按 照 归 时长 的 升序进斤


' '

了 了

( ) ,

" "

排列 , 方便观 察 和 比 较 数 据 。 根据计算得 出 了  的 时长主要集 中 在 0 4S



0 6S
. 

这 时段 所 占 比重 约 为 % 但最 短 时长和 最长 时长之 间 相 差将近 秒的时间


一 一

, 53 , 

在 后 期 的 论 证 过程 中 主 要 W 平均 值 为 准 类 似 这 样 的 特 殊 时 长 出 现 仅 占 极 小 的 比

 ,

" " " " " "
重 , 仅 作 为参考 。 在上表 中 的 语句 6 中 出现了 两个 了 ,
断了 和 笑疯 了 

" 


他们 的 时长分别 为 和 根据这 现 象可 W 看 到 位于句 中 的 了

0 297s
. 0 43 6s
. . ,

" " " "
比 位于 句 末 的 了 所用 的 时长更短 ,
究 其原 因 或可 归 为 两个 了 所肩 负 的 职

责不 同 所携 带信 息量大 小 也有 区 别 要确 定这 事 实存在 需 要更 多 客观数据 的





支持 

" "

那 么 在 观 察所有 的 了 出 现 的位置后 , 可 W 得 到 出 现在 句 中 的 数量为 23



个 , 位于句末的为 1 5 个 , 同 时在 位 于 句末 的 1 5 个音节 中 , 时长处于前半段的仅



有 3 个 , 处于后 半段 的有 1 2 个 ; 位于 句 中 的 23 个音节 中 , 处于 前半段 的 有 1 



个 个在 后 半 段 这个大 比例 己 经可 从侧 面 印 证 上 段 中 我们 的 设 想 笔者


, 7 ;

" "

认为 引 起这 比例 差异 的 原 因 有二 其 是 了 的两种不 同 的用 法 位于句


一 一

, , ,

" "

中的 了 般情况 下 只 有 完 成动 作 和 事物 发生变化两种 语法 意 义 而位于句 末




" "

的 了 通 常 不仅具有语法 意 义还有充 当 语 气 词 的 功 能 ,
从 而使得 出 现在 句 末 的


" " " " " 

了 相 对句 中 的 了 时长要长 点 其二 是节点 的 问 题 位于 句 中 的 了

, ,

在 发 音 时 很 容 易 与 前后 相 邻 音节 的 节 点 重合 , 缩短 了 它本身 的 时长 , 简 单来说 

" " "
个音节 的 发音动 作 还没有 结 束

在前 音 就 已 经开始 准各 或者在 


, L , e

" "
还没有 完全打开 后 个音节 的 辅音 己经进入 发音 准备 位于句 末 的 了 只有



" "
和前 个音节相 叠 合 的 可 能 不存在后 个音节 的 问 题 所 W 音会完整 出


一 一

, , e

" "

现 在 定 程度 上 势 必 会使得句 末 的 了 时长要相 对长 些
一 一

, , 

" " " "

在 分 析 过位 于 频 次第 位的 了 表 列 出 了 位于第 二位 次 的 的 数据

, 9 

27



普 通话音节 时 长 与 其所携 带信 息 量关 系 的 语音 实 验研 究 

时长单位均为秒

表 9 的 的 时 长 数 据 统 计表 ( 

巧
语句 实际
 护勺 归 归
一 

爭 节
宇:

下 I 句内合 I口 I I  I

名称 


时长 系数 时长



的 语 句 3 找新娘 的 鞋子找不 到 了 
0 05 0 . 6  ̄
. 2 3 90 3 . 1 

的  语 句 老 公 呢 把 手 里 的 红 包 都 用 光 啦  化 0 5 4 


6 338
. 化 342

语句 67

都 留 下 了 他 的 身 影 和 汗 水 0 一
. 070 

r0 . 423


的 语 句 5 1

真 的 0  ̄
. 0 73  5 986
. 0 . 440

的 语 句 1 0

不 要 忘 了 刚 才 我 们 问 的 那 个 问 题 呀 0  ̄
. 068 8 . 1 74 化555


的 语 句 起 到 了 战 略 角 色 的 作 用 0
4 1 . 089  ^ 68 0 . 5 5 8

1^ 语 句 2 他 的 同 学 朋 友 们 来 了 场 盛 大 的 音 乐 宴  0 7 0

. 080 . 289 . 5 79


 ̄  ̄  ̄


W  ̄
语 句 6 4 事 件 调 查 有 了 新 的 进 展 0 . 085 7 . 02 1 0

. 巧5


1T  ̄
语 句 42 想 听 听 我 的 也 里 话 吗 0 . 1 06 5 . 8  0 6
. 1 

1T 语句 莫名 其妙被灌 了 肚 子 的 酒 0 5 0

23 . 1 1 1 . 603 . 624



的语 句 40

大 选 的 过 程 还 是 充 满 了 悬 念 0 . 1 05 6  ̄
. 87 0 . 723


的 语 句

6 3 周 日 即 可 购 买 除 夕 的 火 车 票 0 . 1 1 0  r0 . 73 2

W 语句 2 他 的 同 学 朋 友 们 来 了

场 盛 大 的 音 乐 宴 化 1 0 1 7 . 289 化 73 7


的 语 句 % 赶 紧 的
I I I 0 . 1 64
 5 I
. 96 1
 0 9 7I
. 


" " " "

在表 9 中的 的 的 最大值和 最小 值么 间 的 差距没 有像 了 那么大 , 其中




" " " " " " "
语句 2 出现 了 两次 的 , 他 的 同 学朋 友们 中的 的 时长为 化 5 79s ,
盛大


" " " " "

的音乐会 中的 的 时长为 0 73 7s

; 从表 中 可 得 出 表示领属 的 的 字 时长


" " " " " " "
都相 对较短 ,
如 :
新娘的 鞋子 ,
他的身影 , 他 的 同 学朋 友们 ,
我的屯 里

 、

" " "

话 四 个短语 中 , 的 的 时长最大为 0 6 . 1 4s 

" "

位于第三位 次 的 是 我 ,
见表 1 0 

" "

表 1 0  我 的 时长数据 统计表 ( 时长 单位均 为巧 



语 句 实 际 归 归
一 

字下 口 側合
名称  
时 长 系 数时 长

  ̄

语句 1 4 韦 我 从 回 忆 端 到 了 现 实 0 . 1 5 0 4 3 9 0 6 5 6
. 
 .


我 就 纳 闷 儿 了 0
语句 1 5 . 1 60 4 2 0 8 0 6 7 5

 .


我 语 句 ^ 我 照 照 看 啊  0 5 . 099 7 . 1 瓦   ̄
0 707

 .

语 句 4 6 我 还 没 当 爸 爸 呢 0 — —
. 1 33 5 . 466 0 . 72 9

语 句 U 我 又 要 结 婚 了 0  . 1 07 6 . 99 1 0 . 74 5

语 句 4 2 想 听 听 我 的 也 里 话 吗 0 . 1 4 厂 5 . 8 0 . 820

^ 语 句 0 要 忘 了 刚 才 我 们 问 的 那 个 问 题 呀 0 1 . 1 02 8 . 1 74 0 . 83 6

我 语 句 5  上 来 就 咬 我 们 家 宝 宝 0 7 0

5 . 1 1 5 . 67 8 . 879


我 语 句 我 给 你 买 了 斤 0 4 0

25 . 205 . 859 . 995





语 句 2 我 忘 带 钱 包 了  0
3

. 2 4 2 4 7 5 5 .


 1 . 1 52

我 语 句  29 我 决 定 了 0 3 02
. 4 . 796  1 . 44 8



我 语 句 I
5 7  I
你没忘 了 我 I
0 . : 3 63
 I  5 . 1 7 1
 I  1 . 875

28



第 H章 音节 时长与 其携带信 息量 的 关系 研 巧 

" "

表 1 0 中列出 的 我 的 时长跨度从短 时 到长 时 , 相 对来说位于 短 时 的 数量




" "
要大于 位于长 时 的 数量 我 作 为第 人称 代 词 在所测语句 中 位于句 首 的概


。 ,

" " " "
率约为 化58 时长最长 的 我 位于 你没忘 了 我 句 中 的句末 这 句话中


一 一


" " " " " "

的 其他 音 节 时长 分别 是 :
你 的时长为 化 5 09s , 没 的 时长为 化 8 79s ,
忘 


" " " "

时长为 1 . 1 84s , 了  的 时长为 0 42. 化 , 可 W 根据这些 时长推测 出 我 的 时长




" " " "

明 显增长的原 因 为 语句重点 即 我 是这 个 语 句 表 达 中 所传 递 的 重 点

, 

需 要特别 强调 , 时长 随 之増 长 

" "
最后将位 于第 四 位 的 音节 看 进行数据整合 , 如表 1 1 

" "

 ̄  ̄  ̄
表 1 1

 看 的 时长 数据 统计表 ( 时长单位均为秒
 ̄  ̄  ̄




^ 归




字 节 名 称
— 
语句 内 容  ̄
时 长 系 数 时 长



看 2 语 句 2  嫂 子 回 去 看 看 吧  ^ 0 7  5 9 3 广 0 6


, . 1 . . 3 3


看 2 语 句 2王 快 打 开 看 看 6 7 2 6  0 8 4  ̄


. 1


看 2 语 句  4^  你 看 看  0 l 6  0 9 4 . 1 5 . 3 1 5

. 5


看 2 语 句 2 0 去 老 刘 那 边 儿 看 看 0 6 5^  0 % 9 . 1 8 5 . 1 .

看 语 句 0 部 破 电 视 看 了 不 下 两 百 遍 0 2 2 6  4 8 9 

3 00 
 . . 5 1 . 1

— —


看 语 句 5 ^ 我 照 照 看 啊  0 ^ 7 9  2 9 . 1 5

. 1 1

1 . 1


看 语 句
1 2 嫂 子
1 回 去 看 看 吧 0 2 0T  说 2   2 0 6
, 
 . 5 1 .




看 语 句
1 4 3 你 看 看  0 2 8  6 3 广 3 7 5  . 1 . 1

1 .

看 语 句
1 2 0 去 老 刘 那 边 儿 看 看 0 2 6  5厂 82

 . 8 5 . 1 1 . 3

看  语句


2 4 快 打 开看看 I  0 2 4   6 7 2 6   4 4 2  I
. 1


1 .

" " " "

表 中 出现的 看 和 看 的 标识 是 为 了 区 分在 同 个句 子 中 出 现 的


1 1 1 2

" " " " " " " "

两 个联系 的 看 顾名 思义 看 是语句 中 出 现 的 第 个 看 看 


, ,
1 , 2

第二个 在 现代汉 语 中 轻声的其 中 种情况就是叠 词 重叠 的 第二个字认为轻




。 , ,

声 在这 组 时 长数据 中 也 可 非 常 准确 地看 出 这 点 处于叠词第二位 的音节




一 一

, ,

" "

都 比第 音节要短 的 多 但 并 不 是 出 于 轻 声位置 的 看 的发音处于短 时段 




, ,

可 W 说 明 并非所有 的 轻声都是非常短促 的 它 只 是相 对于前 个重叠音节时长大




" " " " " "

大缩短 。
类似这样 的 叠词 还有 爸爸 、 宝宝 、 听听 …

, 根据 时长 数据 显 示 

" "

都为后 音 节 相 对第 音节 明 显短促 不作为叠词 出 现 的 单 动词 看 的 时长




一 一 一

非常稳定 , 在 正常范 围 内 徘徊 

W 上数据表可 W看 出 在 同 音节 内 部还存在诸 多 有趣 的 现象和 问 题 产生 的




原 因 需要解释 和进 步讨论



29



普通话音 节 时长与 其所携带信 息量关系 的 语音 实验研 究 

3 3 .
从信 息 论信 息 量角 度 论证关系

3 3
. . 1 信息论 中 信 息量 的计算

信 息论 中 的信 息量分为 自 信息量和平均信 息量 信息量 即 为在 个信源





中 每 符号所 自 身携带 的信 息量 计算 公式为


, , 

/ a =

l og P a ( /

1

2 3 ,
. . . 


 ( ,
) ^ { ^
) 

在这 公式中 的 取值决定 了 信 息 量 的 单位 和 赌值计算 样 若


一 一

, r , , r 2 

信 息量单位为 比持 W。 若 信 息量单位为 奈特 为在这 信源 中





( , r 1 0 , naf , a
( ) ,

出 现的不 同符号 , 是符号在 信源 中 出 现 的概率 



例如 个盒子 里有 个红球和 个白球 若随意摸出 个球 猜测 它 的 颜




一 一

: 8 2 , ,

色 。 在 这个 问 题 中 需 要 首 先 计 算 出 红 球和 白 球各 自 的 信 息量大小 

红球和 白 球这 随 机事件 的 概率 空 间 是


尤 二

巧 ,

2 户 (



化8 ,
0 2

 .

如 果摸 出 的 球是红色 , 那么 所获得 的信息量为 



/ =
略戶 幻 =

斯 0 8


- -

( 巧 ) ( 1 )
/( .

如果摸 出 的 球是 白 色 , 那 么 所获得 的 信 息量为 



/ 。 =
。各
叫。 =
。各 〇 2


- -

/ / -

( 2 ) , 2 ) 2

在这 随机事件 中 摸 出 红球 的概率大 信息量少 白 球 的概率 小 自 信息量




, , 自 , ,

多 ; 也可 W说 :
摸 出 红球是预料之 中 , 所 获得信 息 量就会减 少 , 反而摸 出 白 球是

预料之外 , 所获得信 息量就 大 



从 自 信 息量 的 计算公式 中 , 可 得知 如 果要计算 出 信源 中 符号 的 自 信 息量 

需 要得 知 符 号 在信 源 中 发生 的 概率 

33 2 .
所 测 音 节 携 带信 息 量 计 算 与 统 计

实验所测 的 音 节为现代汉 语 中 的 常用 字 上 小 节 己经说 明 计算信 息量需要




得 知 各个符 号 在信源 中 发生 的概率 , 由此 ,


我们 需要 收集大量现代汉 语 语 料作 为

信源 再进行词 频统计 计算 出 每 个音节在 语 料 中 所发生 的 概率 最终确 定




, , 。

3 0



第H章 音节时 长与 其携带信 息量 的 关系 研 巧 

的集现 当代小说 报刊 杂 志等为 体 的 总 语料 尽量保证语料 的 准确 性




1 0 0 MB 、 、 ,

和 即 时性 , 整合语料后 通过导 师提供 的 字词 频切 分软件进行 切 分并 统计词 频 , 



分 出 词 化 494 个 ,
词 频总 数达 1 09 0 7463 次 , 所测 的 277 个音节 出 现 的 频 次 统计

表 截取其 中 部分数据



表 1 2 音节频 次 统计表 ( 节选 

音节 频次 音节 频次 音节 频 次  音 节 频 次




的 6 1 %7 1 两  起 225 07

92 % 同 4670

了 2 1 5 7 0 5 过 2 0 6 5 4  成 8 809  车 4 598






 ̄  ̄

我 司  会
1 650 吗 4  快 4

1 8796

86 1
 ̄ — — —
53 8

他  1而 6 2  出  
 本 ^ 花 4 7

1 8539

859

3 54

 房5  从  巧 
1 37 子 0  红 4 —
1 8 7

855

1 74


在 没  老 4  面 4 1 8 1 96

8 88 04 6

是 口  小 4 钱
63 5 日 1 1 799 8 1 1 5 3 93 



 ̄  ̄

着 巧  呢 2
8 63 住 4 部
 1 788 8 1 1 3 890


— — —

你 2 想

 听
778 8 么 ’
1 7659 8 02 5

3 85 

不 ^  等  找 兩
83  发 1 1 53 9 1

19

3 850

也 下 9  头 l  学 1 53 7 79 l 3 7 74


— —

说 6 6 8 1 1 多 ’
1 536 1 别 7 6 8 4  干
— —
3 754

个 6 6 7 %  用 1 48 43  -
当 7 6 3 0 女 巧 0 5
和 被  ̄  ̄
1 404 1  太

7 600  及 3 5 5 4



上 ^ 2 5 事  1 3 857  元 7 2 s 5  ̄
 美 3 525

有 5 7 1 % 天 1 3 49 4  年 6 8 5 8


 生 %

23


这  ^7 4 9  只   ̄
1 3287   呀 6 8 0 ^  ̄
 边  4 3 90

就4 9 6 而  吧 口 ’
92 3  开 6 7 9 2  ̄
 活 34 1 

人 4 4 5  名 8 8

1 28 3 8  回  6 4 81

 行—
3 403

地 再 1 279 9  带 电

63 1 9

335 

来 家  1 2 1 8  高 2 % 场




3 224

去  作  ̄
1 1 536  也 6 国

624

3207

都 J^0 1 9  可 1 口0 2  口 2 ^  光 6 3 3 1 67


 ̄  ̄

里 3 5 4百  新 —
1 1 0 1   水
1  完

6097

3 07 3


要 笑 —
1 083  啊 巧 ^  刚  2




764


 到 3 5 而 话 1

1 03 1 2 全 巧  满   ̄
25 2 677

把  3 4 2 9广  问 —
1 02 1   4  忙
1 5 0 1
 ̄  ̄
253 6

又 跟 1 件 5 充  即 2 5 2
00 8 1

3 

那 3 1 8 ^才 ’
% 0 5   块 5 3 3 7  西  2 5 0 4


—  ̄

为 2 7 2 8 0  真 9 7 9 9 外 2^  宝 2 0 53 5 


’  ̄  ̄  ̄

还 己 967   啦 拓 3  们 2 4 2 5 1 


 ̄ — —

看 打  9 6 0 该 4 9 6  忘
5 2 39 




好 手 9 4 7 1   进 4 糾 6  提  2 1 87

大   2 5 0 6 4   儿 % 2 3  买  4 6 8 0  交  2
I I
1 78

3 



普通话 音 节 时长 与 其所 携 带 信 息 量关系 的 语音 实验研 究 

" "
在表 口 中共出现 1 % 个音节 按 照 频 次 的 降序排列 位 于 最 高频次 的 是 的 , , 

" "

前屯个 音 节 出 现 的 频次 都大 于 十 万 次 ,
从 着 开 始 频 次 差 距 逐渐越 来越 大 , 


" "
中 频次最低 的 音节为 交 共出现 2 1 78 次 , 和 最 高频词相 差 6 1 万次 , 而整个数


" " " "
据表 中 的 最低频 次音节为 酷 , 只 出现了 巧 次 , 和 的 频次相 差 极大 。 可见


在 整个数据表 中 每个音节 出 现 的 频 次 都有很 大 的 差 别 

词 频统计结 束 之后 , 需 要 计算 出 概率 , 由 于 词 频 总 数 逾 越千 万 , 出 现频 次少

的 音节数据概率 大部 分为 小 数 点 后 十 位 再做 下 部 分信 息 量计算 中 出 现极大 的 困



 ,

难 , 由 于概率为频次与 总频次 的 比值 , 在 总 频 次相 等 的 前 提 下 , 选择用 频 次代 替



概率进入信 息 量计 算 公 式 , 其结 果 与 概率计算相 等 同 。 因此 , 本文选取频次来计



算信 息量值 。 抽 样 位 于 不 同 频位 的 音 节 进 行 计 算 

" "

计算 频次 于第 1 位 的 的 信 息 量为 

/ 幻 = -

/ 〇各 户 。 = -

/ 〇各 6 1 267 1
= -

5 7 8 7 ( " 幻。
. 

( , ) r ( 1 ) 1 〇

" "
计算频次 于第 2 位 了 的 信 息量为





2 )
= —

/ 〇
《 ? ( 幻2'

)
= -

/ 〇各
, 〇
2 1 5 7 0 5=

5 . W3 ( 打如 )

" "

计算频 次于第 50 位 事 的信 息量为



/ 口 =
〇各 l
f =
〇 3 8 5 7 = 4 42( af )


- - -

 / / 1 . 1  / j 

 ( 5 〇 ) ( so ) 〇 

" "

计算 频 次位于第 1 口 位 么 的信 息量为

? ^ 口 =

/ og 戶 口 =

/ 〇
& 〇
3 856 
= -

3 . 5 8 6( n 幻。


( 1 1 2 ) r ( 1 1 2 )

" "
计 算 频 次位 于 第 2 1 4 位 奇 的信 息量为

^口 2 1 4 )
=

/ og




2 1 4 )
= —

/ 〇各
1 〇
5 9 6 =

2 77 . 乂 n幻  f)

公式 中 选取 r

1 0 ,
信 息 量单位 是 nat .
依 据 公 式对所有 数据进行计 算 ,
得出

所 有 的 音 节 所携 带 的 自 信 息量 ,
按升序 排列 统计 , 表格从抽 样 的 五个数据 中 , 

W得 出 结论 :
信 源 中 出 现 频 次越 高 的 符 号 , 其 所携 带 的 信 息 量就越 小 , 相反 , 

现频 次越低 的 符号 , 其所携 带 的 信 息量就越 大 。


依据 公 式对所有 数据 进行计 算 

得 出 所有 的 音节所携带 的 自 信息量 ,
按 升序排列 统计 , 文 中 节选前 1 00 个音节 的

自 信 息量 ,
如表 1 3 

表 1 3 音节频 次与 信 息 量统计表 ( 节选 


节 频次 信 息量 频次 信息量 音节音节 频次 信息量 
 —


I I


I I I I I I


的 6 1 %刀 -

5 . 7 87  给 4 6  手 9 4 7  9 7 

6 23 1 

. 3 5 1

3 .

了2 1 5 76 ^ -

5 . 33 4 两 2 2 0 厂 4 5 2 儿 9 2  3 970 


 5

. 3 3 3

我 65 〇 iT  5 2 8 过 2 0 6 厂 4  起  9 2 8 6  9 6 8 5 3 5 3
- -

1 . 1 . 1 .

他  I
1 3 8672
 I

5 . 1 42 I 会  |
1 8796
 |

4 2 7 4

| 成  |
8 8 0 9 | 

3 . 94 5

3 



第H 章 音节时 长 与 其携巧信 息 量 的 关系研 究 

  出 吗 8 6 4 

4 268
37 60 5 3 7
 8539

3 93 5


- - -

1 1 1 1 1


. . I

—  ̄

在 2 7 5 而 
I I I



5 . 1 06 从 1 8 3 77  -

4 2 64  本 8 5 9 9


3 93 4

 .

是 1 263 5 1  -

5 . 1 02 没 1 8 1 96  -

4 2 6 0 子 8 0  5 5

3  说2

 


着 8 6 3 1 7 

4 . W 6 小 1 7 99 尸 -

4 2 5 5 老 8 4 8
. 8

3 92 9

 .


你 7 7 8 8^   ̄

4 89 . 1 呢 1 7 8 82  -

4 252 .
 钱 8 1 1 5 

3 . 909

不 6 8 8 3l  -

4 838 .  想 1 765 9  -

4 . 2 4 7 住 8 1 1 4  -

3 909

 .



也 6 7 3 3 0

 -

4 828 .
 等 1 539 厂 —

4 . 1 87  听8 0 2 5  -

3 904

 .

说 6 6 8 1 1
 -

4 825 .
 下 1 53 79  -

4 . 1 87  7 9 7 9 -

3 . 902



个 6 6 7 % -

4 . 825  多 1 536 广 -

4 . 1 86  头 7 9 1 1

 -

3 . 898


和 6 6 6 5 ^ —

4 . 8 2 4 用

1 4 8 4 3 4 -

. 1 72  别 76 84  -

3 . 886

上 6 0 4 2 5  -

4 . 78  被
1 1 404 1  -

4 . 1 47  当7 6 30  -

3 . 883



_
有 5 7 1 58  -

4J57 事 1 3 85 厂 -

4 . 1 42 太 7 6 0 0  —

3 . 88 


 这 5 4 7 4 9 

4 73 8

 天 1 349 厂 -

4 . 1 30 元 7 2 5 0 
— —

3 . 8 60


就 4 9 6 而 -

4 . 6 9 6 只 1 把 8 7 -

4 . ^3 年 ^ 58  -

3 . 836


人 4 8 4 5 8  -

4 685
.  吧 1 2 92 3  -

4 . 1 1 1 呀 6 8 0 9  —

3 . 833


地 4 6 2 5 厂 -

4 665

 名 —
1 2 8 3 8 4 -

. 1 08 开 6 7 9 2 
— —

3 . 832


来 4 4 3 1 4 4 6 4 7 -

.  再 1 2799  -

4 . 1 07  回 64 8 1  -

3 . 8 1 


去 4 1 62 6  -

4 6 . 1  家
9 1 2 1 8 1  -

4 086

 带 9 63 1

3 . 80 


都 % 0 1 9  -

4 . 5 5 7 作 1 1 53 ^ -

4 . 0 6 2 高 6 2 9  3

3 . 799


里 3 5 4 6 厂 -

4 550

可 -
1 1 2 0 2 4 0 4 9

.  屯  6 2 4 6


3 . 796

要 3 5 2 1 5  -

4 . 547  新 1 1 0 1 1
 -

4 042
.   口 6 2 3 8  3 795


 .

- — - —


3 亢
至。 5 1 

4 5 4 6

笑 1 083 1  -

A O%.
水 -

3 . 785


把 4 2 9 广 3

4 535

话 1 03 1  厂 -

4 0 . 1 3  啊 5 9 9 4 —

3 . 778

又 3 3 7 2 6  -

4 528

 问 1 02 1 1  -

4 009

全 5 9 2 5  -

3 . 773




那 3 1 8 : 75 

4 5 03
. 跟 1 008 广 -

4 004

 身 5 4 0


 -

3 . 73 2


为 2 7 2 而 —

4 43 6

 才 % 0 -
5  -

3 . 99 1 件  ^9 2  -

3 . 73 2

还 W 7 3 7  -

4 42 7
.  真 9 7 9 9 -

3 . 99 1  5 3 3 7 -

3 72 7
.


— —

看 2 6 2 6 4 -

4 4 . 1 9  己 9 6 7 3  -

3 . W 6 夕 h 5 3 2 5  -

3 . 72 6




好 2 5 8 2 厂 -

4 4 . 1 2  打 9 6 5 0 -

3 . S >
85  啦 5 1 89
 -

3 . 7 1 

大 2 I
5 064
 I

4 3 9 9

I 手 9 4 7  



3 . 976
 

在表 中 音节按 照频次 降序排列 后 栏 中 的信 息量与 频次成反 比按照 升序排列


, 

3 3 3
. . 音 节 时 长 与 信 息量 的 关 系 论 证

在所有 的 音节信 息 量统计 结 束 W 后 , 需 要论证其 与 音长之 间 存在 的 关系 , 



中 已 经 知 道 实验所测 音节 中 个音节 出 现 的 次数大于 次 即 音节 所对




3 . 2 . 2 96 ,

" "

应 的时长并不单 最高频次的 了 出 现 了4 3 次 为 保证 实验 的 科学 性 




, , ,

别 取 其 时长 最 大值 、 最 小 值和 平均值H个数 据来研 巧 与 信 息 量 的 关 系 , 通过 计算


" "

统计 , 这 95 个音节 ( 儿 字 除外 ) 的 时 长数据 如 表 1 4 

33



普 通话 音节 时 长 与 其所 携 带信 息 量 关 系 的 语 音 实验研 巧 



1 4 :
音 节时 长最大值

、 最 小 值 与 平均 值表 ( 时长 单位均为 秒  ̄







^ I
时长
I 平灼值 I

书 I
时长

时 长
平的值
最 小 值 最 大 值 最 小 值
最大值 

的 9
0 7 5  0 4 2 3  0 5.8 7  老 0 6  0 4 7 8 0 . . 1 . 8

. . % 

了 1 . 2 5 6 0 2 8 . 1 0 . 6 钱1 4 1 . 600

 0 847 .  1 . 3 76

我 1 . 875 0 . 65 6 0 . 9 6 0 听 0 . 830

0 . 5 44 0 . 687

他 1 . 02 0 0 . 42 5 0 一
. 7 8  找 2 3 . 29 1 0 . 863  1 . 43 2

 1 . 005 0 . 4 %   0 887 .
 头 1 . 1 30 0 . 65 1 0 . 94 8

在 1 . 04 5 0 . 895 0 . 9 7 6 另  。 1 . 3 89 0 . 999  1 . 1 76



是  ̄
1 . 5 00 0 . 653  0 93 6 .
 当

1 . 200 0 . 923   1 . 09 

你 L2 1 S 0 509 .  0 74 3

.  年 1 . 4 8 0 0 9 7 5 1 . . 22 7

不 0 770
.  0 43 3 .


 0 . 5 84  呀 0 708 .  0 3 92 . 0 . 83 7

也 0 . 75 7 0 . 5 8 9

 0 693

 开 '
1 . 0 64  0 724 . 0 . 89 

说 1 . 2 3 5 1 2 7 7 .


 1 . 303  口 

1 . 0 7 2 0 73 3 . 0 —
. 9 1 

个 0 名 3 0  0 . 6 64

 0 800
.  全 1 . 806  1 . 3 00  

1 . 5 64




和 0 . 990 0 . 546  0 .

7 68 夕  —
h 1 . 073   ̄
0 8 9 4.  0 964
. 
上 1 . 52 厂 1 . 3 1 1  1 . 4 1 9  ^ '
1 . 48 1  0 . 4 5 7 1 . 03 0

有 1 . 2 2 0 0 J 6 0 0 省 5 8  进 1 . 208 0

. 83 5   ̄
1 . 02 7

这 1 . 6 74 0 8 2 2 1 2 4 8 .



 买 —
1 . 5 1 5  1 . 25 1   —
1 . 3 83

就 0 % 0 0 . . 5 0 8

 0 75 3
.  车 '
1 . 2 42 0 . 789   —
1 . 009

人 0 . 990 0 . 5 4 7 0 . 769  快 L 005 0



. 900   0 . % 3

地 0 . 650 0 . 650 0 . 65 0  红 1 . 273



0 . 97 1  1 . 1 26




来 0 . 98 1 0 . 9 1 1 0 . 807 部 1 . 0 訂 0 793


. 0 . 852 
去 0 . 9 95 0 . 73 7 0 . 890  么0 . 850 0

. 7 1 8 0 . 770

都 1 . 052 0 . 83 5 0 . 78 0  发 1 . 43 8

 1 . 088  —
1 . 278

里 0 . 905 0 . 659 0 . 7 1 5 学 1 . 44 5 0 . 92 8   1 . 3 43

要 1 . 04 8 0 6 2 9 0 7 9 7 . . 生 1 . 1 08  0 % 6 .


1 .
04 7

至。  1 . 0 7 8 0 64 9 . 0 —
. 864 场 1 . % 2 1 . 1 6 9  1 . 492

把 1 . 0 5 8 0 . 5 1 5

 0 787

 西 0 . 8 1 5 0

. 5 1 6 0 .
665

又 1 . 255 0 . 692 0 . 9 74  宝 1 . 1 27

0 . 598 0 % 7

 .

那 1 . 0 1 3 0 . 787  0 % 4 们 . 1 . 1 3 1

0 . 64 8 0  ̄
. 9 1 

还 1 . 1 54 0 . 74 9  0 说 2 忘
 ̄ —
1 . 1 84  1 . 05 1   1 . 1 05

看 1 . 442 0 . 6 3 3  1 . 096  交 1 . 23 4  1 . 1 89  1 . 1 08

大 0 . 963 0 . 743 0 . 90 9  爷 0 . % 0 1 . 780 0 . 850



出 1 . 0 1 7  0 % 4 0 . . 986  包 1 . 44 1 0 . 7 3 5 1 . 03 3

从 1 . 3 98 0 . 92 0  —
1 . 1 68  照 ―
1 . 1 82 0

. 809 0 . 995

没 0 . 879 0 . 6 8 0  1 . 087  定 1 . 045



0 . 967 0 —
. 99 8

小 1 . 7 1 3  1 . 1 63 

1 . 43 8 破 1 . 3 24  1 . % 0  1 . 220

呢 1 . 42 7 0 . 4 6 2  0 908

 东 1 . 1 22 0 . 75 8 0


9 1 

等 1 . 026 0 . 972 0 —
. 1 75  实 0 . 
94 9

1 . 05 3

下 1 . 098 0 . 9 4 8  1 . 00 0 挤 —
1 . 03 4  1 . 00   7

0 . %8

用 1 . 3 24 0 . 9 0 5  1 . 1 32  现 1 . 45 8  1 . 0%  1 . 2 1 

吧 0 . 96 8 0 . 9 1 3 0 . 98 8
 爸 
| |
1 . 1 73
 0 . 6 74
 |  0 90. 

3 


第H 章 音节时长与 其携带信 息量 的 关系 研 究 



家  0 . 8 82 0 . 1 89 0 . 536 娘 0 . 900 0 . 65 9  0 W3



 .

  百 0 0 9 60


新 1 . 73 9  1 . 1 34 1 . 3 20 1 . 0 04 . 9 1 7 .

 鞋 巧  


问 0 . 85 8 1 . 2 1 7 1 . 2 1 . 247 1 . 1

LO ^ U 8 3 W  1 . 1 23  1 . 073 0 . 985

1 . 296 0 . 95 1  1 . 1 23  礼 1 . 1 05 0 . 972 0 - 859



1 3 ^5  1 . 53 1  护 1 . 2 1 1 0 . 8 1 1  1 . 00 




子 1 . 269 0 . 600  0 79 . 1
 程 
I I
1 . 5 1 0 

1 . 1 09  I
1 . 3 1 4

除了表中 的 95 个音节 , 剩余 1 82 个音节均 W所测 的 单


时长值为准 , 若所有 的

时长都取最大值 , 音节 和 信 息 量之 间 的 关 系 如 图 5 

时 长 最 大 值 n
2 . 5 00


I 

时长 最 大 { ^1  

?
2 . 000

? ?

1 抑





诲於




今巧 L 咖

?

: ?

?
 0

. 

5 00

〇 〇 〇〇



 





   000  2 0 00  0 00 0 0 00


 1


4 000
? 
00 0

00 0


7  000 5




■ .

 信息量

图 5 ; 时长最大值与 信 息量之 间 的 关系

将 所 有 音 节 的 时 长 最 大 值 与 其 所 携 带 的 信 息 对 应 横 坐 标 轴 为 信 息

 ■

图 5

" 

图 中 设置 W
" "
为 单化 根据 对信 息 量 的 统计 最小 的信 息量为 78 7

量 5 .


为 单位 实验所


" "

纵坐标 为 音 节 时 长
" "

因 此横坐标最 小值取整 数

7 ;
, W 0 . 5 ,

" "

测 音节 中 时长最大值为 2 .  459 s , 因 此纵坐标 的 最 大值取 2 . 5 s 



从图 中可 看 出 时长在

1 . 0s

上下最为密集 , 也可反映 出 时长处于 正常 范

围 的 音节数量最 多 , 同 时对应 的 信 息量 也 都集 中 在

4 到

2 之间 , 其 中 信 息量成

团集中在

3 附近 , 因 此可 W 得 出 : 时 长处 于 正常 范 围 内 的 音 节 所对 应 的 信 息 量

也处于 中 间 状态 

由 于 时长 取值为 最 大 值 , 因 此 图 中 所 反 映 出 的 信 息 量和 时 长 之 间 关 系 并 不 清

3 5





普 通话 音 节 时 长 与 其所 携 带 信 息 量关 系 的 语 音 实 验 研 巧  

所对应 的 时长处在 正 常 时 段之 内 信 息量最




" "

晰 , 例如 : 信 息量最小 的 音节 的 ;

所对 应 的 时长也 处于 正 常 时 段之 内 时长最长 的 几个 音 节所携 带




" "

大 的音节 酷 ;

的 信 息 量 总 体 偏 大 但 时 长 较 短 的 几 个音 节 所 携 带 的 信 息 量 也 错 落 分 布 在 信 息 量


的 各个阶段 内 

综上所述 , 取 时 长 最 大值之 后 , 可 W 得 出 正 常 时 长 范 围 内 的 音 节所携 带 的 信



息量处于 中 间 范 围 , 但 并 未 得 出 其 他有 效 说 明 时长 与 信 息 量之 间 的 关 系 

在 分析 过 时 长 最 大值 之 后 选取 时长最 小值来对应信 息量来进 步 反 正他们




之 间 的 关系 , 如图 

时长最小值  1 
2 . 5 00




时长最 小值 I
 ? -

么 0 00

1



. 5 00

礙1游皆



? ?

, ?

? ?
? ? ? 考 ?
X *? ?

I 
: 言 *


? ?

?   0 . 5 00





 '

〇 〇〇








' 

7 . 000 

6 . 000  5 . 0 00 

4 . 000 

3 . 000 

2 . 000 

1 . 000 0 . 000

信息量

图 6 时长最 小值与 信 息 量之 间 的 关系

图 的 横 纵左 边 网 络格单位与 图 保持 致 图 的 散 点 分布 类 型 圆 形放射


6 5 , 5

状 , 图 6 的 散 点 分布 与 图 5 完全不 同 , 大 约 呈 = 角 形状 , 所反 映 的 关系 也 有很大

的差别 

在图 6 中 , 散 点 最 密 集 的 区 域仍 然 为横 坐标 -

4 到 -

2 5
. , 纵 坐标 0 75s.
到 1 . 25s

之间 , 更有力 地说 明 时长 处于 正常 范 围 内 的 音节所携 带 的 信 息量处 中 间 位置 ; 




" "

中 信 息 量 小 的 散 点 所 对 应 的 时 长 总 体 处 于 化 7 5 8 ^ 下 1
, 其中 信息量小于 -

5 

韦个散 点 中 并 未 出 现 时 长 大 于 I s 的情况 , 而 信 息 量 大 的 散 点 所对应 的 时 长 都 处




" "

于 正常 时 段范 围 上 包括正 常 时 段 其 中 信 息 量 大于 的散点 中 除 


( ) ,

" 

散 点 外 的 时长均 大于 I s , 同样 , 时长小 于 化5s 的 散 点 所对应 的 信 息 量均 在 -

36


第H 章 音 节 时 长 与 其携 带 信 息 量 的 关系 研 巧 


前 后 且其 中 未 出 现信


" "

W下 时长大于 的 散点 所对应 的信 息 量总 体处于 3



1 . 5s

息量小 于



的散点 , 因此 , 可 W得 出 结论 : 时长较短 的 音节所携 带 的 信 息量

较少 , 时 长 较长 的 音 节所携 带 的 信 息 量 较大 , 同样 , 携 带信 息量较 小 的 音节 出 现

的情况 中 大部分时长较短 , 信 息 量较大 的 出 现 的 情 况 中 大 部 分 时长较长 ( 不排除



特殊情 况 ) 

两 幅 图 从时长最大值和 时长最小值两个方面反 映 出 不 同 的 关 系 但是 时长 的

 ,

最值都 是取 了 音节 出 现 的 极端情况 , 只 能反映


部分的事实 , 所 W 时长 的 平均值

和信 息 量 的 对应 关系 才是最 能反 映实验结 果 , 如图 7 

时 长平 均值  2 . 

? 时长 平 




? -

2

? " >

L 

* ?



? 一 ? / ¥  ?

* 斟

猶 纔务 



? ?

* ? ? ?
? ?  -

a 






I   I


I 
I  - j * 



I 

00 0  Z OOO  L OGO  0 0 00


0 00 

0 00 

000  4 3 

0 00 





.  .

信 息量

图 7 时 长平 均 值 与 信 息 量 关 系

中 的 时 长值为所测 音节 的 平均 值 网 络格单位与 前两 幅 图 致 具体时




图 7 ,

长数据值参考表 1 4 , 时长均值小于 0 . 5s 的音节 只 有两个 , 图 中 散点分布状与 时



长最大值 图 不 同 , 接近时 长最 小 值 图 , 但并没有最小值图 中 的趋势 明 显 



在 图 中 可 W看 到 , 散 点 最密集 区 与 前两 幅 图 布 局

致 , 由 此可 W 论证 : 正常

时长所携 带 的 信 息量居 中 ; 信 息量小 的 散 点 所对应 的 时长 大部 分 为 短 时长 ; 信息



量大 的 散点 所对应 的 时长大 部分 为较长 时长 ; 总 体来说 , 图 7 是 印 证信 息 量 与 音



节 时长关系 的 有利 数据 图 

从 这 三 幅 图 中 看 出 音 节 时 长最 大 时 与 信 息 量 之 间 的 关 系 并 未 论 证 本 文 所 设

 ,

想 的 信 息量与 时长之 间 的 关系 , 但是时 长 最 小 时 、 平均值与 信 息量 的 两 幅 关 系 图



3 7



普通话音 节 时 怡 与 其所 携 带信 息 量关 系 的 语音 实验 研 巧 ;



均展示 了 信 息量与 时长之 间 具有 时长短 、 信 息量少 的 相 关关 系 



3 4 . 从互信 息 量证音 节 时 长 与 信 息 量 的 关系

3乂  1 互信 息量

互信 息 量是 香农 信 息 论 中 用 来度量符 号 的 不 确 定 性 的 计算方法 除此之外还



 ,

有样本 空 间 和概率空 间 及 信 息量 信 息量的 内 容 己在上 小节阐 述 互信




自 , 自 。

息 是在指信源 X 和信源 Y 的 某个具 体符 号 A 和 6



之 间 的 不确 定性 ,
A 和 是在

信源 中 随机 出 现 因 此相 应 的 交互信 息量 也是 个 随 机变量 互信 息 量为


X 、 Y , 。

先验 的 不确 定 性减去 尚 存在 的 不确 定 性 先验 的 不确 定 性 的 度量就是要计算 出 先

 ,

验概率 这 里 的 先 验概 率 是 在 信 息 论 中 的 先 验概 率 即 发送端发 出 某 个具 体


, , ;

符号 A  (
X 

 a
, )
, 推测 接 收 端 出 现 的概率 : 函 数表示为

/ 。 三
/ 〇各 1 / 尸 幻
( ,
) ( '


尚 存在 的 不 确 定 性为 后 验概率 即 接 收端 收到 ,
后 发送端 发送 的 符 号 是 否 是 A
, 

函 数表示为

7 6 /o P a



( , )

gl (



那 么 互信 息量 的计算 公 式为 

/ 0


 / 〇《 1
叫。 A






) 

在 计算 中 ,
如 果 传送信 道 没 有干扰 , 信道使 3 i 的概率为 1
时 , 尚存在 的不

确 定 性就等于零 , 互信 息量为 先验 的 不确 定 性 。 在信 息传送 中 ,


如 两个变量之 间

的 不确 定 性越 小 , 互信 息量越小 ; 不确 定性越大 , 互信 息量越大 



现代汉语 中 , 词语大 多 双音节为主 ,


两个语 素之 间 存在 的 互信 息量 是衡量

两 者 么 间 的 联系 的 密 切 程度 往 往 在 言 语 交 际 中 表 现 为 说话 者 只 说 出 其 中 个语


素 听 话者便可 W 预测 和 这 语素相 结合的 另 个语素 听 话者 最先 想 到 肯 定 为




一 一

, ,

" "

出 现概率 最大 , 不确 定性最少 的 语素 , 例如 :
说话人说 :
今 ,
听 话 人首 先会想


" " " " " "
等真 正说话人给 出
" "

到 天 , 而后才会 出 现 年 、
晚 、 早 、 等等其他语 素 , 

" "

另外 个语素时 便 可 W 验证 你 的 预测 如 果 说话人说 今天 那 么 听 话人所




, , ,

" " " " " 

获 得信 息 量就很少 如果 听过说话人说 今生 这 词时 生 出 现在 今

, ,

3 8



第 H 章 音 节 时长 与 其携 带信 息 量 的 关 系 研 究 

后 的 概率较 小 , 不 确 定 性很大 , 听 话者获得 的信 息量更大 , 也 即 两个符号 之 间 的



互信 息量较大 , 这其 中 的 原 因 不 能 只 单纯归 结为 日 常使用 的 多 , 应该 投 向 更加 科




" " " "
学 的 论证方法 统计 验证 天 是否是 今 这个语 素后 出 现概率 最 大 的 那



个 是 否 存 在 互信 息 量越 小 音 节时 长越 短这 关系 本文基于这 出 发点 寻


一 一 一

, , ,

求这两个语素之 间 的 互信 息量与 音 节 时长之 间 的 关系 



3 4 2
. . 实验所用 音节 互信 息量 统计

互信 息 的 计 算 公 式 相 对 复杂 再 究 其 本 质 实 为 当 个信 号 出 发时 出 现另 


一 一

它相 关信 号 的 不确 定 性 表现在 语 言 中 为 出 现 个单音 节语素后 与 之可能发





, ,

生联系 的 其他语素 的 不确 定性 本 文 通 过概率衡 量度 不确 定性 同理 出现的




。 , ,

概率越大说 明 不确 定越 小 , 互信 息 量越大 ; 出 现 的 概率越小 , 不确 定越大 , 说明



互信 息 量越大 。
实验 的 目 的 是论证是 否存在互信 息越小 ,
音节 时长越短 的 关系 

反过来 , 音 节 时 长较 短 的 单 音 节 语 素 是 否 都存在 互信 息 量 较 小 的 现 象 

提取和 统计工作是 建立在现有 的 277 个 实验音 节基础 上 通 过分别 检索 各个



 ,

音 节在 现 代 汉 语 数 据 库 中 互 信 息 的 音 节 , 具体 的 统计工作如 下 

1 ) 通 过 对 实 验 音 节 时 长 进 行 升序 排 列 , 由 于工作 量较大 , 文 章 只 取 时长处



于 短 时段 的 音 节 进 行 互 信 息 量 收 集 ; 实验共测 量 出 短 时音 节 1 60 个 将其 中 所有
, 

可 1^ ^ 搜索 到 交 互关系 的 音 节均 进 行 统 计 

查 找 音 节在 现代 汉 语 中 所有 的 与 其 有 交互 关 系 的 音节 般情况 下 两者


2 ) (

" "
结 合视为词 语 例如 父 这 音 节 在 现代 汉 语 中 捜索 和 它 有 交 互关 系 的 音节

) , : 

会出现 :
亲 、 辈 、 祖 、
子 … …

, 这 些 音 节 和 它 结 合 成 为 现代汉 语 中 的 词 语 , 但是


" "

他们 与 父 的 互信 息 量 并不等 同 。 具 体 的 计算 工 作 是 将全 部 词 语 出 现 的 次 数进

行 统计 、 排序 并计算 出 概率反 映 出 互信 息量 , 表 现为 出 现 的 概率越大 , 互信 息 量



越小 

3 ) 回 到 实验数据表 , 查看 音节所在 的 语句 中 和 它 产 生交 互关系 的 音节在 互



信 息 量表 中 所 出 现 的 概 率 ,
再结 合 时长来寻找两者么 间 存在 的 关系 , 查看是 否 短

时 音 节 的 出 现概率较大 , 互信 息 量较大 

经过统计得 出 在 1 60 个音节 中 ,
可 1^

1 产 生交互关系 的 音节共 34 个 , 其中分

为前相 关和 后相 关 即 出现 个音节后 与 其组词 的 另 音节在其位置 的前后


一 一

, : , 

3 9



普 通话 音节 时 长 与 其所 携 带信 息 量 关 系 的 语 音 实验研 巧 

剩余 1 26 个未找 到 交互关系 的 音节 , 主 要 分为人称代词 、 助词 、 语气词 和 副词 



" " " " " " " "

例如 ;
在语句 我就纳 闷 儿 了 中 , 其中 出 现 的 短 时 音节有 :
我 、 就 、 了 

" " " " " "
且在 句 中 与 我 发生 交互 的为 就 , 我就 并不 归为词语 ,
所 W 在现代汉 语


" " " " " 

词 频 统计 中 无法找 出 其 使 用 的 频 率 , 同理 , 和 了 交互 的 为 闷儿 , 闷儿了

也不 能进 行 统计 ; 而且在 1 26 个音节 中 , 出 现频次最 高 的 虚 词 出 现 次数最高 的




" " " "

的 和 了 所产生 的 互信 息 的 音 节也 非 常 之少 , 例如 : 我 的 爸爸 ,
新娘的鞋


" " " "

子 忘 带钱包 了 个礼拜 了 在这些短语 中 与 的 了 产 生 互信 息





… …

, , , , 、

" " " " " " " "

关系 的音节分别为 我 、 娘 、 包 、 拜 , 因 此并 没有组成词 语 , 所 W在现



代没 语词 语统计表里 并未找 到 相 对应 词 语 , 也 未衡量 出 之 间 的 互信 息量 , 希望在



此后 的 研 究 中 攻克 这 难题



" " " " "
具 体 工 作 W 衣 为例 说 明 , 衣 在 实 验数据 中 的 所在 的 句 子为 手捧


" " " "

有 交互信 息 的是

花儿全 部 都挤散 了 衣服 也剖 破 了 其中和 衣 服 这 




 ,

" " " "

节 但是在现代汉 语 中 与 衣 有交互关系 的 音节并非 服 个 见表


; , 1 5 

" "
表 1 5 :
衣 的 交互音节信 息 统计表

 

衣  交 互 音 节  频 次  总 数  频率



衣 服 —
 服 % 2020 1 7 0 5 5 8 .



衣裳 —
 裳  687 3 6 1 7 0 . 1 95


衣襟 —
 襟  1 1 3

36 1 7 0 . 03 1

衣着 —
 着  1 00
 ̄  ̄
36 1 7 0 . 02 8

衣袖  ̄
 袖 %   ̄
3 6 1 7 0 . 02 6

衣衫 

 衫  11 36 1 7 0 02 . 




衣 料  ̄
 料  73

; 3 6 1 7 0 . 025

衣物 

 物  72
 ̄  ̄
3 6 1 7 0 . 02 0

衣领  ̄
 领 巧   ̄
36 1 7 0 . 0 1 

衣食 

 食  55
 ̄  ̄
3 6 1 7 0 . 0 1 

衣冠 —
 冠  46

3 6 1 7 0 . 0 1 

衣角  角  3 6 3 6 1 7 0  ̄
. 0 1 

衣柜  ̄

U 
3 6
 ̄  ̄
36 1 7  0 009


衣兜 

 兜 3 4   ̄  ̄
3 6 1 7 0 . 009

衣箱 

 箱  ̄
27   ̄
36 1 7 0 . 007

衣饰 —
 饰  2 1   ̄
%

1 7 0 . 006

衣椅 —
 栖 1 9   ̄
36 1 7 0 . 005

衣帽  ̄
 帽 1 8   ̄  ̄
3 6 1 7 0 . 004

衣装   装 1 7  36 1 7 0 . 0 04

衣 扣 I  扣    I
1 2 I
3 6 1 7 0 . 003

" " " "

表 中 可 W看 出 所有 与 衣 有交互关系 的 音节 中 衣服 这 组词 是 出


1 5 ,

40



第H章 音节时长与 其携 带信 息量 的 关 系研 究 

" "

现 次数最 多 , 频率最 高 , 互信 息 量最大 , 甚至 比 居 于第 二 的 衣裳 要高 出 37



" "

个 百分点 这 数据 恰 恰说 明 了 个问题 在 现代 汉 语 中 凡是 出 现 衣 这
一 一 

, : ,

" " " "

音 节 紧跟着 出 现 服 这 音 节 的不确 定 性是最 小 的 或者说在 现代汉语 中 衣


, , 

" " " "

服 是最 常 搭配在 起的 在 实验数据 中 与 衣 有交互关系 的测验音 节为




。 ,

" " " " " " " "

服 , 服 的 时长为 0 . 54 s ,
非常短暂 , 几乎为 服 单独 出 现 时 音节 时长



的 半 那 么 说 明 互信 息量与 音节 时长之 间 是存 在着 定 的 关系 从 互信 息 量


一 一

, ,

" " "
最大 和 时长短暂 这两个数据 中 是 否 可 W 得 出 两者存在 反 比 关 系 ,
我们 需要

更 多 的 数 据 支持 才 可 定 论 因 此将 实 验 音 节 中 凡 能 计算互 信 息 量 的 所 有 音 节 均 进

 ,

行统计 , 见表 1 


表 化 :
所测 音节前互信 息量 统计表 ( 节选 

所测 音节
到了
( 沮词 )

I  概 率  概 率 位 次 I I
时长 秒为 单位 

了 ( )


^ 


0 477 .



了 ( 有了 )

0 . 1 00



0 528



西 ( 东西 )

0 704



  0 5 . 1 

服 ( 衣服 )
—
0 5 56




 ^ 



涂 ( 糊涂 )  0 900
.   1  0 5 44
. 
jf ] ( MV 
0 8 77


 0 . 64 8

么 ( 怎么 )


^ 


0 7 . 1 8


开 ( 打开 )

0 . 1 04


  0 73 2
.

才 ( 刚才 )


^ 


0 747



车 ( 火车 )


^ 


0 78 9



看 ( 看看 )

0 . 1 72



0 乂32


满 ( 充满 )

0 3 82



  0 678


伙 ( 家伙 )

0 074



 化的 

礼 ( 婚礼 )

0 . 1 54



0 74 4



住 ( 记住 )

0 040





^ 

去 ( 回去 )

0 09 9





^ 

宝 ( 宝宝 )


^ 


0 597



子 ( 鼻子 )

0 72 0



0 5 99



子 ( 老头子 )

0 7 . 1 4


0 600



子 ( 肚子 )


^ 


0 656



子 ( 儿子 )

0 69 0



0 7 03



子 ( 鞋子  0 ) . 45 5   1 0 75 6
.

表 中 的 所测 音 节 是 均 为 上 小 节 中 所 论述 的 即 出 现音节 后 可与 它


6 b &

1 ,

产生交互关系 的 另 音节 互信 息 概率 为 所测 音 节在 所有 可 能 后 的 所有 音 节


, a ,

中 所 出 现的概率 , 互信 息 量位 次 即 所测 音 节 的 概率排 名 , 时 长便 是 所测 音 节在 实

验 中 所取得 的 时长 ,
为 了 保证 实 验数据 的 科 学 性 , 取 时长平均 值作 为 参考 标 准 

4 



普 通 话 音 节 时 长 与 其 所携 带 信 息 量 关 系 的 语 音 实 验 研 巧 

" " " "

" "

W第 个 了 为例进斤说 明 它 出 现在 到 的后面 但与 到 音节有




一 一

, ,

" "

交互关系 的 音节很 多 , 经 统计共有 1 9 个 ,


除 了 外 还有 : 底 、 处 、 达 、 来 

家 、 位 、 手 、 时候 、 会 、 头 、 场 、 期 、 站 、 点 、 任 、 京 、 顶 、 职 ; 而在这些音节


" " " "

中 了 出 现在 到 后 的概率为 排名 第 位 时长为 表中



0 . 48 4 6 , , 0 . 477s .

的 所有音节 时长均 为 短 时 音 节 观察每 个所测 音节 的 概率排名 有 的音




, ,
8 1 . 8 %

节排名 为前 3 位 , 这足 W 说 明 :
不确 定 性较小 的 音节 , 其音节 时长均 为 短值 

表 中 所给 出 的音节互信 息 统计是 W 出 现前 音节之后 其所产生 交互 关




1 6 ,

系 的 音节信 息数据表 表 为剩 余的 部分 即 出 现词 语 后 音节之后 预测 在




一 一


1 7 ,

" "
其之前 出 现 的 音节 的 部分 例如 出现 友 这 单音节语素后 预测 可能 出现


, : ,

" "

在 其 之 前 的 单音 节语 素 般情况 下 人们 都会首 先推测 为 朋 而后 可能会




, , ,

" " " " " " " " " "
想及 好 、 老 、 挈 等等 , 同理 , 由 于 朋 出 现在 友 之前 的概率最大 

不确 定 性最 小 所 W 人们 都会首 先 联想 到 它 那 么 出 现在这 位置 的 音节 其时


, 。 ,

长 是 否 也 跟 随着 互信 息 量 发生变化 , 见表 1 7 

表 1 7 :
所测 音节后 互信 息 量统计表 ( 部分 

W 秒 为 单 去^


所测 音节 ( 组词 概率 )

 I
概率位次

时长 ( {

人 ( 人民 )


^ 


0 54 7 .



音 ( 音乐 0 )

. 92 0


 ̄  ̄


^ 

已 ( 己经 )  0 8 8 5. 1   0 72 8

 .

东 ( 东西 )

0 83 5 .




0 75 8 .



朋 ( 朋友 )


^ 


0 768 .



车 ( 火车 )


^ 


0 789 .



火 ( 火车  0 ) . 076



0 5 22 .



不 ( 不是 )

0 . 1 48



0 62 3 .



怎 ( 怎么  ) 0 . 1 8 1




^ 

维 ( 维护 0 ) . 25 9




^ 

回 ( 回去 0 ) . 088




^ 

仪 ( 仪式 )


^ 



^ 

本 ( 本钱  0 ) . 02 5
 ^ 

^ 

植 ( 植物 )

0 03 0 .

 ]


0 73 3 .



表 1 7 中 的 所测 音节 中 有 7 1 . 4 2% 音节 的 概率位次在 前H位 , 同样说 明 :


在交

互关系 中 ,
不确 定性越小 的信号 , 互信 息 量越少 , 而互信 息少 的音节时长均为短

时音节 两者之 间 的 关系越发 明 确 即 两个音节相结 合时 如其中 个音节 时




, , : ,

长 明 显缩短于正常时长时 其两者之 间 交互 的 不确 定 性 定很小 或者说互信 息




, ,

" "

量很 小 仍 然 W 朋 友 词为 例 见表

。 1 8 

42



第H 章 音节 时 长 与 其携 带信 息 量 的 关系 研 巧 

" "
表 1 8 :
与 友 有 交互关系 的 单 音节语 素 互信 息 统计表


音节
 I
频 次 总 量 概 率



W  —
3859 5 一
1 96 0 . 74 3

战 -
273  5 1 96 0 . 05 3

亲 20 7 ^ 1 96 0 . 04 0


古 1 9 4  5 1 96 0 . 03 7



 ̄  ̄

好 —
1 3 0 5 \ 96 0

. 02 5




工 —
98 5 1  亮  ̄
0 0 . 1 9


老 —
65 5 1 奔  ̄
 0 0 . 1 3


敬 —
59 5 1 秀  0 0 . 1 1


票 -
43 ^ 1 96 0 . 0〇T 

交 -
4 1 5  ̄
1 96 0 . 0〇 r
学 —
28  ^ —
1 96 0 . 00 5

队 —
28

^ 1 96 0 ^

 . 00


盟 —
25

^ 1 96  y 0 0〇.

孽 -
23 ^ 1 96  0 ^ 
 0 . 0

会 2 5 1 1 96  

厂 0 00.

良  9 5 1

1 96  0 0 0^

 .



密 4 1

5 1 96 0 . 0〇r

访 —
1 2 ^ 1 96 0 . 00厂


师 —
1 1  1 96 0 . 00

厂 

校 1 0 5  ̄
1 96 0 . 0 0 2

文 —
1 0   ̄
5 \ 96 0 . 00厂


至 —
8  ^ 1 96 0 . 00

^ 

旧 8 5  ̄
1 96 0 . 0 0 2

难 5  ^ 1 96 0 . 00 

  


病 I


5 1 96 0 . 0 〇T

" "
表 1 8 中 所列 出 所有可能 出 现在 友 之前 的 单音节语素 , 共 26 个 , 其中


" " " "

出 现频次最 多 , 所 占 频率最大为 朋 ,
在实验 中 , 所测 算 朋 的 音节 时长为

0 . 698 s , 比 正 常 时 长缩 短将近 0 . 3s , 再 结 合 统计数据 , 容易推出 :


音节时长短哲

的音节为互信 息量小 的 音节 

从 W 上 两个不 同 的 方面 都论证 了 个结 果 音节时长 短 于正 常 时长 的音节


; 

在 其 所产 生 的 交 互 关 系 的 音 节 中 都处 于 不确 定 性 较 小 , 互 信 息 量 较 小 的 位置 

43



普通话音 节 时长与 其所携带 信 息量关 系 的 语 音实验研 巧 

第 四章 总结

4 1 . .
关系 论述


从本文 的 立足 点 出 发 寻求 我们 日 常 生 活 的 语 言 交 际 是 否 符合信 息 论 中


一 一


的信 息传递原 则 这 疑 问 的 答案 而在信 息传递过程 中 最重要 的便是信息 量


, ,

的编码与传递 , 及如 何编码 ,
如 何最优化传递 , 文 章 分别 从信 息量和 互信 息量

这两个角 度进行 了 相 关 的 研 究 并得 出 相 关 结 论 ,
一 一

音节 时 长和 霍 夫曼编 码 的 相

似性 , 音节 时长与 其所携 带 的 信 息 量之 间 的 关系 

4 . 1 丄音 节 时长 与 霍 夫曼编 码之 间 的关系论述

在 前期 的 音节 时长切 分工 作 中 所得 出 的 结果 是 在 个语句 中 每 个字 的


一 一

, :


音节时长全然不 同 , 或长或短 ,
其 中 短 时 音节 并非全是现代汉语 中 所提 到 的 


声 很 多 人们本 W 为是 正 常读 音 的 音 节也会 出 现短 时发音 而造 成这 结果 的




, ,

原 因 需 要再结 合理论知 识做 出 解释 ,
文 章 试 从信 息 论 的 角 度 去 寻 求 其 中 的 原 因 


在信 息论 中 , 信 息 的传 递的 最优编码 是霍夫 曼码 , 它 完全符合 频率高则码长 


频率低则码短 的 最优 原 则 ,
最 大 程度 的 将 数 据 进 行 无 损 压 缩 , 同理 , 在 日 常交

际中 , 人 们 的 言 语 交 流 也 同 样 存在 编 码 原 则 , 不 同 的是 ;
霍 夫曼编 码将数据编 译

成不 同 的 码长输 出 语 言 将信 息 编 译成不 同 的 时 间 长度输 出 但这 编码原则 和




, 。

霍 夫曼码 的编码原 则 存在相似 的 地方 也 或者 说两者之 间 存在 本质 的 致性


, 

在 第H章 中 通过结 合信 息 论 中 的 信 息 量和 互信 息 量去 探索 关 系 两个信 息 量



 ,

计算 的 实质 都 是从频 次 、 频率 出 发 的 , 而霍 夫 曼编 码 的 原 理也 是从数据 的 频率 出

" " "
发 这 点上两者相 致 经统计得 出 的 所测 音节频率 统计表 和 时长数据


一 一

, 。

表 , 我们 可 W 清 楚 地观 察 到 : 短时长音节所 出 现 的频率都是非常 高 , 长时音节



所 出 现 的 频率 都是相 对较低 的 时长 的 长 短和 其 出 现 的 频率相 关 这 结 论是架





" " " "

起 音节 时长 和 霍 夫曼编码 的 桥梁 将 两个不 同 领域 的 信 息传播联系 在




起 也在 定 程度 上 证 明 了 两 者 之 间 具 有 相 似性 因此 在 日 常交际中 语言 的


■ -

, 。 , ,

编码原则 定 程度 上 符 合 霍 夫 曼 编 巧 原 则



44



第四 章 总结


4 . 1 . 2 音节 时长 与其所携 带信 息量之 间 的 关系

音节 时长 与 其 出 现频率之 间 存在 很大 的 相 关性 在 上文 中 己经 多 次提 到 了 这

 ,

点 并 己 经 论 证 了 两者之 间 的 联 系 但是 除此之外 信 息论 中 关于信息 的传递




, , ,

并仅仅 是 编 码 过程 ,
更加 重 要 的 是码所携 带 的信 息量 , W 及码和信 息 量之 间 的 关

系 这也 是信 息 论大师香农所 直研究 的 问 题么 即 度量信 息量 本文均在香




一 一

, , 。

农 提 出 的 信 息度 量 公 式基础 上进 行 关 于 音节 自 信 息 量和 互信 息 量 的 计算 试 图 从

 ,

所得数据 中 得 出 相 关 时 长和 信 息 量之 间 的 结 论 

首先从 自 信息量 出 发 即文章 中所写到 的 节 其 中 为 了 保证研究 的 可




, 3 . 3 ,

靠性 ,
分别 从H个 不 同 的 时 长 角 度 展 开 研 巧 ,
具体 的研 究结 果 W散点 图 显示 , 

H 幅散 点 图 中 可 W 看 出 分别 取 时长 最 大值 、 平 均值和 最 小 值 时所得 结 论 并 不相

同 其 中 时长最小值和 时长平均 值两个数据之 间 的 结 果 大为相 似 都证 明 了 点


, , 

时长与 信 息 量之 间 存在 定 的 相 关关系 表现为 时长 短 的 音节所携 带 的 信 息量就




较少 相反 时 长长 的 音节所携 带 的 信 息量大都较 多 这 点 非常 之 关键 更是


, , , ,

本文所探索 的 根本所在 尤其在 时长 最 小值散 点 图 中 这 关 系 的 反 映最为 强 烈


, , 

而在 时长最大值 中 , 因 散 点 对称难 寻规 律 , 只 能 得 出 时 长 正 常 值所对应 的 信 息 量



也 处于 正 常值 , 据此 , 我们 虽 未 能从H个不 同 的 方面都 去 支持立论 , 但根据 数 据



值 的科学性 , 时 长 平 均 值 的 散 点 图 所 显 示 出 的 两 者 关 系 最 为 关 键和 重 要 

再 从 互信 息 量 的 角 度 出 发 也即文中所写到 的 节 文 中 所取 的均为短


, 3 . 4 。

时音节 在 短 时 音节 中 再结合互信 息地计算来研 究两 者之 间 所存在 的 关系 这




, ,

小 节 中 所 能 获得 互信 息 量 的 音 节 数 量 并 未 达 到 规模 化 这 点 基于两方面 的 原


因 , 首先 , 并 不 是 所 有 的 音 节 都 可 W 在 现代汉语 词 频 统 计 表 中 找 到 相 关 的 互 信 息

量计算数据 ; 其次 , 实 验所测 音 节 数 量 有 限 。 但是 , 基于 现 有 可 W 计算互信 息 量



的 音节 中 ,
仍然 可 W 明 确看 出 关于 互信 息量与 时长之 间 的 关系 , 文 章 从两个方面

进行 了 考察 第 方面是 限定 词 中 的第 个单音 节语 素 考 察在 现代狭语 中 可 能




一 一

, ,

在 其后 出 现 的 单音节语素 的 互信 息 量 第 二 个方面 是 限 定 词 中 的 第 二个 单 音节语



 ;

素 考 察 可 能 出 现在其之前 的 单 音节 语素 的 互信 息量 这是 项非常繁重 的 统计



工作 关 系 到 检 索 数据 W 及对每个数据 逐 核 实 最后 再计算 出 所有音节 的 频率


, , 

观 察这两个方面 所得 的 互信 息 量 , 结合音节所测 的 时长数据 ,


均表 明 :
时长短 的

音节为 携 带互信 息量少 的 音节 



45



普 通话 音节 时 长 与 其所携 带 信 息 量 关 系 的 语 音 实 验 研 巧 

综 上所述 , 关于 时长和 其所携 带信 息量 ( 自 信 息 量和 互信 息 量 ) 之间 的关系



也 可 W 基本确 定 为 时长短 的 音节所携 带 的 信 息 量均少 于 正 常 时长和 长 时长 音 节




所携 带 的 信 息 量 。
从 自 信息量的角 度 出 发 :
音节 时长与 所携 带 的 信 息 量之 间 存在

着正相关 关系 , 时长越短 , 信 息 量越 小 , 互信 息 量也 从侧 面说 明 了 这

立论 

4 2 . 论文待 改进之处 及对 未来研 究 工 作 的 展 望



4 2 . . 1 论文待 改进之 处

在进行 文 章 所涉及 的 所有 工 作 时 总 有 因 主客观条件制 约 而产 生 的 些欠




缺 , 虽然这并未影响 文章 的顺利完成 ,
但 是 仍 然希 望在 此 处将 其 指 出 便将来更

好 的进行解 决此类 问 题 , 从而 能 更加 严谨 地进 行 学 术 研 究 

首先 实验所测 音节 的 数量并 未达 到 大数据规模 主要原 因 是两点 是手




, , ,

工切 分工作繁琐复杂 , 校验 工 作 量 巨 大 ;
二 是 后 期 所根 据 这 些 音 节 进 行 的数据统

计和计算 工作 都有相 当 大 的难度和 挑 战 性 因 此论文 只 做 了 个在 保证论证有 效




性 的 前 提 下 较 小 规模 的 数 据库 希 望 在 将来 的 研 究 工 作 中 借助 计算 机 程序 软 件 和

 ,

先进语音切 分设备扩 大规模 



其 次 现代汉语词 频数据库 的 规模也可 更广泛


, , 本 文 所采用 的 现代汉语词 频

数据库 中 收纳 了 百兆 的 电子 文本 其 中 所涉及范 围 非 常较 宽 从小说 报纸


, , 、 

期 刊 杂 志 到 网 络语 言 等等 希望将来建立更加 全面 。 、 内 容丰 富 充 足 的 词 频数据库 

4 2 2
. . 对 未来研 巧工作 的 展望

从实验数据 的 收集 、
数据 库 的 建立 、 现代汉 语词 频表 的 整理 、
数据 频率频 次

的 统计等等这些 工作 中 ,
都可 发现很 多 值得 深入研 究 的 相 关 问 题 , 但 由 于和文

章 的 主要 内 容并无较大联系 , 所 W 文 中 并未展开研 究 , 但可 W为 日 后 的研巧方 向



和 研 究 内 容提供 些帮 助



" " " 

关于 了 的 时长研究 在文 中第三 章第二小节 中 己经提到这 点 了


1 ) , ,

是 个在 现代 汉 语 中 词 频 位 于 第 二 位 的 超 高 频 词 但是在实验 中 所测 的 


, 42

" "

了 中 其 时长 并没有集 中 在 哪 段 而是分别跨向 了 不 同 的 时长段 这是





 , , ,

" "

个 非 常 值得重视研 究 的 问 题 而 且根据 统计 发 现 时长偏长 的那 部分 了 




, , 

46



第四章 总结 

" "

都位于句 子 的 末尾 并身 兼两个语法意 义 但这 点 是否是拉开 了 的 时长 的




, ,

真正原 因 ,
我们 还 需 要 更 加 丰 富 的 数 据 来证 明 ; 同时 , 分 别 处于 句 中 和 句 末位置


" " " " " "
的 了  是否 存在着 时 长 的 差异 , 究竟是充 当 结 构助词 的 了  所用 时长更


" " " " " "

长 还是 语气助词 的 了 所用 时 间 更长 这也是 个找到 了 时长差异




, ,

" "
的切入 口 从这两个方面 去 研 究 了 这 音节 时 长应 该 是 个 有 趣新 颖 的 研 究


一 一

" "

方向 当 然研 究 结 果 可 结合信 息 论 再做 出 些关于 了 音 节 时长和信 息 量之




间 的新成 就 

" "

关于 互信 息量 的研究 在第 云章 的 最后 小节 中 已经从 个小方面




一 一

2 ) ,

" " " "

去 探 索 了 互 信 息 量 和 音节 时长 之间 的 关系 ,
但是其 内 部仍然存在着 巨 大

的 研 究价值 。 互信 息量相 对于 自 信 息量 的计算来说更加 复杂 , 尤其是普通话 中 构




" "
成 词 两 个 单 音 节 语 素或者 是 多 音节 语素 的 收集和 数 据 整 理 工 作 , 希望将来 的

研 究 工 作 能 借 助 计 算 机 程序 来 操 作 这 部分工作 只 完成 了 其 中 的 部分 更加


一 一

, ,

重 要 的 工 作 仍 然 是 获得 音 节 时 长 这 也 意 味着 要搜集 具 有 定规模 的 语音语輯




库 , 音节 的 切分工作 也 需要用 程序 语 言 去解决 , 只 有 同 时具 备这 两个条件 ,


关于


" " " "
互信 息 量 和 音 节 时长 的 研 巧才 能 做 到 彻底 全 面 

" "

举例 来 说 , 当 需要研 究 和所测 音节 打 产生 交互关系 的 其他音节 时 , 需要




" "

做到两项工作 是 收集 到 现代 汉 语 所 有 可 能 和 打 相 结 合 的 其他音节 在我


, ,

" "

的 现代汉语 词 频数据 表 中 搜索 到 出 现在 打 之后 的 音节语素共 89 个 , 在此仅



作参考 ;
二 是测 量 出 现的这 89 个单音节语素 的 时长 , 并不 是测 量这些语素 单独


" "

出 现 的 时长 , 而是测量 当 其和 打 结 合后 的 时长 , 那 么 这就要求语音材料 中 必

须有大量关于这 部 分音节 的 语 音数据 得 出 时长数据 后 再 结 合互信 息 量做 出 




关 于 两者 之 间 的 关 系 判 断 

当 然仅仅 凭借 W 上 个 音 节 的 互 信 息 量和 时 长 数 据 是 远 远 不 足 W 立 论 的 因


此 , 大 规 模 的 搜 集 语 音 材 料 和 数 据 材料 才 是 解 决 这

问 题 的 根本 , 希望在 后借


" " " "

助 更好更强 的 科学 手段真正考量 互信 息量 和 音节 时长 两者 的 关系 

在进 行论 文 的 整个研 究过程 中 我认 为这两 个 问 题是值得进 行更深入研 究 , 



也 希 望在 未 来 能 真 正解 决这两 个 问 题 , 为 学 术进 步做 出 贡献 

47



普通话音节时 K 与其所携 带信 息量关系 的 语音实验研 巧 

参考文 献



] F r an
9〇
i s P e l l e
g r i no ,  C hr
i sto
p h e  C o u p e  a n d  E g d o M a r s i i i co . 2 0 1 1 . A

c ro s s

l an
g u ag e  p e r s p e c
ti v e  o 打  s p e e c h  i 打 fo r m at i o 打  r at e .  L an g u ag e  



]  G e o rg i n a  A nn e  To l a n , Gera l d  Te h a n 2 0 0 5  I s  S o k e 打  D u r at i o 打  A  S u
p . ic
f i e nt

Exp l a n at i o n  o f  The  Wo r d  L e n g t h E f fe c t  .  M e m o ry 



]  Go l d s m i th ,
J o hn  A . 2 0 0 0  . O n i n fo r m at i o n  t h e o r y ,
e nt r o
py ,
an d
p
ho no l o gy nt
ih e

 i

20 化  c e nt u r y .  Fo l i a  L i n gu i s t i c 么 


4 ] G re e nb e r g 
Jo se
ph H . 1 9 6 9 .  L a n gu a g e  U n v e r s a i l s ;  A Re s e ar c h
  F r o nt i er . S c i enc e 



]
Tr u b e t z k o y , 
N i cho l as S 1 9 3 . 义  Pr
i nc i
pe sde pho打o o g e 
l i

K li n c ks e ck i ;  P ari s 


6] R o ac h , 
P eter . 1 9 9 9 .  S o m e  l a n gu ag e s  ar e  s p o k e n m o r e  q u i c kl y  t h an  o th e r s  

L an gu a g e m yt h s 
, 
ed .  b yL .  B a u e r &  R  Tr u d g  i l LL o nd o n :  P e ng u in 


7]Z i
pf ,
G e o rg e K  . 1 93 5 .  T he P s y c ho B 

i o lo
gy  o f L a n g u a g e  :  An I nt r o d u c t i o 打  to

D yn am i c P hi l o l o g y M rr P r e s s C am b r
i d ge : 



]
Z p f  G e o rg e  K


.  1 9 3 7  S t at i s t i c a l 
. Me t h o d s  a nd  D y n a m c  P h i l o l o gy i .  L an gu ag e 

[ 9 ] 曹剑芬 .
普通话轻声 音节特征分析 [ J] .
应用 声 学 . 1 9 8 6( 4 ) 


1 0 ] 邓丹 石峰 , , 吕 ±楠 .
普通话 四 音节韵 律词 的 时长分析 [ J ] .
世 界汉 语教学 

2 0 0 7 ( 4 ) 

[ 1 1 ] 邓丹 , 石峰 , 旨 ±楠 ,
普 通话双 音 节 韵 律 词 时 长特性研 究 [ CL 第屯届 中 国

语音 学 学术会议 醫语音 学前沿 问 题 国 际讨 论坛文集 .


北京 . 2006 

[ 1 2 ] 冯勇 强 , 初敏 , 贺琳 , 吕 ±楠 .
汉 语 话语音节 时长统 计分析 幻 [ .
第五届 全

国 现代 语 音 学 学 术会 议论 文 集 .
北京 . 200 1 


1 3 ] 冯 志伟 .
齐 夫 定律 的 来龙去 脉 [ J] .
情报科 学 . 1 983 ( 2 )


[ 1 4 ] 冯志伟 .
数理语 言 学 [ M] .
北京 : 知识 出版社 . 1 985 

[ 1 3 ] 关存太 , 陈永彬 , 吴伯 修 .
全音节汉语语音识别 系 统 的 声 学模型研究 [ J] 

声 学 学报 . 1 9 9 4( 5 ) 

黄德 智 蔡莲红 种 面 向 声 音 变换 的 参数化模 型 声学 学报

[ 1 4 ] , .
[ J ] . 

2 0 0 6 ( 6 ) 

[ 1 引 黄吴 ,
郭立 ,
李琳 .
基于 感知 敏感成 分划 分 的 语音 时 长规整算法 [ J] .
数据

采集与 处理 . 2 0 0 8( 1 1 ) 

48



参考文献 

[ 1 6 ] Jo hn E . . 化pcr o ft .
( 著 ) 孙 田 等译 .
自 动机理论 、 语言和计算导论 [ M] 

北京 :
机械工业 出 版社 . 2 0 04 

[ 1 7 ] 姜丹 .
信 息论和编码 [ M] .
合肥 :
中 国 科 学技术大学 出 版牡 . 200 1 

引 罗 常培 王均 普通 语音 学纲 要 M] 北京 科 学 出 版社 1

[ 1 , .
[ . ; . 1 957 . 27 1 29 

[ 1 9 ] 林煮 .
北京 语音 实录 [
M] .
北京 :
北京大学 出 版社 . 1 985 年 . 1 33

1 46 

巧0 ] 厉为 民 .
试论轻声和重音 [ J] .
中 国 语文 . 1 98 1 ( 1 ) 

巧 1 ] 林茂灿 .
疑 问 和 陈述语气与 边界调 [ J ] .
中 国 语文 . 2006 ( 4) 

[ 22 ] 林茂灿 .
汉语语音研 巧 的 几个 问 题 [ J] .
语 言 文 学应用 . 20 1 3 (
1 2) 

巧3 ] 林茂灿 .
语 音研 究 的 新进展 [ J] .
语文建设 . 1 989 ( 6) 

[ 24 ] 林茂灿 .
普通话语句 中 的 韵律结构和基频高低线 建构 [ J] .
当代语言

学 . 2 0 0 2 ( 4 

巧引 林茂灿 , 林联合 , 夏光荣 , 曹雨生 .


普通话二字词变 调 的 实验研 究 [ J] 

中 国 语文 . 1 980 (
4) 

巧6 ] 林茂 灿 ,
颜景助 .
普通话轻声 和 轻重音 [ J] .
语言 教学与 研究 . 1 990 ( 3) 

[ 27 ] 林茂灿 , 颜景助 , 孙国华 .


北 京 话 两 字 组 正 常 重 音 的 初 步 试验 [ J] 

方言 . 1 9 8 4 ( 1 ) 

巧引 莫双燕 , 关海欣 , 郑 可欣 .
语 音 时 长 调 整 快速 算法 [ J] .
声学 学报 

20 1 0 ( 1 0 ) 

[ 29 ] 倪崇 嘉 , 刘文举 , 徐波 .
汉语 韵律 短语 的 时长与 音 高研 究 [ J] .
中 文信 息 学

报 . 2 0 0 9 ( 7 ) 

巧0 ] 吴宗济 ,
林茂灿 .
实验语音 学 概要 [ M] .
北京 :
高等 教 育 出 版社 . 1 989 

巧 1 ] 王理嘉 ,
林慕 .
语音 学 教程 [ M] .
北京 ;
北京大学 出 版社 . 1 992 

巧2 ] 叶 斐 声 徐 通銷 , .
语 言 学 纲 要 修订版 ( ) [ M] ,
北京 北 京 大 学 出 版化 : . 20 1 0 

巧3 ] 赵元任 .
( 著 ) 吕 叔湘 .
( 译 ) 汉语 曰 语语法 [ M ]  ( T h e  G r a mm a r  o f  S p o k e n

Ch i nes e ) .
北京 :
商务 印书馆 . 1 9 79 

巧4 ] 王晶 , 王理嘉 .
普通话 多 音 节词 音节 时长分布模 式 [ J] .
中 国 语文 

1 9 9 3( 2 ) 

巧引 王理嘉 .
实验语音 学和 传 统语音 学 [ J] .
语文建设 . 1 9 8 9( 1 ) 

巧6 ] 王茂 林 .
音 系 学 的 时长理论 [ J] .
当 代语言 学 . 2 0 0 5( 6 ) 

49



普 通话 音 节 时 长 与 其所携 带 信 息 量 关 系 的 语 音 实 验 研 究 

口7 ] 吴宗济 .
普通话 元音 和 辅 音 的 频谱 分 析 和 共 振 峰 的 测 算 [ J] 

声 学学报 . 1 964 ( 1 ) 

巧引 吴宗济 .
自 主 音段音系 学 [ J] .
当代语言学 . 1 9 8 6( 1 ) 

巧9 ] 吴宗济 .
实验语音 学 与 语 言 学 [ J] .
语文研究 . 巧8  1 ( 4 ) 

[ 40 ] 许洁萍 , 初敏 , 贺琳 , 吕 ±楠 .
汉语语句 重音对音 高和 音长 的 影 响 [ J] .


学学报 . 2 0 0 0 ( 4 ) 

[ 4 1 ] 化 多 延柯 .
普通话 弱 读 音节和 轻声 的 实验研 充 [ J] .
中 国 语文 . 1 958 ( 1 2 ) 

[ 42 ] 张家藏 , 朱维彬 、 E v aC a r d i ng .


汉 语句 子 的 韵律结 构 [ J] .
声 学学报 

2 0 0 2( 9 ) 

[ 43] 张家録 .
韵 律 特 征 研 究 新进展 [ J] .
国 外语 言 学 . 1 995 

[ 44] 张家嚴 , 齐±铃 , 吕 ±楠 .


语 言 长 时 平 均 频谱 与 发 话 声 级 和 发 话 速度 的 关

系 [ JL 声学学报 . 1 9 8 0( 2 ) 

[ 4 引 仲 晓波 , 杨玉芳 .
汉 语普通话句 子重 音在 时长方面 的 声 学表 现 [ J] 

屯 理学报

. 2 0 0 3( 3 ) 

[ 46 ] 赵建忠 ,
傅祖芸 信息论与 编码 .
, 北京 :
电子 工业大 学 出 版社 , 20 1 4 

5 0


 ^ 

附录




表 1 例 句 音 节 统 计 表 1 

表 2 数 据 库 样 板 1 

表 3 音 频 文 件 分 类 统 计 表 1 

表 4 音 节 数 量 按 时 长 分 类 数 据 表 23

表 5 短 时 音 节 分 段 数 量 统 计 表 23

表 6 长 时 音 节 分 段 数 量 统 计 表 24

表 7 音 节 频 次 统 计 表 25

" "
表 8 了 的 时 长 统 计 表 26

" "
表 9 的 的 时 长 统 计 表 28

" "

表 1 0  我 的 时 长 统 计 表 28

" "

表 1 1  看 的 时 长 统 计 表 29

表 口 音节频 次统计表 ( 节选 
) 3 

表 1 3 音节频次与 信 息量统计表 ( 节选 ) 32

表 1 4 音节 时长最大值 、 最 小 值 与 平 均 值 表 3 

" "
表 1 5  衣 的 交 互 音 节 信 息 统 计 表 40

表 1 6 所测 音 节 前 互 信 息 量 统 计 表 ( 节选  ) 4 

表 1 7 所测 音节 后 互信 息量统计表 ( 节选  ) 42

" "

表 1 8 与 友 有 交 互 关 系 的 单 音 节 语 素 互 信 息 统 计 表 4 3

5 



普 通话 音节 时 长 与 其所 携 带 信 息 量 关 系 的 语 音 实 验研 究 



图 1 例 句 时 长 语 图 1 

图 2 例 句 音 节 时 长 语 图 1 

图 3 提 取 音 节 时 长 语 图 1 

图 归 系 数 范 围 图

4 1 

图 5 时 长 最 大值 与 信 息 量 之 间 的 关 系  35

图 6 时 长 最 小 值 与 信 息 量 之 间 的 关 系 36

图 7 时 长 平 均 值 与 信 息 量 之 间 的 关 系 3 7

52


 ^ 

致谢


论文 己 写 至此 意 味着走过 了 研 究生期 间 最后 的 段美 好旅程 时光甚巧 


, 。 ,

眼 间 研 巧生H年美好生活就要 画 上句 点 告 段落 在此毕业之际 我需 要对很 多




, ,

曾 经 帮 助过我 助我成长 的 良 师益友道 声感谢


, 

首先 , 我要 郑 重感谢我 的 研 究生 导 师王修力 先生 , 感谢他在 学 习 和 生 活 上提



供 的 帮 助 W 及对我 的 悉 屯 教导 、

使 我在 研 究 生 生涯 中 接触 到 计 算机课程 , 了 解和

探索 计算机和 语 言 学 之 间 的 奥 秘 , 打开 了 新 的 学术道路 王 老师 的 许 多 学术想 法



 ;

都使我受益 匪 浅 , 认识到 自 己的 不足 W及认清 日 后 发展 的 方 向 ; 在 论文 的 写 作 过



程 中 遇到很 多 疑难点 , 但 是 都在 王 老师 的 指 导 下 各个击破 , 也使得我在其 中 获得



极大 的 成就感和 自 信屯 、
。 同时 , 王 老 师 也 时 常 教 导 我 为 人 处 世 的 方式 方法 , 也为

我今 后 走 向 社会 打 下 了 良 好 的 交 际基础 

其次 我 要 感谢在 研 究 生 生 涯 中 给我授课 的 每 位尊敬的老师 在 你们 的 教




, ,

导下 , 我学到 更 多 更扎实 的 学术知识 , 也希望 日 后 有机会再 去 倾听 诸位 老师 的 讲



授 

再次 我要感谢 每 位 陪伴着 我 的 朋 友 尤其 是 我 的 舍 友 程巧 李 冉和 朱 冬


, , 、

雪 , 良 好 的 寝 室 学 术氛 围 是 督促我 上进 的 积 极动 力 , 而且在我遇 到 困 难 、 搂折 时

陪伴着 我 鼓励 我 起欢笑 起流泪 也许离 开 安 大最 思念 的 就是与 你们 在




一 一

, , , ,

起 日 子 更 是 回 忆里 道美丽 的 风景线 衷也祝愿每 位朋 友找 到 理想 的 工 作


一 一 一

, , 

最后 希望每 位 曾 经帮 助过我 关 屯 过我 的 老 师 朋 友都 能在今后 的 岁 月





, , 、

里 身 体健康 工 作顺利 切 安好

、 , 

5 3



普通话音节 时长 与 其所携 带信 息量关系 的 语音 实验研 巧 

攻读研 究生期 间 发表 的 论文


" "

[ 1 ] 张倩 .
不 X 白 不 X 结构 的使用 问 题 [ J] .
鸡西 大学学报 , 20 1 4( 1 0 

[ 2 ] 张倩 .
现代 汉 语 副 +名 现 象 分 析 [ J] .
科海故事博览 ,
20 1 4 (
1 ) 3 0

54

You might also like