Professional Documents
Culture Documents
斥 V 疋 v巧
,
V请 巧
"
子
'
' ? 巧
、
'
V 与 午
:
.
: ,
:
、 ?
; . ; ;
;
:
_
:
冰 哨 違 巧 斧 巧
'
:
,
:
.
尸
,
'
Li v 1
1
i
rv
.
■
, ,
、
诗 ,
’
V
?
'
=
r
-
> t
'
’
与 ,
:
吉 无
^
v . ,
芒 皆 密 级
保密期 限
:
: 导 4 乂
繁
硕± 学位论文
普 通 话 音 节 时 长 与 其 所携 帯 信 息 量关 系 的 语 音 实 验 研 究
■ '
1
\ 乂 .
;
|
!
Sy l l a b eD u
l ra t i o n a n d C o r re s
po
n d n g n fo r m a t o n
i I i
.
一
-
'
j
C a r r e d nM a n d a nC h i n e s e
-
ri
i i
J
\ :
|
.
餐
詞
*
学号
F 1 3 20 1 055
^
姓名
蓝值
旷
学位类别
文学硕±
学 科 专 业 语 言 学 及 应 用 语 言 学
指导教师
圭修去
完 成 时 间 2 0 1 6 年 4 月
答辩 委 员 会 ?
1
主 席 签 名 施春宏 —
。 ?
i
i
違
’
.
.
’
古 /
*
' i
-
' ?
l Aa
独 创 性 声 明
_
本人 声 明 所 呈 交 的 学 位 论 文是 本 人 在 导 师 指 导 下 进行 的 研 究 工 作 及 取得 的
研究成果 。 据 我所知 , 除 了 文 中 特别 加 1
乂
^
标注 和 致谢 的 地方 外 , 论 文 中 不 包 含其
他 人 己 经 发表 或 撰 写 过 的 研 究 成 果 也 不 包 含 为 获得 安徵 大 学 或 其他 教育 机 构 的
,
学 位 或 证 书 而 使用 过 的 椅 料 与 我 同 工 作 的 同 志 对 本研 究 所 做 的 任 何 贡 献 均 己
一
在论文 中 作 了 明 确 的 说 明 并表 示 谢 意
。
学 位沦文作者 签 签字 日 期 :
年 ^
月
n
曰
学 位 论 文 版 权使 用 授 权 书
本 学位论文作者 完 全 了 解 安徵大 学 有 关 保 留 、
使 用 学 位 论文 的 规 定 ,
有权
阅 。
本 人 授农 安 徵 太 学 可 W 将 学 位 论 文 的 全 部 或 部 分 巧 容编 入有 关 数据库 进行 栓
索 , 可 W采用 影 印 、
缩 印或扫 描 等 复 制 手 段保 存 、
汇编 学 位论文
。
( 保密 的 学 位论文在解 密 后 适用 本授 权 书
)
学 位 论 文 作 者 签名 :
m 營心 .
呵fj/
g
签字 曰 期 :
年 月 曰 签字 曰 期 :
i w 年 又 月 /
曰
5 7
摘要
言 语 交流 是 日 常生活 中 最重要 的 活动 之 而 言 语交流 的 实质 是 种 人与 人
一 一
, ,
独立 的 信 息量 , 从这个立足 点 出 发 文 章 从语 音 时长 的 角 度探索 其 与 信 息 量之 间
,
的 关 系 结 合 信 息 论 中 的 霍 夫 曼 编 码 原 理 与 互 信 息 理 论进 步解读 语 音 时 长和 信
一
息 量之 间 的 关系
。
文章 W 普通话为研 究 客体 , 实 验 语 音 材料 的 来 源 均 来 自 中 央 人 民 广 播 电 台
,
包 含新 闻 、 娱乐 、 生活 、 教 育 等各 类广播节 目 ,
保 证 了 材料 的 多 元 化 。
利用 语言
, 。
后 , 再 从 语 音 个 体 出 现 在 现代 汉 语 中 的 频 率 入 手 , 通过信 息 量计算 公 式得 出 其在
两 者之 间 存在 的 联系
。
本文分为 四 个 部分
:
, ,
现状 , 化及 文 章 研 究 的 目 的 、 意义和 方法
;
第 二 章 为 音节 时 长数据 收集与 统计 ,
本 章 分为三个 部 分 , 首先对实验材料来
源和 语音 软件 p r a at 进行 简 单介 绍 ; 然后 将 实验材料来源 和 实验步骤 , 数 据 收集
和 重要 佑
第三 章 为 音 节 时长 与 信 息 量之 间 的 研 究 本 章作 为 文 章 的 核 如 章 节分 为 四 部
,
分 第 部 分 对信 息 论 中 的 信 息 滴 和 霍 夫 曼 编 码 进 行 简 单 的 说 明 第 二 部 分根据
一
, ;
研 究 需 要 对所 有 的 实 验 数 据 进 行 了 分 类 , 并对数据 的 抽 样进 行 说 明 ; 第 兰 部 分通
节所携 带 信 息 量较 少 第 四 部 分 从 互信 息 量入手 得 出 信 息 量 和 音节 时 长 之 间 的 关
;
系 ; 互 信 息 量 的 采集 涉 及 工 作 量 较 大 且 需 要 找 寻 音 节 之 间 的 交 互 关 系 ,
因 此本文
在此部分只 做 了 小 部 分 的 测 试来 查 看 两 者 么 间 的 关 系 通 过计 算 所 测 短 时 音 节
一
I
的 互 信 息 量 得 出 了 时 长 较 短 的 音 节 所 携 带 的 交 互信 息 量 也 较 小 的 结 论
。
第 四 章 为 结语 本 章 梳 理 了 全 文 的 脉络 并进 步说 明第H章得 出 的音节时
一
, ,
长和 其巧 带 信 息 量 抖 及 霍 夫 曼 编 巧之 间 的 关 系 同 时 也 说 明 了 文 章 研 究 有 待 改 进
;
的 地方 并对将 来 进 步 的研究做 了 展望
一
,
。
个全 新 的 角 度 去 探 索 语 言巧 信 息 论之 间 存 在 的 联 系 并希望 通 过 本文 为语 言 学 和
,
计 算 机科 学 的 交 叉 研 究 做 出 微 薄 的 贡 献
。
关键词 : 音节 时长 信息量 编码 关系
打
A b s t r a c t
Ve r b a l c o m i m m i c at i o n i s o n e o f 化 em o s ts i
g n i 打 c a n t a c t i v i t i e s i n d a i l y l i fe ,
化e
n a t u r e o f wh i c h i s a m a n n e r o f i n t e r p e r s o n a l i n fo r m at i o n i n t e r a c t o n S p e a k i n g o f
i .
i n fo r m at i o n e x c h a n g e e v e r y s i n g e p h o n e t i c un i t c a r r
,
i e s i n d e p e n d e n t n fo r m a t i o n
l i
c o nt e n t , o打 化e b a s i s o f w h i c h t h i s 化 e s i s i nv e s t i g at e s
化e r e l at i o 打 s h i
p b e w e e n s y
t l l ab l e
d u r a t i o 打 a nd i n fo r m a t i o n c o n t e n t . B e s i de s H u ,
in an C o d
f i n g T h e o r y a n d M u t u a l
I n fo r m a t i o 打 T h e o r y a r e c o m b n e d t o f
i irth e r i i nt e r p r e t t h e r e l at i o n s hi p b e tw e e n s y
l l ab e
l
d u r at i o n a n d i n fo r m at i o n c o n t e n t
.
C hi n a n at i o n a l r ad i o ,
i nc l u d ng ai l l ki n d s o f b r o ad c as t i n g p r o gr am s s u c h as 打 e w s
,
e n t e r t a i nm e n t , l i fe ,
e d u c at i o n ,
et c : . 〇 e n s ur e t h e v ar
! : i e t y o f d a t a S p e e c h an a y s . l i
s
so t w a r e p r aat
f i s app l i e d 化 s e g m e n t 化es en t e n c e i n d i v i d u a l l y a n d o b t a i n e a c h
,
s
y l l ab l e s d ur a ti o 打 fo r s t at i s t i c a l a n a l y s i s . I n o r d e r 化 m ak e s ur e t h e d ur at i o n
c o m p ar
i s o n m ad e i s fa r b o i t h h o r
i z o n t a l y a nd o n g l l i t u din a l l
y , n o rm a l i z at i o n
pr o c e s s i n g i s m ad e t o al lt h e d at a A f
t e r e s t ab
. l i s hm e n t o f t h e du r a t i o n d a t ab a s e t h e
,
c o rr e s i i e d b y i n d i v i d u a l s y l l a b e i s c a l c u l a t e d t hr o u g h
p o n d n g i n fo r m at i o n c a r r
l
i n fo r m a t i o n c a c 山 a t i n g fo r m u l a f
r o m t h e p e rs p e c t i v e o f
l t he i r r e q u e n c y app e a
f re d n
i
c o nt e m p o r a r y
C h i n e s e T h e n t h e aut h o r e
. l at e s s y l ab l e du r a t i o n o n fo r m at i o n
l
1; i
c o n t e nt t h r o u
g
h t w o d i m e n s i o 打 a l p o t a nd c a l c u l a t o n d e m o 打 s t r at i n g t h e c o n n e c t i o n s
-
l
i
be t w e e n t hem
.
C ur r e n t t he s i si sc o m
pr
i s e d o f fo u r p a r t s
:
C h ap t e r o n e i s i n tro d u c t i o 打 ,
w hi c h n c u d e s t h e b a c k g r o u n d o f e x p e r
i l i m e n ta
l
ph o n e t c s i
,
r e s e ar c hs i t u a t i o n o f d o m e s t c a n d fo K g n r e s e a r c h e s o n s y
i i l l a b l e d ur at i o n
,
an d o b e c t i v e s
j ,
si
gni f
i c an c e a n d m e t h o d o o g y o f c ur r e n t s t u d y l
-
c h ap t e r t w o i sco l l e c t i o n an d s t at i s t i c o f d at a ,
c o n s i s t i 打 go f t hr e e s e c t o 打 s i . F i r st l
y
,
t h e s o urc e o f t h e e x p e r
i m e n t a m a t e r
i a l s a nd s p e e c h a n a y s l l i ss o t w a r e a r e b r
f i ef y
l
d i s cus s ed ; s e c o n d l y t h e s o u r c e o f r e s e arc h d a t a a n d r e s e a r c h p r o c e d u r e s w a y s o f
,
,
I I I
an d s i
gni f c a n e o f n o r m a l i
c zat i o 打
p ro c e 巧 n g s e x p l a n e d
i i i i
.
C h ap te r thre e i s 化6 a n al y s i s o f s
y
l l ab l e d u r a t i o n a n d i 打 fo r m at i o n c o nt e n t ,
wh i c h
i s t h e e s s e nti a l
p ar t o f t h e w h o l e th e s i s ,
i n c l u d i n g fo u r s e c t i o 打 s To b e g i 打 w i t h
.
,
i n fo r m at i o 打 e n t r o py and H u f
i n a n c o d i n g i n I n fo r m at i o 打 T h e o r y a r e b r
i ef
l y e x p l ai n e d
;
s e c o nd l ,
i m e n t a l d at a i s c l a s s i 打 e d a c c o r d n g 化 r e s e a r c h p u r p o s e a n d d a t a
y a l l e xp e r
i
s e l e ct i o ni s
j
us t i f
ied ;
F urt h e r m o re ,
i n fo r m at i o 打 c o n t e n t c a r r
i e d i n s y l l ab l e du r at i o 打 i s
c a l c u l at e d a n d t h e s
y l ab e du r at i o 打 o f s e l f
l l
-
i n fo r m at i o 打 i s o b t a i n e d ; f na
i l l
y ,
化e
K l a t i o n s h i p b e t w e e 打 m fo m i at o n C O 打 t e n t a n d s y l l ab l e d u r at i o n i s 行 g u r e d o u t
i , t h at i
s
化 e l o n g e r s y l l a b l e d u r a t o n t h e m o r e i n fo r m a t i o n i t c a r r
i
,
i e d a s w e l l a s t h e s h o r t
s
y l l ab l e d ur at i o n ,
t he l e s s m u t u a l i nfo r m a t i o 打 i t c o n t e n t e d
.
C h a p t e r fo u r i s c o nc l us i o n , w h i c h g i v e s c l e a r o u t l i n e o f t h e wh o l e t h e s i s a nd
ii r t h e r
f i ll u s t r a t e s 化 e r d at i o 打 s h i p b e t w e e 打 s y l a b l l e d u r a t i o 打 a n d i nfo r m at i o n c o n t e n t
.
M e an w h il e ,
化e l i mi tat i o n o f c u r r e n t r e s e a r c h i s s t at e d an d r e c o mm e n d at i o 打 fo r f u t u r e
s tu d
yi sal s ogiv e n
.
T h e the s i s i n v e s t i g at
e s t h e r e l at i o n s h i p be t w e e 打 s y l l a b e du r at i o 凸 a nd
l
p o nd i n g i n o r m a t o n c a r r i e d i n M a d ar n C h i n 的 e
c o rr e s f n i i th r o u g h e x p e r
i m e nt a l
化 e c o nn e c t i o n s o f l an u a
p h o net i c s p ro b 打 g 打 o
t
g e a nd n fo r m at o n 化 e o r y f
roma
i i
,
i
g i
b ran d 打 e w p e r s p e c t i v e
-
. I t i s au t ho r sex
pe cta
ti on t h a t t h i s s t u d y w o u l d m a k e a h umb l e
c o nt r
i b ut i o n t o i nt e r d i s c i p l i n ar y s t u d y o f li n gu i s t i c s an d c o m p ut e r s c i e n c e
.
K ey
w o r d s s y l l a b l e d u r at i o n
:
, i n fo r m a t i o n c o n t e n t , c o d e re
,
l at i o n s hi p
I
V
目
录
第 章 绪论
一
1
1 . 1 实验语音 学概述
1
1 . 2 音节 时长 与 信 息量么 间 关系 的 国 内 外 研 究 现状
3
1 . 2 . 1 国 内 研 究现状
3
1 . 2 丄 1 早 期 关于 声调 的 时 长研 究
3
1 . 2 丄2 发展期关于辅音 、 元音 、 声 调 的 时长研究
3
1 . 2 丄3 成熟期 关 于 语流 中 音节 时长 的 研 充
4
1 . 2 2 .
国 外研 究现状
5
1 . 3 研究 目 的 、 意义与 方法
7
1 . 3 . 1 研究 胃 的
7
1 . 3 2 .
研究意义
7
1 . 3 3 .
研 究 思 路 与 方法
8
第 二 章 音 节 时 长 数据 收 集 与 统计 1
0
2 . 1 实验语料与 软件 1
0
2丄 1 实验 语 料采集 1
0
2 . 1 . 2 实验软件 P R A AT 1
0
2 2 .
实 验数据 提取 1
1
2 2 . . 1 语音 片 段切分 1
1
2 2 2
. .
片 段音节切 分 1
1
2 2 3
. .
音节 时长统计 1
5
2 3 .
实验数据 处理 1
7
数据 归 化处理 的 重 要性
一
2 3 . . 1 1
7
数据 归 化处理 的方法
一
2 3 2
. . 1
7
第 H 章 音 节 时 长 与 其 所携 带 信 息 量 的 关 系 研 究 1
9
3 . 1 信息论原理 1
9
3 丄 1 信息论与 信息赌 1
9
3 丄2 霍 夫 曼编码 20
V
3 . 2 分析实验数据 22
3 . 2 . 1 数据 时 段分 类 统计 22
3 . 2 2 .
抽 样数据 分析与 说 明 25
3 . 3 从信 息 论信 息 量角 度论证关系 3 0
3 . 3 . 1 信 息论 中 信 息 量 的计算 3 0
3 . 3 2 .
所测 音节携 带 信 息量计算 与 统计 3 0
3 . 3 . 3 音节 时长与 信 息量 的 关系 论证 33
3 . 4 . 1 互信 息量 3 8
3 . 4 2 .
实验所用 音 节 互信 息 量 统 计 39
第 四 章 总结 44
4丄 关系 论述 44
4 丄 1 .
音节 时 长 与 霍 夫 曼 编 码之 间 的 关 系 论述 44
4 丄2 音节 时长 与 其所携 带信 息 量之 间 的 关系 45
4 2 .
论文待 改 进之 处 W 及对未 来研 究 工 作 的 展 望 46
4 2 . . 1 论 文待 改进 之处 46
4 2 2
. .
对未来研 巧工作 的 展 望 46
参考 文 献 48
5
1
致谢 53
攻 读 研 究 生 期 间 发表 的 论 文 54
V
I
第 章 绪论
一
第 章 绪论
一
语 音 是语 言 最重 要 的 组 成 部分 之 是语 言 的 表现形 式 研 巧语音 的 科 学被
一
, 。
" "
称为 语音学 , 语 音 学 又分 为传 统语 音 学 和 实 验语 音 学 ,
传 统语音 学 主要是 听
、
和 主观性 , 因此 , 后 来 新 兴 的 现代 语 音 学 W 实 验 、
数据 、 技术等更客观 的 研 究 方
法逐 渐 占 据 了 语 音 研 究 的 主 体地 位
。
, ,
, , ,
递的原则
。
1 1 .
实验 语 音 学 概述
, 。 ,
E W S cr
i p tur e 在 年撰 写 了 实 验语 音 学 基础 》 这被认 为 是 第 本实验语音
一
. . 1 902 《 ,
学著作
。
义的研巧中 屯 这 时期 德 国 波恩 的 语音 学家 M anz e r a 用 X 光照 相 来拍 摄和
一
、
, , t h
观 察舌位 的 活动 第 次对 曰 腔 内 发音 部位 的 动 作进行描 写 同 时解 决 了 些其
一 一
, ,
。 i
,
进行录音 的 重要提示 ,
并且在 当 时 克服 了 录音 的 众 多 难题 ,
从蜡 筒 录音 、 钢丝录
, , ,
1
普通话音节时 长与 其所携 带信 息量关 系 的语音 实验研 究
音高 、 音 强和 音长 。
除 此之外 , 还有 P an c o n c e l l i
-
Ca l zi a( 德 ) , D J o ne s ( 英 )
,
B o omf
i e l d ( 美 等 代表语音 学家 在这 时 期 都对 实验语音 学 的 发展做 出 贡献
一
l )
。
, ,
,
,
实验语音 学 家 必 须找 出 在 语音 的 声 学特征 中 哪 些 要素 是不 可 忽 略 的 哪 些 因 素是
,
可 W 忽 略而 不 使语音 失真
。
1 940 1 960 ,
列 专业 的 声 学 研 究 设 备相 继 问 世 , 1 94 6 年贝 尔 电话机公司 发 明 了 语图仪 , 这种
可 W 记 录 动 态 语 音 的 机 器 对 声 学 特 征 的 描 写 起 到 了 不 可 估 量 的 作 用 还 有 D ud , l ey
发展起到 了 决 定性 的 作 用 而这 时 期 的 语音 工作 除 了 声 学研 究 还有 言语产生
一
。 ,
。 , 日
口 腔 的 截面照 相 , 从而 研 巧元 音 的 共振 峰 声 学 参 数 , 在 1 94 1 年 发表 的 《 元音 的
性质 和 结 构 》 文 为 言 语产生 的 研 究 奠 定 了 基础 后 来瑞 典 的 通 讯 工 程 师 G F a nt
一
, ,
在 他 的 影 响 下 继 续 对 声 源进 巧 研 究 , 1 95 7 年 发表 了 《 言 语产生 的 声 学理论 》 ,
用
、
。
哈金斯语音 实 验室 ,
贝 尔 电话公 司 语音实验室和 麻省 理工学 院 的 语音研 巧 中 必
,
, 。
人 认 为 语 言 传 送 接 收 的 过 程 也 是 编 码 和 解 码 的 过程 因 此 每 个码都携
一
S h a nno n ,
带 了 不 同 的信息量 , 而 实 验证 明 在 语 言 传 输 的 过程 中 确 实存在 多 余 的 码 , 因 此剔
。 ,
从六十年代 到 八十年代 ,
随着 电子计 算机 的 普遍使用 , 语音 的 计算机 处理成
, ,
,
计 算机 与 语 音 学 的 联系 越 来越 紧 密 , 瑞典的通 讯工程师 F an t 提出 了 语 言 代码 的
概念 同 时表 明 这 时期 需要精通计算机 的 语 言 学 家 也 即 第 五代 语 言 科 学 家
一
, ,
。
科 技 的 迅 速 发 展 迫 切 要 求 语 音 学 家 突 破传 统 , 学 习 数理知 识 , 这样 才 可 W 融入实
2
第 章 绪论
一
验语音学 的 研究 浪潮
。
1 . 2 1 . 国 内 研 究现 状
1 2 1 1
. . .
早期 关于 声调 的 时长研 究
我 国 关于 音节 时长 的 研 究有
一
罗 常 培 和 王 力 先 生 等都 曾 有相 关 文 章 发表 , 其 中 W 刘 复先 生 的 博±论文 《 汉语字
南京 、 江阴 、 湖南 四 地 的 字调 。
白 涂洲 先生在 1 93 4 年通过刘 复 先生在 《 四 声实
调 , 同 时 利 用 浪 纹针 的 浪 线 的 长 短 得 出 了 四 个 声 调 的 时 长 , 分别 是 : 阴 平 化 43 6 s
、
阳 平 化45 5 s 、 上声 化483 s 、 去声 0 42 5
. s , 结果说 明 四 声 中 去声最短 、 上声最长
。
。
1 2 1 2
. . .
发 展 期 关 于 辅音 、 元音 、 声 调 的 时 长研 究
, , 、
。 、
区 别特征 的 文 章 都 陆续 发表
。
》 ,
、
语 图 仪 等 实 验 仪 器对 辅音 和 元 音 的 过渡 段 的 时 长 进 行 了 分 析
。
3
普通话 音节 时 长 与 其所携 带信 息量关 系 的 语 音 实 验研 究
随后 , 林 茂灿 先 生 于 1 980 年 发表 的 《 普 通 话 二 字 词 变 调 的 实 验研 究 》 W 及
《 ( ) ,
轻 声 做 了 研 究 分析 , 采用 语仪 图对 巧 对两字 词 进 斤实验 , 分别 记 录第 二 字轻 读
和重读的音长 , 其 中 提到 轻 声 词 的 音长 在 轻 读 时 比 重 读 时 大大 缩短 , 而且 长度 是
。 1 9 82 《
长分析 》 是我 国 第 篇 关于 时 长 分 析 的 专 著 文 章 W 十 H个 人 的 发音 为 实 验材料
一
,
,
得出 22 个辅音 时长 。
同年 , 冯 隆先生 的硕±论文 《 北京话 的 声韵调 时长》 中 首
时长 、 8 个单元音韵 母 的 时长 、 四 个声调 的 时长 ^ ^及 说 话 速度 对 声 韵 调 时 长 的 影
1 2 1 3
. . .
成 熟期 关 于 语 流 中 音 节 时 长 的 研 究
验得 出 音高 、 音强 、 音长三方面对轻重 音 的 作 用 , 结果证 明 ;
音 高在重音 声 调
对于 轻音 时长做 了 分析 在 分析 结 果 中 轻音 时长 大约 是这个音之前 的 那 个重
一
音的 半 和 林茂 灿 先 生 的 实 验 结 果 基本 致 年我 国第 部关于 实验语
一 一 一
, 。 1 989
,
:
研 究 新进 展 》 文中 引用 国外 教授关于重音与 时长 的 结 果 音长是重读音
一
F ant :
1 00ms ,
。
于普遍语 言 来讲 都有 定 的意义 我们 可 W 借鉴
一
,
。
《 , ,
切 音器切 分 了 语流 中 的 音 节 时长 总 共切 分 , 1 9 万 个音 节 ,
发音 人为 专业播音 员
,
4
第 章 绪论
一
计结果湿示 :
韵 律短语边 界 , 语调 短 语边界和 语调 短 语群边界都 可 W 延 长音节
的 时长 但这 H 者 延 长 的 程 度 还 有 定 的差异 其次 不 同 声 调 对前边 界 音节
一
, ,
;
, 、
。
1 . 2 2
. 国外研 究现状
国 外研 究 现状 主 要从 语 言和 信 息 相 结 合 的 研 究 成果这 方面 阐 述 真正 意义
一
年 发表 了 A Ma hem 她 c a T h e o ry 文 信息论 问 世
一
S h a nn o n 《 t l
o f c o mm u n i c at i o n 》
,
,
是 形 式 化假说 、 非决 定 论和 不确 定 性 。
形式化假说大胆 地 去 掉 了 消 息 主观方面 的
语义 、 语用 因 素 , 只 保 留 了 能用 数学描述 的 客观方面 的 形 式 因 素 ,
即 语法 ,
使用
发送端 出 发 的 消 息 从形 式 上 复 制 出 来 ,
并不 需 要 从语义 方面作 处理 。 而非决定论
是 指 采用 概 率 统计 的 方 法 作 为 分 析 通 信 问 题 的 数 学 工 具 不 确 定 性 是 指 当 收 到
一
条消 息后 ,
所获得 的 信 息 量可 W 用 不 确 定 度 的 消 除量来进 行度 量 这里 需 要说 明
。
" "
, ,
, ,
, ,
常数 但此 时 并 未发文进 步论证
一
,
。
从 20 世纪 5 0 年代开 始 , 研 究 学者 开始 受益于信 息 理论 的 输入 , 获得 了 诸 多
" " " "
概念 , 例如 沟通渠道 和 兀长 , 再者 , 在 寻 求语 言 模 式和 结 构 的 解释 时 也
, 。
i
衡关系 。
换句话说 ,
音 素 的 复杂程度越 高 , 出 现 的频率越低 ,
复杂程度越低 ,
出
5
普 通 话 音 节 时 长 与 其所 携 带 信 息 量 关 系 的 语 音 实 验 研 究
, 。 Joo s
概念 的 不确 定 的 复 杂 意 义 的 解释 , 而 Jo o 的 批判 主 要集 中 在 方 法论 的 缺 陷 上 ,
他
将 Z pf
i 的 设 想 作 了 稳妥性分析并指 出 其 问 题所在
。
随后 出 现 了 更 多 与 复杂 性相 关 的 讨 论 无论 是在 显 著 性 的确 定 上还是把复杂
,
性更 多 地看作 是 个功能性的框架 G r e e n s be rg 通过 回 答 个自 问 解释 了 第
种
一 一 一
"
些 来 区 分好坏 发音清 晰度 的 特 点 吗
" "
倾向 问 题是 有 答案 是 有 且原
一
,
? : ,
" "
m ark e d ,
, u nm ar k e d 。
统 和 言 语交流 中 可 W 起到 作 用 。
但是 Z ipf 大大忽 略 了 听 者 的 方面 , 表 明 最少努
, 。 ti net
求 的 作用 即 说话者传 递 自 己信 息 的 需 求 抵消 说话者最少 努力 的 原 则
, , 。 L n加i l om
, ,
将 听 者 的 努力 考虑在 内
。
后来 些理 论模 型 被 提 出 来解释语 言 与 复 杂 性之 闻 的 规 律 W 及 来重新分 析
一
Z pf
i 对于 语 音 复 杂 程度和 出 现频率 之 间 的 假设 这些工作 极大地 导 致 了 人类信 息
。
渠道沟 通 的 重建
。
在 20 1 1 年 打 an s 〇 i sP e ll e
gr
ino ,
C hr
i s t o p h e C o 叩 S and E g i d i o M ar s i c o 发表 的 《
A
文中 提出 种 假想
一 一
an
g ua g e p e r s p e c t i v e o n s p e e c h i n fo r m a
c ro s s o n r at e 》
-
l ti ,
大 。
研 究者通过对屯种 不 同 语 言 的 大量数据 研 究 , 并经过信 息 理论解释 ,
发现他
,
。
6
第 章 绪论
一
1 3 .
研究 目 的 、 意 义与 方法
1 . 3 . 1 研究 目
的
, 目 。 ,
属于其中 的 个小 口 类 我 国 的 音 节 时 长研 究 从孤 立 的 单 音 节 到 语 流 中 的 音 节
一
。
,
从声 调 到 辅音 ,
从轻重音 到 话语边界 , 都有着丰 富 的成果 。 但在 音节 时长和 信 息
量之 间 的 关系 这 方面还未见成熟 结 论
一
。
众所 周 知 , 语言 交流是编 码 、 发送 、 传递 、 接 收和 解码 的 过程 。 说话者将 自
并不 陌生 因 为每 天 甚至 每个 时 刻 都在 进 行这 工作 而 到 底 为 何我们 会将
一 一
一
, ,
连 串 的 词 语有效 的组合 ,
W 乔 姆 斯基 为 代 表 的 生 成 语 法 派 致 为 于 此 。 而我 思 考 的
, ,
本文 的 的如下
?
目 :
1 .
,
长 , 找 出 长于或短于 平均 时长 的 音节 ,
解决音节 时长差异 问 题
;
2 .
研 究长 于 或短 于 均 值 时长 的 音节特 点 , 检测 音 节 所 携 带 信 息 量 对 时 长 的
信 息量之 间 存在 怎样 的 关系
。
1 . 3 2 . 研 巧意义
日 常 交流 中 我们会察 觉到 在 句 话 中 有 些 词 的 发音 时 间 长 些 而有些词
一 一
, ,
, ,
长于或短于平均 时长 ,
更 重 要 的 是 探索 这 些造成音节 时 长差 异 的 原 因 。 只 凭靠语
感判 断 是远 远不 够 的 ,
本文针对这些 问 题 , 通过对 日 常 语 流 中 音 节 时 长分 析 ,
建
7
普通话音节 时 长 与 其所携 带信 息量关 系 的 语 音 实验研 巧
文 章 对不 同 情况 下 的巧 语 语 流进 行 实 验研 究 , 通过语音 分 析 软 件对语句 中 的
1 .
根据 严谨 的 语 音 实 验和 客观 的 实验数据 , 得 出 可靠性较高 的 实验结果
,
2 .
在国 内 , 将 语音 的 时长差 异和信 息理论 结 合起来 的 研 巧还 未见成果 ,
本
量
;
3 .
本 文 大量 采 集 语 料 , 并进行音 节分析 , 得 出 数据结 果 不仅 可 W 为 文 章 所
用 也可 为 日 后进 步 的 研 究提供参数
一
,
;
4 .
分 析 数据 时 , 在有 效得 出 文 章 结 论 的 同 时 , 还可 W看 出 很 多 其他关于 时
路
。
1 . 3 3 . 研 究 思路 与 方法
。 ,
自 , ;
,
的 数 学计算方法对 数据进行整合 解决 了 这 问题
" "
差异 问题 笔者用
一
归
一
,
,
,
关关系
。
第
一
步通过语音 软件 P r a at 对 语 言 片 段切 分 成 W 句 子 为 单位 的 独立语料 并加
,
8
第 章 绪论
一
W编号 , 各查询
;
件夹 内 , 避免发生错乱现象
;
便 W 后 的 结果分析和源头查找
;
第 四 步是统 分析音节 时长 进行 时长 归 处理 消 除 因 个 人 语 素 快 慢所 导
一 一
, ,
位 , 进行分析 比 对 , 总结 规律
。
9
普通话音节 时长 与 其所携带 信 息量关 系 的 语音实验研 究
第 二 章 音节 时 长 数据 收集 与 统计
2 1 .
实验语料与 软件
2丄 1 实验 语 料 采 集
, : ,
。 ,
步 筛 选 为 保证 语 料 多 样 化 所选取 的 语料 的 题 材 需 多 样 化 在 导 师 的 指 导 下
一
, , ,
,
1^
| : ,
,
, ,
; 目 ,
节 目 可 代表 日 常生活交流 , 语 言 更加 曰 语化 , 具有普遍意义
。
2 . 1 . 2 实 验 软件 P R A AT
P ra a t 是 由 荷 兰 阿 姆 斯 特丹 大 学 语 音 研 究 所 主 席 P au l B o e rs m a 教授 和 D av i
d
We e n 助 教授 两人 合作 研 发 的 款 专 业 的 语 音 分析 软 件 在 荷兰 语 中 的 意
一
i nk 。 P raat
思 是说话或交谈 这 软件 的 原 名 为 后 来简 称为
一
, d o i n g p h o n e t i c s b y c o m p ut e r ,
p r a at
o
P r a at ,
、
标注 、 整 合和 处理等 实 验 ,
同 时 生成各种 语 图 和 文字报表 。 通过 p r a at 语音软件
,
我们 可 得 到 输入 的 语 音 材料 的 详细 信 息 ,
打 开 程序 界 面 , 能够得到 频谱 图 、
频
, ,
1
0
第 二 章 音 节 时长 数据 收集 与 统计
2 2 .
实验 数据 提 取
2 2
. . 1 语音 片段切 分
, iti on ?
目 , , ,
工作如 下
:
第 在 中 将 所有 原始 文件转换格式 ^ 便 9 1 3^ 软件 识读
一
, ? 0 11 1 1 31 ? 311 〇 01 ; 1
7 ,
1
,
,
对 语 音 片 段进 行 顺序 编 号 ; 最终切 分 出 3 00 个 目 标语音 文件
。
2 2 2
. . 片 段音节 切 分
3 00 目 , ,
效 目 标音 频文件
。
P r a at , 目 ,
位的 二级 目 标文件 , 对于完整句 子 的 定义 为 :
有完整句 调 并 句号 , 问 号和感叹
号为结尾 的句 子 。 WAV 波 形 文 件 的 方 式 保存 并加 ! ^编 号 ,
最终切 出 69 个独
立有 效 的 语句 ; 再 分别 对这 的 个句 子 中 的 音 节进 行 时 长提取 , 这
一
步是本实验
, P r a at , ,
别 在 于滤波器 的 不 同 ,
其 中 宽 带语 图 的滤波器在 3 00 赫兹左右 , 窄 带语 图 的滤波
45 , ,
3 00 , ; , ,
I
I
普通话音 节 时长与 其所携 带信 息量关系 的语音 实验研 巧
因 此 宽 带 语 图 更 常 用 语 音 色特征 的 分析 窄 带 语 图 更 常 用 于谐波和 音 高特 性 的 分
,
下进巧 , 具体提取工作 如 下
;
第H , 在 P r a at 中 载入语句 ,
在 语 图 界 面 通 过对 所 有 音 节 的 听 辨 最 终 确 定 句
目
;
节 点 的 准确 性 采 用 H 次切 分后 取 算术平均 值 在每 次音节提取 的 过程 中 需要
一
, ,
密 切 结 合 宽 带语 图 中 语音 能量 的 强弱 来判 定 音节 ,
再通过 听 辨进行提取 , 在听辨
( ,
为后 个音节 的 开始做好准备
一
)
。
计入 库
。
操 作流程具体 实例 说 明 , 例句 1 : 在人 民 大会堂 东 口 外广 场 举 行 了 欢迎 仪
式 。
在 P r aat 软件 中 对这句 话进行 语 图 分析如 下 图 1
:
4 犹 9 52
1 .
0 5 30 3
- 7
i
觀 闕 解 H IT
H
1
.
4 509 52
T
Y L畔
^t
e !
bf
e
p与
d urg f
%
" 2 90 :
I
i p n 2 9〇 1 ^〇 5 s e co nd s
,
.
辦 与 畔 99 ]]
ds
;
; 1 .
山
450 9 52
; 別
y 常
和
;
S
; ;
早與 截5
1
;
—
;
ai i n ou t
{ bak
{
巧
?
|
图 1 ;
例 句 时长语 图
1
2
第 二 章 音 节 时长 数据 收集 与 统计
上图 1 上下 一
宽 带 语 图 中 的 蓝 色 曲 线 是基频 曲 线 。 点击 t o t a l d u r at i o n 键可 W 自 动播放语句
,
例 句 中 包 含 了 1 8 个音节 , 相 对较长 ,
频谱 中 曲 线和 能量分布都较密集 ,
切
'
0 00 344 8
-
。 0063
' 1 3
働批 雜省
lu l l
0 7 2 50 2 8
.
j
0
.
.
Vs i i i
t 0 7 2 54 7 6 second s
b e par .
化 巧 5 4 7接 2 . 1 76 4 2 9 ^
To t ^ d ur a^ o n 2 9 0 .
1 90 5 ^ ecC
TT d s
^
叫 …
味 . ]
j I
_ j
策 細
I
图 2 ; 例 句 音节 时长语 图
图 是 把语 图 放大 两倍 W 后 的 效果 图 放大后 页 面 只 会 显 示整个 语句 中 的
一
2 ,
, , ,
次 , 相 对应 地 在 下 半 幅 宽 带 语 图 中 看 出 能 量 最 强 , 颜色最深 的 部分有 5 部分 ,
由
此可 W 推 断 图 中 包含 了 五个音 节 在 人 民 大会 这 开 头 的 五 个字 通过听音
' '
, 即 ,
证实推断 。
现在 正 式提取音节 , 如下图 3
:
1
3
普通话 音节 时长 与 其 所携 带 信 息 量 关 系 的 语音 实 验研 巧
、
g
. 00 0 7 6 3 《 ’
庄巧 巧 巧 1 1
.
520 / 的 (
0 . 化巧 1 3
早
;
獅贈如 細誇 喔 賢
i
。 …
f
I f j
jj j
雖 / U8 巧 t 0 54 3 &
^
n
1 1 -
1
t .
i f
; ; ; :
門
; 爭 飞 725 為E f ? M2S
。
皆 莫 Tota Z B O 辩5 石
'
kra on
;
> s ec on d s
' :
驾
一 一
i
'
l c t t
^
W
'
o t i
I
; M
l b ak
>
, ? 0?< ? 盛
;
I I |
j |
j
图 3 :
提取音节 时长语 图
根据 移 动 拖拽屏 幕 中 的 红 线 , 锁定 选取 区 域 ,
根据 声波 曲 线和 宽 带 语 图 确 定
第 个音节 在 的 频谱 图 红 色 选 定 区 域 最 上 方 的 时 间 值 是 我们 所 需 要 记 录 的
' '
一
, , ,
居 中 的 音节提取 ,
所 为保证数据 的 有 效性 , 通过听辨 结 合 语 图 确 定稍 有差异 的
所 [ ^1 , 例句 1 的 音 节 时长 统 计情 况 如 下 表 1
;
表 1 例句 节 统 计 表
 ̄
^
音节
时 长 声 母 彰 母 声 调
I I I
I
I I
备注
在
0 . 1 68s
Z
m
^
人
0 088
. s
r
^
二声
民 0 . 1 79 s m i n 二声
大
0 . 1 47 s
d
a
^
会
0 . 1 06 s
h
m
^
堂
0 266s
.
t
^ ^
东 0 d on g
声
一
. 1 3 8s
n m 二声
0 . 1 1 8s
^
夕h
0 . 1 44 s
w
m
四声
广
0 . 1 65 s
g
u an g
四声
埼 兰声
0 25. 1 s
^
1
4
第 二 章 音节 时 长 数据 收集 与 统 计
举
0 . 1 77 s
j
u
^
行 二声
0 . 1 6 1 s
X
^
7
0 08. 1 s
1
e
欢
0 . 1 3 0s
h
二声
迎
0 . 1 78s
y ^
二声
仪
0 . 1 1 7s
y
i
^
式
O . l W s s h i
四 声 I
I
2 2 3
. . 音节 时长 统计
在提取音节 的 工作 结束 W 后 ,
对 5 26 个 音 节 数据 进入入库 统计 , 建立新 的
ac c e s s 数据库 , 在 数 据 入库 时 ,
最重 要 的 是 对 音 节 内 容 的 分 化 简 洁 全 面 的 栏
目
节 语句 名 称 语句 内 容 实际时长 归 系数 归 时长 居 中 位置 声调
一 一
、 、 、 、 、 、 、
、
声母 、 韵母和 备注 。 结 合例 句 1 的 时 长 数据 ,
可 W 创 建表格 2 ; ( 见下页
)
2 ,
'
, 1 6 ,
实 际 时 长是音节在句 子 中 本来 出 现 的 原 始 时长 归 系 数与 归 时 长是音节在进
一 一
, 2 3 2
. .
;
同 音巧 出 现在 句 中 不 同 位置 时 会 产 生 怎 样 的 时 长差 异 属 于 后 期 分 析 工 作 的 考
一
研 究对 时 长 的 影 响
。
1
5
巧 J J J J ^
1
费
1
J J
^ ^ ^ d ^ 3 -
攝 0 ! I
 ̄
-
巧 J
J
 ̄
占
^ m ^ ^ ^ ^ W
^ ^ ^ ^
 ̄
^ ^ ^ i
s
化
 ̄
 ̄  ̄
 ̄  ̄
 ̄  ̄  ̄
 ̄
 ̄
 ̄  ̄
 ̄  ̄  ̄
 ̄  ̄  ̄
.
醒 S S 5 ^ 5 ^
化 ^ ^ i i ^ ^ 5 ^ ^ ^ 国
I
刚
材
>
?
^ 一 ^
^ ^ 如 一 § ^ ^ n ^ ^ ^ ^ ^ 訂 ^
+
<
好
^
率
5 S S s
等 完 另 等 另 送
它 寸 5 置 舅 e
寸
舅
o
o 0 O N 到
0 g
巧 i 9 国 z
/
舍 i l 0 圖 — I
气 巧
2 :
. . . . ’ . . ’
. .
1 o 0 o 1 0 o 0 l l 1 0 0 l 0 一
S  ̄
2
 ̄
^
度
撼
海
 ̄
榜 峨
邮
二 1
^ ^ ^ ^
巧
査
巧
巧
峨
 ̄
l
《 晏
邮
)
半 S S S S S s s S s S s
苗 6 9 名 8 8 寸 另 o 甚 s
巧 轻 它 9 Z
S 0 9 £ 寸 9 5 £ 三 6
i 三 £ s u
迴 度 T 叫 。
- l 1 1 t 1
r
1 I
世
2
? . . . ’ ,
—
. . . , , .
,
吿 0 o 0 0 0 0 0 0 0 0 0 o o o o 0 o
城
乾
运
化
聘
 ̄
-
械
 ̄
叩 氣 柄 柄 柄 柄 柄 怡 柄 货 柄 柄 怡 侣 柄 传 侣 柄 柄
公 "
S
》 》 》 这 》 這 這 》 》 》 》 》 》 》 这 梦
轻
奇 辑 哥 致 寶 貴 貴 哥 脅 贸 贸 穿 辑 浸 哥 君 哥 背
护
龄
砸 该 核 挺 该 挺 孩 挺 该 挺 挺 挺 该 挺 挺 核 挺 挺 挺
巧 把 把 把 把 把 把 担 把 把 担 把 把 把 担 担 担 把 把
幽
雖 鞭 棘 雜 靴 雜 靴 翁 靴 雜 雜 棘 雜 拼 雜 棘 雜 排 靴
恨 鹰 鹰 頃 咳 鹰 鹰 鹰 鹰 頃 坂 頃 頃 頃 坂 咳 鹰 银
娩
芒
U 」 」 」 」 」 」 」 U 」 」 」 」 C 」 U 」 U
女 泰 泰 女 女 女 女 泰 女 女 女 泰 女 泰 泰 女 泰 女
巧 C 己 C 巳 C C 巳 己 己 己 L
」 己 巳 C C 己 巳 n
喪
巧 快 巧 巧 巧 巧 挨 巧 巧 巧 巧 巧 巧 挨 巧 巧 巧 战
轴 制 刹 制 剌 刹 削 剌 刺 制 剌 刹 刹 制 轴 剌 刺 綱
撕 娜 如 如 撕 撕 撕 挪 撕 撕 撕 : : :
撕 部 娜 撕 鄉 撕 部 :
K K K K ^ ^ ¥ ¥ K K 长 ¥ ^
脏 此 脏 脏 监 监 监 监 监 此 监 此 监 监 此 监 监 监
Y Y Y Y Y Y Y Y Y Y ¥ Y Y Y Y Y Y Y
枯 巧 巧 巧 巧 枯 巧 巧 巧 巧 巧 讶 巧 巧 巧 巧 世 材
I
痕
一 一 一 I 一 一 一 I I I I 一 I I 一 一
i
I
 ̄
媒
巧 尽 巧 町 町 尽 巧 巧 尽 巧 巧 面 巧 巧 贯 空 贯
巧 晏 晏 晏
晏 晏 羣 晏
晏 晏 晏 晏 受 晏 晏 晏 运 s 晏
胆
一
护
卿 W
U M 时
叫
^
『
^ ^
^
— ^
鬥 ^
^
叫 ^
第 二 章 音节时长数据 收集与 统计
2 3 .
实验数据 处理
数据 归 化处理 的重要 性
一
2 3
. . 1
日 , 、 、 、
、 , 自 ,
的差别 。
本 文 所采 用 的 实 验 声 源 来 自 不同的 1 7 位成年人 , 其 中 男 成年人 7 位
,
 ̄  ̄
表 3 :
音 频文 件 分类 统 计表
语 料 类 型 语 句 数 量 所 占 比 例
新 闻 播报类
n
1 5 . 9 4%
一
娱 乐 纪 实类
1 3
1 8 . 8 4%
谈 话 访 谈 类 45 65 . 2 2%
从表 3 中看出 ,
谈话访谈类节 目 所 占 比例 最大 ,
娱 乐 纪 实类和 新 闻 播报类 所
总 得来说 :
新 闻 播报类语速适 中 , 相对稳定 ; 娱乐 纪实类语速快 , 气氛轻快 ;
谈
响 最大 , 差异也最大
。
, , ,
,
数据归 化处 理 的 方 法
一
2 3 2
. .
到的归 化 公式为
一
:
Y
二
y
*
{
N I T
s )
r
, ,
y , , :
,
是音节所在语句 的 语句 时长 用 音节数量 除 W 语句 总 长可 得 出 归 系数 其实
N
一
。 ,
真 正表示 的 是 音节 数量乘 W
—
,
1
7
普通话 音 节 时 长 与 其所携 带 信 息量关系 的 语 音 实 验研 巧
即
:
Y
=
y
*
(
N* l / Ts
)
这 个等 式 中 的 表示 秒 那么 乘W 就表 示 将所 有 的 音 节 时 长 都 看
'
r N
一 —
作 秒后 的总 时长 这就是 归 的 真 正 关键 用归 总 时长 除 语句 的 实 际
一
' 一
' 一
, ,
。 : , 。
4
为 实验所用 个语 句 的 归 系数范 围 图
一
69
;
戸 .
'
私
轉 ,
.
2 -
識
i
■
:
£
乂 尸
—
图 归 系数范 围 图
一
4 :
从 图 中 可 W看 出 归 系数在 到 之 间 的 语句 数量为 句 所 占 总 比例 为
一
5 6 32 ,
40 , ,
组数据分别 占 有第 二和 第三 的 百 分 比率 而 系 数最大 的 语句 只 占 据 了 总 数 的 , 4%
,
最 小 的 语 句 占 据 了 % 说 明 语 速 很 快 或 者 很 慢 的 语 句 在 交 流 中 出 现 的 概 率 较 小
1 ,
,
,
。
在 数据做 了 归 化 处 理 之 后 音 节 之 间 就 已 经 消 除 了 因 外 界 主 客 观 因 素所造
一
, ,
据 依据
。
1
8
第H 章 音节时 长与 其携 带信 息量 的 关系研 究
第 H 章 音节 时长与 其所携 带信 息量 的
关系研究
3 . 1 信 息论原理
3 . 1 . 1 信 息论与信 息赌
信 息 论是香农 C l au d e S h a nn o n 于 1 9 48 年创 始 的 专 口 研 究信 息传输和 信 息 处理
, 、
输 数据压缩等 系列问题
一
、
。
般来 说 关 于 信 息 论 的 研 究 内 容主 要 分为兰类 第 类是 W 编 码理论为 中
一 一
, ,
, s h a nn o n ;
,
自 。
消 除 多 少 不确 定 性就 获得 多 少 信 息 量 关于 如 何消 除不确 定 性 有 个历史 的发
1
一
, ,
;
将 信 息 理论进 步深化 直到 来表 示 在 数据 传 输 的 过程 中 具 有
" "
H ar
t 巧 用 N
一
。 l l og
N 个不 同 可 能状态发生 的 不 定 性后 信 息 的 概念 才 明 晰 起来 这 公式忽 略 了 各
一
, ,
《 , , : , 20 1 4 , 5
。
1
9
普通话 音节 时长与 其所携带信 息量关系 的语音 实验研 究
( s h ann o n ) , 维纳 ( wi e ne r )
,
i s her
f H人分别 从不 同 的 方面探索 完成 了 信 息 的 统计
理论 ,
结 果为在 通讯 中 需 要 随机事件为对 象才 能确 定信 息 的 不确 定性 , 也提 到
了 消 息 的 本质 就是在 于 消 除 的 不确 定 性 , 在 计算 中 ,
消 息 出 现 的概率越小 , 也即
" "
信息贿 是 S h a nn o n 从物 理 学 中 引 进 的 概念 , 上文 己经提到在物理学 中
息 中 不确 定 性 的 量度 , S h a nn o n 在 《 A Ma t h e m at i c a l T h e o r y o f c o mm un i c a t i o n 》
" "
通信 的 数学 理论 》 文中提出信息 摘 的 计算 公式
一
( 《 )
;
好 (义) = -
戶 化 )
l og 6 ,
叫乂 ) )
。 =
1
,
2 3 , ,
… …
)
;
( ,
片 X
一
, // ,
( )
数 的 对数 在计算 中 的取值 般为 或者 然数 当 时 贿值
一
自
=
, , b 2 , 1 0 , e ;
b 2 ,
的 单 位为 当 b
=
1 0 时 , 烦值 单 位 为 化 当 b
=
e 时 ,
烦值单位为 口f 。
计算
3丄2 霍夫曼编码
源 编 码有 霍 夫 曼码 费诺玛 香农 费诺 埃利 斯码 游程编码和 MH 编码 算数
-
、 、 、 、
编码 、 字典编码等 ,
其 中 霍 夫曼码 是最佳码 , 所 谓 的 最佳码 是 指 在 所有 的 可 能 的
唯
一
可译码 中 , 此码 的 平均码长 最 短
。
H uf
i n an C o d i n g( 霍夫曼编码 ) 是 D av i d A l ber
t H uf
in an ( 戴维 ?
霍夫曼 )
于
M R e du n d a n c y C o d e s 》 种 构 建 极 小 多 余 编 码 的 方法 文加 W
一 一
i n i m um -
( 《 》 )
。 ,
" "
码 变长码是编 码 中 的 种 码 除此之外 还有 二元码 等长码 奇异码
非
一
, , 、 、 、
、 、 N 、 ,
到的 , 出 现机率 高 的 字 母 使 用 较短 的 编 码 , 反之 出 现机率低 的 使用 较长 的 编码
,
这样 来就 会 使 编 码 后 的 字 符 串 平 均 长 度 和 期 望 值 降 低 从 而 达 到 无 损 压 缩 数 据
一
的 目 的
。
, ,
个 字 节 卸始 即 个 比特 而 很有 可能用 个 比 特 来表 示 则可能需要
一 一
( >
, 8 , e , Z
25 。 , e 1 / 8 , Z 。
出 现概率 最小 的 符 号 用 0 和 1 ( 二 进 制 ) 合 并作 为新 的信 源符 号 , 并进 行编码
,
=
r r , , r 3 ,
4 5 ,
. . .
;
, , ,
个信 源符 号按 照 概率大 小 分布 W 递减顺次排 列 如 乃 > 尸2 > > > 户《
>
, , : / 3 . . .
;
第二步 ,
将 0 和 1 码分 别配备给概率最 小 的 两个信源符 号 , 同 时 将送两个信 源 符
, ,
到 只 包含 N -
减信源 S i 的 符 号 再 按 概率 大 小 的 降 序 依 次排 列 , 同 样 按 照 第 二 步骤将概 率最 小
2 S
0
。
-
, 1 ,
最 后 依 次将缩 减信 源 只 剩 两个符 号 为 止 , 也用 0 和 1 表示 ,
最后两个符 号 的 概率
1 , ,
新排列 时 ,
应使合 并得来 的 概率和 尽可 能 的 处于最 高 的 位置 , 这样 可 W 使合 并 的
元素重 复编 码 次数减少 ,
短码可 W 得 到 最大化利 用
。
: ,
码 ,
概率 小 的 符号对应长码 , 且短码得到 了 充分利用 ; 第二 , 每 次缩减信源 的 最
实 例 来源 于 维 基 百科
3
2
1
普通话音节 时长与 其所携 带信 息量关系 的语音实验研究
, ,
;
码 的 性质 最佳二 元码 的 性质 需 要满足
4
。
:
若 则 Z < Z 若 在 信 源 中 出 现 的概率大于 那么 的 码长
定
一
> k
1 )
气 6 ,
j t j
,
J
小 于或等于 k 的 码长
;
的 过程 中 己 经 实 现这 点
一
;
3 ) , ,
。 0 1
。
上述 己 经说 明 霍 夫 曼码符合最佳二元码 的 性质 ,
同时 ,
霍 夫 曼码
一
定 是最佳 即 时
码 因 为 它 的 平均码长 定小 于或等于任意其他 即 时码
一
,
。
本 文 需 要 证 明 在 人 类 的 交 流过程 中 传 递 的 信 息 是 否 符 合信 息 的 传 递 原 则 霍
,
夫 曼码 是 最佳 的 信 息 传递编 码 原 则 , 即 :
出 现概率越 高 的 符 号 在 编 译 中 使用 的 码
3 2 .
分析 实验数据
, ,
, , ,
; , ,
节 中 出 现频 次大 于 的 音节进行 统计 并提取 时 长 数据
一
,
。
3 2 . . 1 数据 时段 分类 统计
从整个数据入手 最 关 键 的 工 作 是 分 出 大 于和 小 于 归 时长 的 音节 换言之
一
, ,
,
音 节 时 长 偏 短或偏 长 都 需 要提 取 出 来进 行 分 析 根据 这 需求 将 音 节数据 分 为
一
, ,
,
1 , 0 . 2 ,
4
:
4
《 信 息论与编码 》 傅 祖芸 , 赵建忠编 , 北京 :
电子 工业大 学 出 版社 , 20 U 年 ,
第 2 1 8
页
22
第H章 音节 时长与 其携 带信 息量 的 关系 研 究
表 4 节数量按 时长分类数据表
^
短 时音节 ( f 氏于 0 8s . ) 正 常 音 (
0 8 .
-
1 . 2S
)
长 时音节 高 于 (
1 . 2s
)
音节数量 ^ ^
H2
所 占 比例
3 m
4
^ ^
从表 中 可 W 得 出 短 时 音节在 定 程度 上 多 于 长 时 音 节 而 正 常 音 节毋 庸 置 疑
一
据库 , 便于观察和研 究
。
, ,
所有 音节 列 入表 中 , 从而观察变化规律 , 根据 统计得 出 表 5
;
表 5 短 时 音节分段数量统计
音节 音节
所含音节
时 长 数 量
0 . 3 S
-
0 4S
. 5 了 、 的 、 的 、 不 、 了
了 、
了 、 了 、 的 、 了 、 就 、 不 、 了 、 的 、 了 、
啦 、 呢 、 着 、 了
、
0 4s 0 5 s
.
-
. 1
7
了 、 老 、 不
了 了 你 了 把 西 火 里 了 了 了 了 了
一
、 、 、 、 、 、 、 、 、 、 、 、 、
、
3 5 了 服 涂 听 和 了 人 就 了 的 了 的 了
一
0 5S 0 6S
-
. . 、 、 、 、 、 、 、 、 、 、 、 、 、
、
的 、 也 、 了 、 的 、 你 、 宝 、 子
子 、 本 、 回 、 的 、 是 、 给 、 带 、 宝 、 了 、 不 、 的 、 他 、 伙
、
怎 、 看 、 了
、
06 s
■ ■
-
0 7 s 4 4
来 、 你 、 要 、
一
、 们 、 到 、 地 、 是 、 子 、 被 、 我 、
会 、 了 、 个
、
了 、 爸 、 维 、 住 、 我 、 到 、 满 、 了 、
没 、 头 、 不 、 了 、 又 、
音
子 不 跟 我 你 呀 了 保 盖 你 么 刮
一
、 、 、 、 、 、 、 、 、 、 、 、
、
的 、 了 、 开
、
了 、 都 、 宝 、 仪 、 租 、 我 、 己 、 也 、 了 、 的 、 包 、 口 、 植 、 的
、
0 7 s 0 8 s5 9
.
-
去 、
了 、 他 、 么 、 礼 、
他 、
我 、 了 、 才 、 遍 、 还 、 子 、 体 、 也
、
东 、 了 、 就 、 明 、 不 、 了 、 啦 、 爷 、 有 、 那 、 力 、
车 、
剩 、 部
、
1
?
在表 5 中 的 数据 可 W 看 出 随着 音长 的 不 断增 长 , 音节数量也 随着増加 , 再结
" " " "
合音 节 来看 , 可 W看 出 了 的 的数量 占 到 了 较大 的 比例 , W 化5s 为界 ,
小
" "
于 0 5
.
砂 所含 的 音节 除 老 W 外均为单音节虚词 , 大于 0 5 .
秒 所含 的 音节 中 出
现 的 音节 才逐渐 出 现其他单 字
。
, :
认为 的 轻声 有 些 正 常 声 调 的 音节在语 流 中 和 轻声所用 时 长差 不 多 样短
一
,
。
短时音节 时 间 为 标准 的 分 类 己 经 定 型 , 同样 ,
将长 时音节也 做此类分析
,
表 6 为 长 时 音 节 的 分 段 统计表
:
表 6 长 时 音节 分段数量统计
音节 音节
所含音节
时 长 数 量
糊 、 7K _
、 看 、 周 、 缝儿 、 进 、 式 、
护 、 头 、 你 、 实 、 汗 、 有
、
1 . 2s -
1 . 3s 3 6 国 、 散 、 该 、 同 、 交 、 啦 、
块 、 完 、
买 、 环 、 又 、
了 、 堪
、
一
、 子 、 说 、 车 、 红 、 肯 、 事 、 烧 、 销 、 起
鞋 、 全 、 新 、 问 、 上 、 女 、 展 、 破 、 用 、 说 、 吗 、 想 、 手
、
1 . 3 s
-
1 . 4 s 2
1
啦 、 湿 、 测 、 垫 、 吗 、 看 、
看 、 别
查 、 念 、 从 、
场 、 呢 、 及 、 咬 、 效 、 发 、 包 、 看 、 什 、 我
、
1 . 4S -
1 . 5 S 2 0 一 _
始 、 现 、 年 、 啦 、 两 、 兀 、 是
1 . 5S
-
1 . 6S 1 2 票 、 新 、 程 、 买 、 爬 、 成 、 上 、 场 、 真 、 全 、 嫂 、
钱
1 . 6s
-
1 . 7s 8 明 、 歇 、 活 、 堂 、 酒 、 这 、 钱 、 站 、
1 . 7s
-
1 . 8s 8 没 、 光 、 小 、 拜 、 学 、 妙 、
忙 、 端
1 . 8S
-
1 . 9S 骗 、 全 、 我 、 吗 、 闷儿 、 找 、
盛
7
1 . 9s 2 4s
-
.
W和 秒归入 段 所含 音 节 极少 出 现 单 音 节虚 词
一
1 . 8 。
。
, : ,
越多 ; 极端 时长 音节 如 0 3
. S
-
0 4S
.
和 1 . 8S
-
2 4S.
这两个时 长段 中 的 数量 只 占据 了
很
小 的 比例 。
如 果用 曲 线 表示从 短 时 音节 到 长 时 音节 的 变化 的 话 , 曲 线 形状几乎接
近正 弦 函 数
。
24
第H章 音节时长与 其携 带信 息量 的关系研究
3 2 2
. . 抽样数据 分析 与 说 明
,
,
。 7
。
表 7 音节频 次 统计表
音节
频 次 所 含 音 节
38 1 7
1 4 1 的
1 2 1 我
2 看
一
1 0 、
9 1 啦
7 4 不 、
儿 、 你 、
子
6 1 就
5 3 大 、 至J I
、 是
4 9 爸 、 宝 、 老 、 们 、 去 、 他 、 头 、 要 、 在
包 、 别 、
车 、 当 、 东 、 个 、 开 、 吗 、 么 、 没 、 那 、 呢 、 钱
、
3 22
全 、 外 、 忘 、 下 、 新 、 也 、 用 、
有 、 找
吧 、 把 、 百 、 部 、 场 、 程 、 出 、 从 、 等 、 定 、 都 、 发 、 盖
、
和 、 红 、 护 、 还 、 回 、 婚 、 挤 、 家 、 交 、 进 、 快 、 来 、 里
、
2 5
1
礼 、
买 、 口 、 年 、 娘 、 破 、 起 、 人 、 上 、 生 、 实 、 手 、
说
、
I
听 、 问 、 西 、 现 、 小 、 鞋 、 学 、 呀 、 爷 、 又 、 照 、
这
" " " "
7 , 3 8 , 1 4
" " " "
出现 次的 我 需要特殊说 明 的在 出 现 次 的 单音节 儿 这 音节 出 现
一
1 2 ;
7 ,
" "
" " "
" " " " " "
因 此在 论证过程
" "
库 时 需 要文字注 明 ,
所 W 就产 生 儿 字 出 现频次较多 的 情况 ,
" "
中 儿 作 为 儿韵 时 不 纳 入考 查 范 围
。
需 要注 意 到 的 点是 音节 出 现 的 次数并不单 而且 同 个音节在 不 同 的
一 一 一
: ,
语 言 片 段里 的 时 长 也 不相 等 因 此 需要 提取 同 音 节 的 时 长 并 查看 他 们 之 间 的 时
一
25
普 通 话 音 节 时 长 与 其 所携 带 信 息 量关 系 的 语 音 实 验 研 巧
" "
字节
了 语 句
I
语句 名 称
高 跟儿鞋 断 了 笑 疯 了 6 0
I 语句 肖 容
I
藉
. 0 % 5
I
S数
. 3 1 5 0
 ̄
I
置长
. 297
语 句 2 他 的 同 学 朋 友 们 来 了 场 盛 大 的 音 乐 宴 0 7云 品 0
一
. 052 . 3 76
 ̄  ̄
7 语 句 明 天 就 要 参 加 婚 礼 了 0
5 . 05 ^7 . 8 06
 ̄  ̄  ̄
语 句 % 是 烧 糊 涂 了 0 09 . 户 4 5 5 7 0 4
. . 1
9
 ̄
7 ^
语句 57 你 没 忘 了 我 0 08 . 广 5 . 1 7
1
T 语句 6 高 銀 儿 鞋 断 了 笑 疯 了 0 0 8 2 5 3 5 0 4 6 . . 1 . 3
语句 6 出 租 车 司 机 们 认 为 损 失 了 块钱 0 0 7 0 44
一
5 . 3 .
3
 ̄  ̄  ̄
 ̄  ̄
T  ̄
语句 1 4 把 我 从 回 忆 揣 到 了 现 实 0 0 9 4 9 0 4 7 7
. 1 . 3 .
 ̄
F  ̄
语句 2 我 给 你 买 了
5 斤 4 8 9 0 4 7 8
一
. 5 .
T 语句 1 6 在 人 民 大 会 堂 东 口 外 广 场 举 行 了 欢 迎 仪 式 0 0 8 2 6 2 0 4 0 5 0 7
. . .
 ̄  ̄
 ̄
T
 ̄  ̄
语句 4 0 大 选 的 过 程 还 是 充 满 了 悬 念 0 0 7 5 6 8 7 0 5 4
. .
 ̄
. 1
 ̄
F  ̄
语句 3 9 己 经 销 到 了 全 国 0 方r 7 0 0 8 0 526
. ( . .
T 语句 2 莫 名 其 妙 被 灌 了 肚 子 的 酒 0 0 9 4 ^ 6 0 0 5 2 7
一
3 . . 3 .
'
 ̄
 ̄  ̄  ̄
 ̄
T 语句 7 从 口 缝 儿 就挤 了 进 去 0 0 8
 ̄
99 0 5 2 . 8 5 . 1 . 8
T 语 句 6 4 事 件 调 查 有 了 新 的 进 展 0 0 7 5 0 5 2 9 . .
 ̄  ̄  ̄
语句 4 有 辆 面 包 车 发 生 了 故 障 0 0 7 户 7 7 0 另矿
一
 ̄
7  ̄  ̄
. . 1 5 .
7 语句 6 7 都 留 下 了 他 的 身 影 和 汗 水 0 0 8 8 6 0 0 5 . . 3 1 . 3
1
语句 3 4 当 年 你 植 物 课 考 试 及 接 了 吗 0 万9 5 5 八 7 0 5 4 7
. .
一
语 句 1 8 再 说 了 0 . 1 0 2 5 4 2
 ̄
. 1 0
 ̄  ̄
. 5 54
 ̄
了 语 句
 ̄
1 5 我 就 纳 闷 儿 了
一
0 . 1 3 i
一
4 . 2 0 8 〇!
^
 ̄
T
 ̄
语句 6 6 只 交 了 八 百 元 0 086
. 6 . 48 1 0 . 558
 ̄
7 语 句 巧 我 决 定 了 0 . 1 2 4 4 7 9 6
'
.
 ̄  ̄
7 语 句 起 到 了 战 略 角 色 的 作 用 0 0 9 9 6
4 1
 ̄
.
 ̄
. 2 6 8 0 6 2 .
1
7 语 句 0 部 破 电 视 看 了 不 下 两 百 遍 化 3 0 4 0
—
3 1 . 85 9 . 63 3
 ̄  ̄  ̄
J 语 句 5 4 不 是 该 你 了 吗 0
0 4 6 . 1 . 3 5 2 0 6 60
.
了 语 句 0 不 要 忘 了 刚 才 我 们 问 的 那 个 问 题 呀 0 0 8 广 8
1 . . 1 74 化 品户
 ̄  ̄  ̄
—
T 语句 2 我 忘 带 钱 包 了 0 4 4 4
3 . 1 /7 5 5
 ̄
了 语 句
 ̄
搞 起 了 野 外 勘 测 0 2 3 7 6 8
68
 ̄
. 1 5 .
 ̄
T
 ̄  ̄
语 句 找 新 娘 的 鞋 子 找 不 到 了 0 H 6 6 2 9 0
3
—  ̄  ̄
. . 3 . 724
T 语 句 2 当 然 了 1 0 0 8 2 义 8 7 0 .
一
1 . 725
语 句 我 又 要 结 婚 了 0 0 4 6 9 9 0
1 1 . 1 . 1 . 73 0
语 句 别 说 了 0 0^ 7 8 9 0
1 3 . . 8 . 746
 ̄
 ̄  ̄
语 句 2 2 垫 了 鼻 子 你 也 成 不 了 美 女 0 4 2 4 4 0 . 1
—
5 . 3
 ̄
. 759
 ̄
T 语 句 1 9 下 雪 了
—
0 . 1 68
—
4 . 6 3 3 0 J 77
 ̄  ̄ ^
语句 4 7
 ̄
他 爬 出 去 了 0 . 1 1 0 7 . 64 2 0 . 83 8
 ̄  ̄
T  ̄
他 现 在 实 在 是 太 忙 了 0 7 5 4 8 6 0 省 3
语句 3 1 . 1 1 .
 ̄
8
7 语 句 3 5 就 剩 个 礼 拜 了 6 4 4 0 9 9
一
. . 5
 ̄
7 语 句 6 老 爷 爷 这 么 大 年 纪 了 也 在 学 习 外 语 呢 0 2 2
I
1
I
42
云户
. 3
1
5 . 1
1
1 .
26
第H章 音节 时长与其携带信 息旦 的 关系研 究
" "
表 8 是音节 了 的 具体数据 统计表 , 其 中 罗 列 了 所测 音节 中 包含 的 共 3 8
" "
个 了解的 除外 的 时长 数据 数据 己 经按 照 归 时长 的 升序进斤
' '
了 了
一
( ) ,
" "
0 6S
.
, 53 ,
,
在 后 期 的 论 证 过程 中 主 要 W 平均 值 为 准 类 似 这 样 的 特 殊 时 长 出 现 仅 占 极 小 的 比
,
" " " " " "
重 , 仅 作 为参考 。 在上表 中 的 语句 6 中 出现了 两个 了 ,
断了 和 笑疯 了
,
"
"
他们 的 时长分别 为 和 根据这 现 象可 W 看 到 位于句 中 的 了
一
0 297s
. 0 43 6s
. . ,
" " " "
比 位于 句 末 的 了 所用 的 时长更短 ,
究 其原 因 或可 归 为 两个 了 所肩 负 的 职
,
。
支持
。
" "
个 个在 后 半 段 这个大 比例 己 经可 从侧 面 印 证 上 段 中 我们 的 设 想 笔者
一
, 7 ;
。
" "
认为 引 起这 比例 差异 的 原 因 有二 其 是 了 的两种不 同 的用 法 位于句
一 一
, , ,
" "
" "
的 了 通 常 不仅具有语法 意 义还有充 当 语 气 词 的 功 能 ,
从 而使得 出 现在 句 末 的
" " " " "
"
了 相 对句 中 的 了 时长要长 点 其二 是节点 的 问 题 位于 句 中 的 了
一
, ,
;
在 发 音 时 很 容 易 与 前后 相 邻 音节 的 节 点 重合 , 缩短 了 它本身 的 时长 , 简 单来说
,
" " "
个音节 的 发音动 作 还没有 结 束
"
在前 音 就 已 经开始 准各 或者在
音
一
, L , e
" "
还没有 完全打开 后 个音节 的 辅音 己经进入 发音 准备 位于句 末 的 了 只有
一
,
;
" "
和前 个音节相 叠 合 的 可 能 不存在后 个音节 的 问 题 所 W 音会完整 出
一 一
, , e
" "
现 在 定 程度 上 势 必 会使得句 末 的 了 时长要相 对长 些
一 一
, ,
。
" " " "
在 分 析 过位 于 频 次第 位的 了 表 列 出 了 位于第 二位 次 的 的 数据
一
, 9
;
27
普 通话音节 时 长 与 其所携 带信 息 量关 系 的 语音 实 验研 究
时长单位均为秒
"
表 9 的 的 时 长 数 据 统 计表 (
)
巧
语句 实际
护勺 归 归
一
一
爭 节
宇:
下 I 句内合 I口 I I I
名称
 ̄
时长 系数 时长
 ̄
的 语 句 3 找新娘 的 鞋子找不 到 了
0 05 0 . 6  ̄
. 2 3 90 3 . 1
4
的 语 句 老 公 呢 把 手 里 的 红 包 都 用 光 啦 化 0 5 4
1
 ̄
6 338
. 化 342
语句 67
—
都 留 下 了 他 的 身 影 和 汗 水 0 一
. 070
一
r0 . 423
 ̄
的 语 句 5 1
 ̄
真 的 0  ̄
. 0 73 5 986
. 0 . 440
的 语 句 1 0
 ̄
不 要 忘 了 刚 才 我 们 问 的 那 个 问 题 呀 0  ̄
. 068 8 . 1 74 化555
 ̄
的 语 句 起 到 了 战 略 角 色 的 作 用 0
4 1 . 089 ^ 68 0 . 5 5 8
1^ 语 句 2 他 的 同 学 朋 友 们 来 了 场 盛 大 的 音 乐 宴 0 7 0
一
. 080 . 289 . 5 79
 ̄  ̄  ̄
 ̄
W  ̄
语 句 6 4 事 件 调 查 有 了 新 的 进 展 0 . 085 7 . 02 1 0
 ̄
. 巧5
 ̄
1T  ̄
语 句 42 想 听 听 我 的 也 里 话 吗 0 . 1 06 5 . 8 0 6
. 1
4
1T 语句 莫名 其妙被灌 了 肚 子 的 酒 0 5 0
一
23 . 1 1 1 . 603 . 624
 ̄
 ̄
的语 句 40
'
大 选 的 过 程 还 是 充 满 了 悬 念 0 . 1 05 6  ̄
. 87 0 . 723
 ̄
的 语 句
 ̄
6 3 周 日 即 可 购 买 除 夕 的 火 车 票 0 . 1 1 0 r0 . 73 2
W 语句 2 他 的 同 学 朋 友 们 来 了
一
场 盛 大 的 音 乐 宴 化 1 0 1 7 . 289 化 73 7
-
的 语 句 % 赶 紧 的
I I I 0 . 1 64
5 I
. 96 1
0 9 7I
.
^
" " " "
的音乐会 中的 的 时长为 0 73 7s
.
; 从表 中 可 得 出 表示领属 的 的 字 时长
" " " " " " "
都相 对较短 ,
如 :
新娘的 鞋子 ,
他的身影 , 他 的 同 学朋 友们 ,
我的屯 里
、
" " "
话 四 个短语 中 , 的 的 时长最大为 0 6 . 1 4s
;
" "
位于第三位 次 的 是 我 ,
见表 1 0
:
" "
语 句 实 际 归 归
一
一
字下 口 側合
名称
时 长 系 数时 长
 ̄
语句 1 4 韦 我 从 回 忆 端 到 了 现 实 0 . 1 5 0 4 3 9 0 6 5 6
.
.
—
我 就 纳 闷 儿 了 0
语句 1 5 . 1 60 4 2 0 8 0 6 7 5
.
 ̄
.
我 语 句 ^ 我 照 照 看 啊 0 5 . 099 7 . 1 瓦  ̄
0 707
.
语 句 4 6 我 还 没 当 爸 爸 呢 0 — —
. 1 33 5 . 466 0 . 72 9
语 句 U 我 又 要 结 婚 了 0 . 1 07 6 . 99 1 0 . 74 5
语 句 4 2 想 听 听 我 的 也 里 话 吗 0 . 1 4 厂 5 . 8 0 . 820
^ 语 句 0 要 忘 了 刚 才 我 们 问 的 那 个 问 题 呀 0 1 . 1 02 8 . 1 74 0 . 83 6
我 语 句 5 上 来 就 咬 我 们 家 宝 宝 0 7 0
—
5 . 1 1 5 . 67 8 . 879
—
我 语 句 我 给 你 买 了 斤 0 4 0
一
—
语 句 2 我 忘 带 钱 包 了 0
3
—
. 2 4 2 4 7 5 5 .
—
1 . 1 52
我 语 句 29 我 决 定 了 0 3 02
. 4 . 796 1 . 44 8
-
我 语 句 I
5 7 I
你没忘 了 我 I
0 . : 3 63
I 5 . 1 7 1
I 1 . 875
28
第 H章 音节 时长与 其携带信 息量 的 关系 研 巧
" "
。 ,
" " " "
率约为 化58 时长最长 的 我 位于 你没忘 了 我 句 中 的句末 这 句话中
一 一
,
;
" " " " " "
的 其他 音 节 时长 分别 是 :
你 的时长为 化 5 09s , 没 的 时长为 化 8 79s ,
忘
的
" " " "
明 显增长的原 因 为 语句重点 即 我 是这 个 语 句 表 达 中 所传 递 的 重 点
一
,
,
需 要特别 强调 , 时长 随 之増 长
。
" "
最后将位 于第 四 位 的 音节 看 进行数据整合 , 如表 1 1
:
" "
 ̄  ̄  ̄
表 1 1
看 的 时长 数据 统计表 ( 时长单位均为秒
 ̄  ̄  ̄
)
 ̄
^ 归
一
归
一
字 节 名 称
—
语句 内 容  ̄
时 长 系 数 时 长
 ̄
看 2 语 句 2 嫂 子 回 去 看 看 吧 ^ 0 7 5 9 3 广 0 6
1
 ̄
, . 1 . . 3 3
 ̄
看 2 语 句 2王 快 打 开 看 看 6 7 2 6 0 8 4  ̄
.
—
. 1
 ̄
看 2 语 句 4^ 你 看 看 0 l 6 0 9 4 . 1 5 . 3 1 5
 ̄
. 5
—
看 2 语 句 2 0 去 老 刘 那 边 儿 看 看 0 6 5^ 0 % 9 . 1 8 5 . 1 .
看 语 句 0 部 破 电 视 看 了 不 下 两 百 遍 0 2 2 6 4 8 9
—
3 00
. . 5 1 . 1
 ̄
— —
 ̄
看 语 句 5 ^ 我 照 照 看 啊 0 ^ 7 9 2 9 . 1 5
 ̄
. 1 1
 ̄
1 . 1
一
看 语 句
1 2 嫂 子
1 回 去 看 看 吧 0 2 0T 说 2 2 0 6
,
. 5 1 .
—
 ̄
看 语 句
1 4 3 你 看 看 0 2 8 6 3 广 3 7 5 . 1 . 1
"
1 .
看 语 句
1 2 0 去 老 刘 那 边 儿 看 看 0 2 6 5厂 82
. 8 5 . 1 1 . 3
看 语句
1
I
2 4 快 打 开看看 I 0 2 4 6 7 2 6 4 4 2 I
. 1
I
.
I
1 .
" " " "
表 中 出现的 看 和 看 的 标识 是 为 了 区 分在 同 个句 子 中 出 现 的
一
1 1 1 2
" " " " " " " "
两 个联系 的 看 顾名 思义 看 是语句 中 出 现 的 第 个 看 看
是
一
, ,
1 , 2
。 , ,
, ,
" "
, ,
" " " " " "
大缩短 。
类似这样 的 叠词 还有 爸爸 、 宝宝 、 听听 …
, 根据 时长 数据 显 示
,
" "
非常稳定 , 在 正常范 围 内 徘徊
。
原 因 需要解释 和进 步讨论
一
。
29
普通话音 节 时长与 其所携带信 息量关系 的 语音 实验研 究
3 3 .
从信 息 论信 息 量角 度 论证关系
3 3
. . 1 信息论 中 信 息量 的计算
,
自
, ,
:
/ a =
-
l og P a ( /
=
1
,
2 3 ,
. . .
)
( ,
) ^ { ^
)
=
( , r 1 0 , naf , a
( ) ,
: 8 2 , ,
色 。 在 这个 问 题 中 需 要 首 先 计 算 出 红 球和 白 球各 自 的 信 息量大小
。
红球和 白 球这 随 机事件 的 概率 空 间 是
一
尤 二
巧 ,
幻
2 户 (
X
)
二
化8 ,
0 2
.
/ =
略戶 幻 =
斯 0 8
- -
( 巧 ) ( 1 )
/( .
/ 。 =
。各
叫。 =
。各 〇 2
- -
/ / -
( 2 ) , 2 ) 2
, , 自 , ,
多 ; 也可 W说 :
摸 出 红球是预料之 中 , 所 获得信 息 量就会减 少 , 反而摸 出 白 球是
从 自 信 息量 的 计算公式 中 , 可 得知 如 果要计算 出 信源 中 符号 的 自 信 息量
,
需 要得 知 符 号 在信 源 中 发生 的 概率
。
33 2 .
所 测 音 节 携 带信 息 量 计 算 与 统 计
, , 。
3 0
第H章 音节时 长与 其携带信 息量 的 关系 研 巧
1 0 0 MB 、 、 ,
分 出 词 化 494 个 ,
词 频总 数达 1 09 0 7463 次 , 所测 的 277 个音节 出 现 的 频 次 统计
表 截取其 中 部分数据
一
:
表 1 2 音节频 次 统计表 ( 节选
)
音节 频次 音节 频次 音节 频 次 音 节 频 次
’
'
'
的 6 1 %7 1 两 起 225 07
—
92 % 同 4670
我 司 会
1 650 吗 4 快 4
 ̄
1 8796
—
86 1
 ̄ — — —
53 8
他 1而 6 2 出
本 ^ 花 4 7
 ̄
1 8539
 ̄
859
 ̄
3 54
房5 从 巧
1 37 子 0 红 4 —
1 8 7
―
855
—
1 74
'
在 没 老 4 面 4 1 8 1 96
 ̄
8 88 04 6
是 口 小 4 钱
63 5 日 1 1 799 8 1 1 5 3 93
2
’
 ̄  ̄
着 巧 呢 2
8 63 住 4 部
1 788 8 1 1 3 890
— — —
你 2 想
 ̄
听
778 8 么 ’
1 7659 8 02 5
 ̄
3 85
6
不 ^ 等 找 兩
83 发 1 1 53 9 1
 ̄
19
 ̄
3 850
也 下 9 头 l 学 1 53 7 79 l 3 7 74
— —
说 6 6 8 1 1 多 ’
1 536 1 别 7 6 8 4 干
— —
3 754
个 6 6 7 % 用 1 48 43 -
当 7 6 3 0 女 巧 0 5
和 被  ̄  ̄
1 404 1 太
^
7 600 及 3 5 5 4
 ̄
'
上 ^ 2 5 事 1 3 857 元 7 2 s 5  ̄
美 3 525
有 5 7 1 % 天 1 3 49 4 年 6 8 5 8
 ̄
 ̄
生 %
 ̄
23
—
这 ^7 4 9 只  ̄
1 3287 呀 6 8 0 ^  ̄
边 4 3 90
就4 9 6 而 吧 口 ’
92 3 开 6 7 9 2  ̄
活 34 1
6
人 4 4 5 名 8 8
’
1 28 3 8 回 6 4 81
—
行—
3 403
地 再 1 279 9 带 电
—
63 1 9
—
335
1
来 家 1 2 1 8 高 2 % 场
1
—
6
—
3 224
去 作  ̄
1 1 536 也 6 国
—
624
 ̄
3207
都 J^0 1 9 可 1 口0 2 口 2 ^ 光 6 3 3 1 67
 ̄  ̄
里 3 5 4百 新 —
1 1 0 1 水
1 完
—
6097
 ̄
3 07 3
—
要 笑 —
1 083 啊 巧 ^ 刚 2
1
 ̄
9
—
764
—
到 3 5 而 话 1
—
1 03 1 2 全 巧 满  ̄
25 2 677
把 3 4 2 9广 问 —
1 02 1 4 忙
1 5 0 1
 ̄  ̄
253 6
又 跟 1 件 5 充 即 2 5 2
00 8 1
 ̄
3
1
那 3 1 8 ^才 ’
% 0 5 块 5 3 3 7 西 2 5 0 4
—  ̄
为 2 7 2 8 0 真 9 7 9 9 外 2^ 宝 2 0 53 5
1
’  ̄  ̄  ̄
还 己 967 啦 拓 3 们 2 4 2 5 1
5
 ̄ — —
看 打 9 6 0 该 4 9 6 忘
5 2 39
 ̄
5
 ̄
3
好 手 9 4 7 1 进 4 糾 6 提 2 1 87
大 2 5 0 6 4 儿 % 2 3 买 4 6 8 0 交 2
I I
1 78
3
1
普通话 音 节 时长 与 其所 携 带 信 息 量关系 的 语音 实验研 究
" "
在表 口 中共出现 1 % 个音节 按 照 频 次 的 降序排列 位 于 最 高频次 的 是 的 , ,
,
" "
前屯个 音 节 出 现 的 频次 都大 于 十 万 次 ,
从 着 开 始 频 次 差 距 逐渐越 来越 大 ,
表
" "
中 频次最低 的 音节为 交 共出现 2 1 78 次 , 和 最 高频词相 差 6 1 万次 , 而整个数
" " " "
据表 中 的 最低频 次音节为 酷 , 只 出现了 巧 次 , 和 的 频次相 差 极大 。 可见
在 整个数据表 中 每个音节 出 现 的 频 次 都有很 大 的 差 别
。
词 频统计结 束 之后 , 需 要 计算 出 概率 , 由 于 词 频 总 数 逾 越千 万 , 出 现频 次少
算信 息量值 。 抽 样 位 于 不 同 频位 的 音 节 进 行 计 算
:
" "
计算 频次 于第 1 位 的 的 信 息 量为
:
/ 幻 = -
/ 〇各 户 。 = -
/ 〇各 6 1 267 1
= -
5 7 8 7 ( " 幻。
.
( , ) r ( 1 ) 1 〇
" "
计算频次 于第 2 位 了 的 信 息量为
'
i
(
幻
2 )
= —
/ 〇
《 ? ( 幻2'
?
)
= -
/ 〇各
, 〇
2 1 5 7 0 5=
-
5 . W3 ( 打如 )
" "
/ 口 =
〇各 l
f =
〇 3 8 5 7 = 4 42( af )
&
■
- - -
/ / 1 . 1 / j
( 5 〇 ) ( so ) 〇
" "
计算 频 次位于第 1 口 位 么 的信 息量为
? ^ 口 =
-
/ og 戶 口 =
-
/ 〇
& 〇
3 856
= -
3 . 5 8 6( n 幻。
( 1 1 2 ) r ( 1 1 2 )
" "
计 算 频 次位 于 第 2 1 4 位 奇 的信 息量为
^口 2 1 4 )
=
—
/ og
r
戶
(
口
2 1 4 )
= —
/ 〇各
1 〇
5 9 6 =
-
2 77 . 乂 n幻 f)
公式 中 选取 r
=
1 0 ,
信 息 量单位 是 nat .
依 据 公 式对所有 数据进行计 算 ,
得出
所 有 的 音 节 所携 带 的 自 信 息量 ,
按升序 排列 统计 , 表格从抽 样 的 五个数据 中 ,
可
W得 出 结论 :
信 源 中 出 现 频 次越 高 的 符 号 , 其 所携 带 的 信 息 量就越 小 , 相反 ,
出
得 出 所有 的 音节所携带 的 自 信息量 ,
按 升序排列 统计 , 文 中 节选前 1 00 个音节 的
自 信 息量 ,
如表 1 3
:
表 1 3 音节频 次与 信 息 量统计表 ( 节选
)
—
节 频次 信 息量 频次 信息量 音节音节 频次 信息量
—
I I
括
I I I I I I
—
的 6 1 %刀 -
5 . 7 87 给 4 6 手 9 4 7 9 7
6 23 1
-
. 3 5 1
-
3 .
了2 1 5 76 ^ -
. 3 3 3
-
我 65 〇 iT 5 2 8 过 2 0 6 厂 4 起 9 2 8 6 9 6 8 5 3 5 3
- -
-
1 . 1 . 1 .
他 I
1 3 8672
I
-
5 . 1 42 I 会 |
1 8796
|
-
4 2 7 4
.
| 成 |
8 8 0 9 |
-
3 . 94 5
3
2
第H 章 音节时 长 与 其携巧信 息 量 的 关系研 究
出 吗 8 6 4
一
4 268
37 60 5 3 7
8539
3 93 5
- - -
1 1 1 1 1
. . I
I
.
—  ̄
在 2 7 5 而
I I I
—
1
-
5 . 1 06 从 1 8 3 77 -
4 2 64 本 8 5 9 9
.
—
-
3 93 4
.
是 1 263 5 1 -
5 . 1 02 没 1 8 1 96 -
4 2 6 0 子 8 0 5 5
-
3 说2
—
着 8 6 3 1 7
 ̄
-
4 . W 6 小 1 7 99 尸 -
4 2 5 5 老 8 4 8
. 8
-
3 92 9
.
—
你 7 7 8 8^  ̄
-
4 89 . 1 呢 1 7 8 82 -
4 252 .
钱 8 1 1 5
—
-
3 . 909
不 6 8 8 3l -
4 838 . 想 1 765 9 -
4 . 2 4 7 住 8 1 1 4 -
3 909
.
—
-
—
也 6 7 3 3 0
—
-
4 828 .
等 1 539 厂 —
-
4 . 1 87 听8 0 2 5 -
3 904
.
说 6 6 8 1 1
-
4 825 .
下 1 53 79 -
4 . 1 87 7 9 7 9 -
3 . 902
—
—
个 6 6 7 % -
4 . 825 多 1 536 广 -
4 . 1 86 头 7 9 1 1
—
-
3 . 898
—
和 6 6 6 5 ^ —
-
4 . 8 2 4 用
-
1 4 8 4 3 4 -
. 1 72 别 76 84 -
3 . 886
上 6 0 4 2 5 -
4 . 78 被
1 1 404 1 -
4 . 1 47 当7 6 30 -
3 . 883
—
—
_
有 5 7 1 58 -
4J57 事 1 3 85 厂 -
4 . 1 42 太 7 6 0 0 —
-
3 . 88
1
-
这 5 4 7 4 9
—
-
4 73 8
.
天 1 349 厂 -
4 . 1 30 元 7 2 5 0
— —
-
3 . 8 60
-
就 4 9 6 而 -
4 . 6 9 6 只 1 把 8 7 -
4 . ^3 年 ^ 58 -
3 . 836
—
人 4 8 4 5 8 -
4 685
. 吧 1 2 92 3 -
4 . 1 1 1 呀 6 8 0 9 —
-
3 . 833
—
地 4 6 2 5 厂 -
4 665
.
名 —
1 2 8 3 8 4 -
. 1 08 开 6 7 9 2
— —
-
3 . 832
—
来 4 4 3 1 4 4 6 4 7 -
. 再 1 2799 -
4 . 1 07 回 64 8 1 -
3 . 8 1
2
—
去 4 1 62 6 -
4 6 . 1 家
9 1 2 1 8 1 -
4 086
.
带 9 63 1
-
3 . 80
1
—
都 % 0 1 9 -
4 . 5 5 7 作 1 1 53 ^ -
4 . 0 6 2 高 6 2 9 3
-
3 . 799
—
里 3 5 4 6 厂 -
4 550
.
可 -
1 1 2 0 2 4 0 4 9
—
-
. 屯 6 2 4 6
—
、
—
-
3 . 796
要 3 5 2 1 5 -
4 . 547 新 1 1 0 1 1
-
4 042
. 口 6 2 3 8 3 795
-
.
- — - —
—
3 亢
至。 5 1
-
4 5 4 6
.
笑 1 083 1 -
A O%.
水 -
3 . 785
—
把 4 2 9 广 3
-
4 535
.
话 1 03 1 厂 -
4 0 . 1 3 啊 5 9 9 4 —
-
3 . 778
又 3 3 7 2 6 -
4 528
.
问 1 02 1 1 -
4 009
.
全 5 9 2 5 -
3 . 773
—
—
-
那 3 1 8 : 75
—
-
4 5 03
. 跟 1 008 广 -
4 004
.
身 5 4 0
—
1
-
3 . 73 2
—
为 2 7 2 而 —
-
4 43 6
.
才 % 0 -
5 -
3 . 99 1 件 ^9 2 -
3 . 73 2
还 W 7 3 7 -
4 42 7
. 真 9 7 9 9 -
3 . 99 1 5 3 3 7 -
3 72 7
.
 ̄
— —
看 2 6 2 6 4 -
4 4 . 1 9 己 9 6 7 3 -
3 . W 6 夕 h 5 3 2 5 -
3 . 72 6
—
—
一
好 2 5 8 2 厂 -
4 4 . 1 2 打 9 6 5 0 -
3 . S >
85 啦 5 1 89
-
3 . 7 1
5
大 2 I
5 064
I
-
4 3 9 9
.
I 手 9 4 7
I
1
I
-
3 . 976
I
,
。
3 3 3
. . 音 节 时 长 与 信 息量 的 关 系 论 证
3 . 2 . 2 96 ,
" "
, , ,
别 取 其 时长 最 大值 、 最 小 值和 平均值H个数 据来研 巧 与 信 息 量 的 关 系 , 通过 计算
" "
统计 , 这 95 个音节 ( 儿 字 除外 ) 的 时 长数据 如 表 1 4
;
33
普 通话 音节 时 长 与 其所 携 带信 息 量 关 系 的 语 音 实验研 巧
表
 ̄
1 4 :
音 节时 长最大值
 ̄
、 最 小 值 与 平均 值表 ( 时长 单位均为 秒  ̄
)
 ̄
立
巧
^ I
时长
I 平灼值 I
立
书 I
时长
I
时 长
平的值
最 小 值 最 大 值 最 小 值
最大值
的 9
0 7 5 0 4 2 3 0 5.8 7 老 0 6 0 4 7 8 0 . . 1 . 8
—
. . %
1
了 1 . 2 5 6 0 2 8 . 1 0 . 6 钱1 4 1 . 600
—
0 847 . 1 . 3 76
我 1 . 875 0 . 65 6 0 . 9 6 0 听 0 . 830
一
0 . 5 44 0 . 687
他 1 . 02 0 0 . 42 5 0 一
. 7 8 找 2 3 . 29 1 0 . 863 1 . 43 2
1 . 005 0 . 4 % 0 887 .
头 1 . 1 30 0 . 65 1 0 . 94 8
在 1 . 04 5 0 . 895 0 . 9 7 6 另 。 1 . 3 89 0 . 999 1 . 1 76
—
—
是  ̄
1 . 5 00 0 . 653 0 93 6 .
当
-
1 . 200 0 . 923 1 . 09
8
你 L2 1 S 0 509 . 0 74 3
—
. 年 1 . 4 8 0 0 9 7 5 1 . . 22 7
不 0 770
. 0 43 3 .
 ̄
0 . 5 84 呀 0 708 . 0 3 92 . 0 . 83 7
也 0 . 75 7 0 . 5 8 9
—
0 693
.
开 '
1 . 0 64 0 724 . 0 . 89
1
说 1 . 2 3 5 1 2 7 7 .
—
1 . 303 口
'
1 . 0 7 2 0 73 3 . 0 —
. 9 1
0
个 0 名 3 0 0 . 6 64
—
0 800
. 全 1 . 806 1 . 3 00
—
1 . 5 64
—
和 0 . 990 0 . 546 0 .
 ̄
7 68 夕 —
h 1 . 073  ̄
0 8 9 4. 0 964
.
上 1 . 52 厂 1 . 3 1 1 1 . 4 1 9 ^ '
1 . 48 1 0 . 4 5 7 1 . 03 0
有 1 . 2 2 0 0 J 6 0 0 省 5 8 进 1 . 208 0
—
. 83 5  ̄
1 . 02 7
这 1 . 6 74 0 8 2 2 1 2 4 8 .
—
.
买 —
1 . 5 1 5 1 . 25 1 —
1 . 3 83
就 0 % 0 0 . . 5 0 8
 ̄
0 75 3
. 车 '
1 . 2 42 0 . 789 —
1 . 009
都 1 . 052 0 . 83 5 0 . 78 0 发 1 . 43 8
—
1 . 088 —
1 . 278
里 0 . 905 0 . 659 0 . 7 1 5 学 1 . 44 5 0 . 92 8 1 . 3 43
要 1 . 04 8 0 6 2 9 0 7 9 7 . . 生 1 . 1 08 0 % 6 .
—
1 .
04 7
至。 1 . 0 7 8 0 64 9 . 0 —
. 864 场 1 . % 2 1 . 1 6 9 1 . 492
把 1 . 0 5 8 0 . 5 1 5
—
0 787
.
西 0 . 8 1 5 0
—
. 5 1 6 0 .
665
又 1 . 255 0 . 692 0 . 9 74 宝 1 . 1 27
—
0 . 598 0 % 7
.
那 1 . 0 1 3 0 . 787 0 % 4 们 . 1 . 1 3 1
—
0 . 64 8 0  ̄
. 9 1
2
还 1 . 1 54 0 . 74 9 0 说 2 忘
 ̄ —
1 . 1 84 1 . 05 1 1 . 1 05
看 1 . 442 0 . 6 3 3 1 . 096 交 1 . 23 4 1 . 1 89 1 . 1 08
出 1 . 0 1 7 0 % 4 0 . . 986 包 1 . 44 1 0 . 7 3 5 1 . 03 3
从 1 . 3 98 0 . 92 0 —
1 . 1 68 照 ―
1 . 1 82 0
—
. 809 0 . 995
小 1 . 7 1 3 1 . 1 63
—
1 . 43 8 破 1 . 3 24 1 . % 0 1 . 220
呢 1 . 42 7 0 . 4 6 2 0 908
.
东 1 . 1 22 0 . 75 8 0
—
.
9 1
3
等 1 . 026 0 . 972 0 —
. 1 75 实 0 .
94 9
—
1 . 05 3
下 1 . 098 0 . 9 4 8 1 . 00 0 挤 —
1 . 03 4 1 . 00 7
—
0 . %8
用 1 . 3 24 0 . 9 0 5 1 . 1 32 现 1 . 45 8 1 . 0% 1 . 2 1
5
吧 0 . 96 8 0 . 9 1 3 0 . 98 8
爸
| |
1 . 1 73
0 . 6 74
| 0 90.
1
3
4
第H 章 音节时长与 其携带信 息量 的 关系 研 究
百 0 0 9 60
新 1 . 73 9 1 . 1 34 1 . 3 20 1 . 0 04 . 9 1 7 .
鞋 巧
%
问 0 . 85 8 1 . 2 1 7 1 . 2 1 . 247 1 . 1
 ̄
LO ^ U 8 3 W 1 . 1 23 1 . 073 0 . 985
1 3 ^5 1 . 53 1 护 1 . 2 1 1 0 . 8 1 1 1 . 00
1
一
子 1 . 269 0 . 600 0 79 . 1
程
I I
1 . 5 1 0
I
1 . 1 09 I
1 . 3 1 4
时长值为准 , 若所有 的
时长都取最大值 , 音节 和 信 息 量之 间 的 关 系 如 图 5
:
时 长 最 大 值 n
2 . 5 00
?
I
?
时长 最 大 { ^1
?
?
2 . 000
? ?
1 抑
-
5
音
.
诲於
?
长
今巧 L 咖
-
?
?
: ?
?
0
-
.
5 00
?
〇 〇 〇〇
!
.
000 2 0 00 0 00 0 0 00
1
-
3
-
4 000
?
00 0
.
00 0
-
6
.
7 000 5
-
.
.
.
■ .
信息量
图 5 ; 时长最大值与 信 息量之 间 的 关系
将 所 有 音 节 的 时 长 最 大 值 与 其 所 携 带 的 信 息 对 应 横 坐 标 轴 为 信 息
■
图 5
,
"
"
图 中 设置 W
" "
为 单化 根据 对信 息 量 的 统计 最小 的信 息量为 78 7
-
量 5 .
,
,
l
为 单位 实验所
" "
纵坐标 为 音 节 时 长
" "
因 此横坐标最 小值取整 数
-
7 ;
, W 0 . 5 ,
" "
从图 中可 看 出 时长在
"
1 . 0s
"
上下最为密集 , 也可反映 出 时长处于 正常 范
围 的 音节数量最 多 , 同 时对应 的 信 息量 也 都集 中 在
-
4 到
—
2 之间 , 其 中 信 息量成
团集中在
-
3 附近 , 因 此可 W 得 出 : 时 长处 于 正常 范 围 内 的 音 节 所对 应 的 信 息 量
也处于 中 间 状态
。
由 于 时长 取值为 最 大 值 , 因 此 图 中 所 反 映 出 的 信 息 量和 时 长 之 间 关 系 并 不 清
3 5
'
普 通话 音 节 时 长 与 其所 携 带 信 息 量关 系 的 语 音 实 验 研 巧
晰 , 例如 : 信 息量最小 的 音节 的 ;
大 的音节 酷 ;
的 信 息 量 总 体 偏 大 但 时 长 较 短 的 几 个音 节 所 携 带 的 信 息 量 也 错 落 分 布 在 信 息 量
,
的 各个阶段 内
。
息量处于 中 间 范 围 , 但 并 未 得 出 其 他有 效 说 明 时长 与 信 息 量之 间 的 关 系
。
之 间 的 关系 , 如图
6
时长最小值 1
2 . 5 00
?
?
时长最 小值 I
? -
么 0 00
1
音
-
. 5 00
礙1游皆
?
■
? ?
?
, ?
? ?
? ? ? 考 ?
X *? ?
I
: 言 *
?
?
? ?
? 0 . 5 00
?
?
'
〇 〇〇
'
〇
'
?
7 . 000
-
6 . 000 5 . 0 00
-
4 . 000
-
3 . 000
-
2 . 000
-
1 . 000 0 . 000
信息量
图 6 时长最 小值与 信 息 量之 间 的 关系
图 的 横 纵左 边 网 络格单位与 图 保持 致 图 的 散 点 分布 类 型 圆 形放射
一
6 5 , 5
状 , 图 6 的 散 点 分布 与 图 5 完全不 同 , 大 约 呈 = 角 形状 , 所反 映 的 关系 也 有很大
的差别
。
在图 6 中 , 散 点 最 密 集 的 区 域仍 然 为横 坐标 -
4 到 -
2 5
. , 纵 坐标 0 75s.
到 1 . 25s
中 信 息 量 小 的 散 点 所 对 应 的 时 长 总 体 处 于 化 7 5 8 ^ 下 1
, 其中 信息量小于 -
5
的
于 正常 时 段范 围 上 包括正 常 时 段 其 中 信 息 量 大于 的散点 中 除
个
一
( ) ,
-
"
"
36
第H 章 音 节 时 长 与 其携 带 信 息 量 的 关系 研 巧
前 后 且其 中 未 出 现信
" "
,
1 . 5s
息量小 于
"
-
5
"
的散点 , 因此 , 可 W得 出 结论 : 时长较短 的 音节所携 带 的 信 息量
较少 , 时 长 较长 的 音 节所携 带 的 信 息 量 较大 , 同样 , 携 带信 息量较 小 的 音节 出 现
特殊情 况 )
。
两 幅 图 从时长最大值和 时长最小值两个方面反 映 出 不 同 的 关 系 但是 时长 的
,
部分的事实 , 所 W 时长 的 平均值
和信 息 量 的 对应 关系 才是最 能反 映实验结 果 , 如图 7
:
时 长平 均值 2 .
5
? 时长 平
地
?
? -
2
? " >
L
5
* ?
,
?
? 一 ? / ¥ ?
?
* 斟
猶 纔务
《
’
■
? ?
* ? ? ?
? ? -
a
s
?
?
I I
I
I - j *
0
I
00 0 Z OOO L OGO 0 0 00
-
0 00
-
0 00
-
000 4 3
a
-
0 00
■
5
-
7
-
*
.
. .
信 息量
图 7 时 长平 均 值 与 信 息 量 关 系
图 7 ,
,
在 图 中 可 W看 到 , 散 点 最密集 区 与 前两 幅 图 布 局
一
致 , 由 此可 W 论证 : 正常
节 时长关系 的 有利 数据 图
。
从 这 三 幅 图 中 看 出 音 节 时 长最 大 时 与 信 息 量 之 间 的 关 系 并 未 论 证 本 文 所 设
,
3 7
普通话音 节 时 怡 与 其所 携 带信 息 量关 系 的 语音 实验 研 巧 ;
3 4 . 从互信 息 量证音 节 时 长 与 信 息 量 的 关系
3乂 1 互信 息量
自 , 自 。
之 间 的 不确 定性 ,
A 和 是在
信源 中 随机 出 现 因 此相 应 的 交互信 息量 也是 个 随 机变量 互信 息 量为
一
X 、 Y , 。
先验 的 不确 定 性减去 尚 存在 的 不确 定 性 先验 的 不确 定 性 的 度量就是要计算 出 先
,
验概率 这 里 的 先 验概 率 是 在 信 息 论 中 的 先 验概 率 即 发送端发 出 某 个具 体
一
, , ;
符号 A (
X
=
a
, )
, 推测 接 收 端 出 现 的概率 : 函 数表示为
/ 。 三
/ 〇各 1 / 尸 幻
( ,
) ( '
)
尚 存在 的 不 确 定 性为 后 验概率 即 接 收端 收到 ,
后 发送端 发送 的 符 号 是 否 是 A
,
,
函 数表示为
7 6 /o P a
A
=
/
( , )
gl (
,
)
那 么 互信 息量 的计算 公 式为
:
/ 0
A
=
/ 〇《 1
叫。 A
-
/
(
,
)
,
)
)
在 计算 中 ,
如 果 传送信 道 没 有干扰 , 信道使 3 i 的概率为 1
时 , 尚存在 的不
两 者 么 间 的 联系 的 密 切 程度 往 往 在 言 语 交 际 中 表 现 为 说话 者 只 说 出 其 中 个语
一
, ,
" "
出 现概率 最大 , 不确 定性最少 的 语素 , 例如 :
说话人说 :
今 ,
听 话 人首 先会想
" " " " " "
等真 正说话人给 出
" "
到 天 , 而后才会 出 现 年 、
晚 、 早 、 等等其他语 素 ,
" "
, , ,
" " " " "
"
获 得信 息 量就很少 如果 听过说话人说 今生 这 词时 生 出 现在 今
一
, ,
3 8
第 H 章 音 节 时长 与 其携 带信 息 量 的 关 系 研 究
个 是 否 存 在 互信 息 量越 小 音 节时 长越 短这 关系 本文基于这 出 发点 寻
一 一 一
, , ,
3 4 2
. . 实验所用 音节 互信 息量 统计
互信 息 的 计 算 公 式 相 对 复杂 再 究 其 本 质 实 为 当 个信 号 出 发时 出 现另
和
一 一
;
, ,
。 , ,
互信 息 量越大 。
实验 的 目 的 是论证是 否存在互信 息越小 ,
音节 时长越短 的 关系
,
反过来 , 音 节 时 长较 短 的 单 音 节 语 素 是 否 都存在 互信 息 量 较 小 的 现 象
。
音 节在 现 代 汉 语 数 据 库 中 互 信 息 的 音 节 , 具体 的 统计工作如 下
;
于 短 时段 的 音 节 进 行 互 信 息 量 收 集 ; 实验共测 量 出 短 时音 节 1 60 个 将其 中 所有
,
可 1^ ^ 搜索 到 交 互关系 的 音 节均 进 行 统 计
;
查 找 音 节在 现代 汉 语 中 所有 的 与 其 有 交互 关 系 的 音节 般情况 下 两者
一
2 ) (
" "
结 合视为词 语 例如 父 这 音 节 在 现代 汉 语 中 捜索 和 它 有 交 互关 系 的 音节
一
) , :
,
会出现 :
亲 、 辈 、 祖 、
子 … …
, 这 些 音 节 和 它 结 合 成 为 现代汉 语 中 的 词 语 , 但是
" "
他们 与 父 的 互信 息 量 并不等 同 。 具 体 的 计算 工 作 是 将全 部 词 语 出 现 的 次 数进
越小
;
信 息 量表 中 所 出 现 的 概 率 ,
再结 合 时长来寻找两者么 间 存在 的 关系 , 查看是 否 短
时 音 节 的 出 现概率较大 , 互信 息 量较大
。
经过统计得 出 在 1 60 个音节 中 ,
可 1^
>
1 产 生交互关系 的 音节共 34 个 , 其中分
, : ,
。
3 9
普 通话 音节 时 长 与 其所 携 带信 息 量 关 系 的 语 音 实验研 巧
" " " " " " " "
例如 ;
在语句 我就纳 闷 儿 了 中 , 其中 出 现 的 短 时 音节有 :
我 、 就 、 了
,
" " " " " "
且在 句 中 与 我 发生 交互 的为 就 , 我就 并不 归为词语 ,
所 W 在现代汉 语
" " " " "
"
词 频 统计 中 无法找 出 其 使 用 的 频 率 , 同理 , 和 了 交互 的 为 闷儿 , 闷儿了
的 和 了 所产生 的 互信 息 的 音 节也 非 常 之少 , 例如 : 我 的 爸爸 ,
新娘的鞋
" " " "
, , , , 、
" " " " " " " "
此后 的 研 究 中 攻克 这 难题
一
。
" " " " "
具 体 工 作 W 衣 为例 说 明 , 衣 在 实 验数据 中 的 所在 的 句 子为 手捧
" " " "
有 交互信 息 的是
"
,
" " " "
; , 1 5
:
" "
表 1 5 :
衣 的 交互音节信 息 统计表
一
衣 交 互 音 节 频 次 总 数 频率
 ̄
 ̄
衣 服 —
服 % 2020 1 7 0 5 5 8 .
 ̄
衣裳 —
裳 687 3 6 1 7 0 . 1 95
 ̄
衣襟 —
襟 1 1 3
 ̄
36 1 7 0 . 03 1
衣着 —
着 1 00
 ̄  ̄
36 1 7 0 . 02 8
衣袖  ̄
袖 %  ̄
3 6 1 7 0 . 02 6
衣衫
 ̄
衫 11 36 1 7 0 02 .
1
 ̄
衣 料  ̄
料 73
 ̄
; 3 6 1 7 0 . 025
衣物
 ̄
物 72
 ̄  ̄
3 6 1 7 0 . 02 0
衣领  ̄
领 巧  ̄
36 1 7 0 . 0 1
6
衣食
—
食 55
 ̄  ̄
3 6 1 7 0 . 0 1
5
衣冠 —
冠 46
 ̄
3 6 1 7 0 . 0 1
3
衣角 角 3 6 3 6 1 7 0  ̄
. 0 1
0
衣柜  ̄
U
3 6
 ̄  ̄
36 1 7 0 009
.
衣兜
 ̄
兜 3 4  ̄  ̄
3 6 1 7 0 . 009
衣箱
 ̄
箱  ̄
27  ̄
36 1 7 0 . 007
衣饰 —
饰 2 1  ̄
%
 ̄
1 7 0 . 006
衣椅 —
栖 1 9  ̄
36 1 7 0 . 005
衣帽  ̄
帽 1 8  ̄  ̄
3 6 1 7 0 . 004
衣装 装 1 7 36 1 7 0 . 0 04
衣 扣 I 扣 I
1 2 I
3 6 1 7 0 . 003
" " " "
表 中 可 W看 出 所有 与 衣 有交互关系 的 音节 中 衣服 这 组词 是 出
一
1 5 ,
40
第H章 音节时长与 其携 带信 息量 的 关 系研 究
" "
" "
个 百分点 这 数据 恰 恰说 明 了 个问题 在 现代 汉 语 中 凡是 出 现 衣 这
一 一
一
, : ,
" " " "
, ,
,
" " " "
。 ,
" " " " " " " "
服 , 服 的 时长为 0 . 54 s ,
非常短暂 , 几乎为 服 单独 出 现 时 音节 时长
"
的 半 那 么 说 明 互信 息量与 音节 时长之 间 是存 在着 定 的 关系 从 互信 息 量
一 一
, ,
" " "
最大 和 时长短暂 这两个数据 中 是 否 可 W 得 出 两者存在 反 比 关 系 ,
我们 需要
更 多 的 数 据 支持 才 可 定 论 因 此将 实 验 音 节 中 凡 能 计算互 信 息 量 的 所 有 音 节 均 进
,
行统计 , 见表 1
6
—
表 化 :
所测 音节前互信 息量 统计表 ( 节选
)
所测 音节
到了
( 沮词 )
I 概 率 概 率 位 次 I I
时长 秒为 单位
)
了 ( )
0
^
1
0 477 .
了 ( 有了 )
0 . 1 00
4
0 528
.
西 ( 东西 )
0 704
.
1
0 5 . 1
6
服 ( 衣服 )
—
0 5 56
.
—
1
^
 ̄
涂 ( 糊涂 ) 0 900
. 1 0 5 44
.
jf ] ( MV
0 8 77
.
1
0 . 64 8
么 ( 怎么 )
0
^
1
0 7 . 1 8
开 ( 打开 )
0 . 1 04
1
0 73 2
.
才 ( 刚才 )
0
^
1
0 747
.
车 ( 火车 )
0
^
1
0 78 9
.
看 ( 看看 )
0 . 1 72
2
0 乂32
满 ( 充满 )
0 3 82
.
2
0 678
.
伙 ( 家伙 )
0 074
.
3
化的
1
礼 ( 婚礼 )
0 . 1 54
3
0 74 4
.
住 ( 记住 )
0 040
.
4
0
^
去 ( 回去 )
0 09 9
.
5
0
^
宝 ( 宝宝 )
0
^
7
0 597
.
子 ( 鼻子 )
0 72 0
.
1
0 5 99
.
子 ( 老头子 )
0 7 . 1 4
1
0 600
.
子 ( 肚子 )
0
^
1
0 656
.
子 ( 儿子 )
0 69 0
.
1
0 7 03
.
子 ( 鞋子 0 ) . 45 5 1 0 75 6
.
表 中 的 所测 音 节 是 均 为 上 小 节 中 所 论述 的 即 出 现音节 后 可与 它
一
6 b &
.
1 ,
j
产生交互关系 的 另 音节 互信 息 概率 为 所测 音 节在 所有 可 能 后 的 所有 音 节
一
, a ,
中 所 出 现的概率 , 互信 息 量位 次 即 所测 音 节 的 概率排 名 , 时 长便 是 所测 音 节在 实
验 中 所取得 的 时长 ,
为 了 保证 实 验数据 的 科 学 性 , 取 时长平均 值作 为 参考 标 准
。
4
1
普 通 话 音 节 时 长 与 其 所携 带 信 息 量 关 系 的 语 音 实 验 研 巧
" " " "
这
" "
, ,
" "
家 、 位 、 手 、 时候 、 会 、 头 、 场 、 期 、 站 、 点 、 任 、 京 、 顶 、 职 ; 而在这些音节
" " " "
中 了 出 现在 到 后 的概率为 排名 第 位 时长为 表中
一
,
0 . 48 4 6 , , 0 . 477s .
, ,
8 1 . 8 %
节排名 为前 3 位 , 这足 W 说 明 :
不确 定 性较小 的 音节 , 其音节 时长均 为 短值
。
1 6 ,
,
1 7 ,
" "
其之前 出 现 的 音节 的 部分 例如 出现 友 这 单音节语素后 预测 可能 出现
一
, : ,
" "
, , ,
" " " " " " " " " "
想及 好 、 老 、 挈 等等 , 同理 , 由 于 朋 出 现在 友 之前 的概率最大
,
不确 定 性最 小 所 W 人们 都会首 先 联想 到 它 那 么 出 现在这 位置 的 音节 其时
一
, 。 ,
长 是 否 也 跟 随着 互信 息 量 发生变化 , 见表 1 7
:
表 1 7 :
所测 音节后 互信 息 量统计表 ( 部分
)
W 秒 为 单 去^
所测 音节 ( 组词 概率 )
I
概率位次
I
时长 ( {
人 ( 人民 )
0
^
1
0 54 7 .
音 ( 音乐 0 )
’
. 92 0
1
 ̄  ̄
0
^
已 ( 己经 ) 0 8 8 5. 1 0 72 8
.
东 ( 东西 )
0 83 5 .
1
0 75 8 .
朋 ( 朋友 )
0
^
1
0 768 .
车 ( 火车 )
0
^
1
0 789 .
火 ( 火车 0 ) . 076
2
0 5 22 .
不 ( 不是 )
0 . 1 48
2
0 62 3 .
怎 ( 怎么 ) 0 . 1 8 1
2
0
^
维 ( 维护 0 ) . 25 9
2
0
^
回 ( 回去 0 ) . 088
5
0
^
仪 ( 仪式 )
0
^
5
0
^
本 ( 本钱 0 ) . 02 5
^
0
^
植 ( 植物 )
0 03 0 .
]
0
0 73 3 .
互关系 中 ,
不确 定性越小 的信号 , 互信 息 量越少 , 而互信 息少 的音节时长均为短
, , : ,
, ,
" "
量很 小 仍 然 W 朋 友 词为 例 见表
一
。 1 8
;
42
第H 章 音节 时 长 与 其携 带信 息 量 的 关系 研 巧
" "
表 1 8 :
与 友 有 交互关系 的 单 音节语 素 互信 息 统计表
音节
I
频 次 总 量 概 率
W —
3859 5 一
1 96 0 . 74 3
战 -
273 5 1 96 0 . 05 3
亲 20 7 ^ 1 96 0 . 04 0
—
古 1 9 4 5 1 96 0 . 03 7
—
 ̄  ̄
好 —
1 3 0 5 \ 96 0
—
. 02 5
—
工 —
98 5 1 亮  ̄
0 0 . 1 9
—
老 —
65 5 1 奔  ̄
0 0 . 1 3
—
敬 —
59 5 1 秀 0 0 . 1 1
 ̄
票 -
43 ^ 1 96 0 . 0〇T
 ̄
交 -
4 1 5  ̄
1 96 0 . 0〇 r
学 —
28 ^ —
1 96 0 . 00 5
队 —
28
—
^ 1 96 0 ^
. 00
 ̄
盟 —
25
—
^ 1 96 y 0 0〇.
孽 -
23 ^ 1 96 0 ^
0 . 0
会 2 5 1 1 96
厂 0 00.
良 9 5 1
 ̄
1 96 0 0 0^
.
 ̄
密 4 1
—
5 1 96 0 . 0〇r
访 —
1 2 ^ 1 96 0 . 00厂
师 —
1 1 1 96 0 . 00
厂
—
校 1 0 5  ̄
1 96 0 . 0 0 2
文 —
1 0  ̄
5 \ 96 0 . 00厂
至 —
8 ^ 1 96 0 . 00
^
—
旧 8 5  ̄
1 96 0 . 0 0 2
难 5 ^ 1 96 0 . 00
1
 ̄
病 I
5
I
5 1 96 0 . 0 〇T
" "
表 1 8 中 所列 出 所有可能 出 现在 友 之前 的 单音节语素 , 共 26 个 , 其中
" " " "
出 现频次最 多 , 所 占 频率最大为 朋 ,
在实验 中 , 所测 算 朋 的 音节 时长为
的音节为互信 息量小 的 音节
。
;
,
在 其 所产 生 的 交 互 关 系 的 音 节 中 都处 于 不确 定 性 较 小 , 互 信 息 量 较 小 的 位置
。
43
普通话音 节 时长与 其所携带 信 息量关 系 的 语 音实验研 巧
第 四章 总结
4 1 . .
关系 论述
"
从本文 的 立足 点 出 发 寻求 我们 日 常 生 活 的 语 言 交 际 是 否 符合信 息 论 中
一 一
"
的信 息传递原 则 这 疑 问 的 答案 而在信 息传递过程 中 最重要 的便是信息 量
一
, ,
的编码与传递 , 及如 何编码 ,
如 何最优化传递 , 文 章 分别 从信 息量和 互信 息量
这两个角 度进行 了 相 关 的 研 究 并得 出 相 关 结 论 ,
一 一
音节 时 长和 霍 夫曼编 码 的 相
似性 , 音节 时长与 其所携 带 的 信 息 量之 间 的 关系
。
4 . 1 丄音 节 时长 与 霍 夫曼编 码之 间 的关系论述
在 前期 的 音节 时长切 分工 作 中 所得 出 的 结果 是 在 个语句 中 每 个字 的
一 一
, :
"
音节时长全然不 同 , 或长或短 ,
其 中 短 时 音节 并非全是现代汉语 中 所提 到 的
轻
"
, ,
原 因 需 要再结 合理论知 识做 出 解释 ,
文 章 试 从信 息 论 的 角 度 去 寻 求 其 中 的 原 因
。
"
在信 息论 中 , 信 息 的传 递的 最优编码 是霍夫 曼码 , 它 完全符合 频率高则码长
、
"
频率低则码短 的 最优 原 则 ,
最 大 程度 的 将 数 据 进 行 无 损 压 缩 , 同理 , 在 日 常交
际中 , 人 们 的 言 语 交 流 也 同 样 存在 编 码 原 则 , 不 同 的是 ;
霍 夫曼编 码将数据编 译
, 。
,
。
计算 的 实质 都 是从频 次 、 频率 出 发 的 , 而霍 夫 曼编 码 的 原 理也 是从数据 的 频率 出
" " "
发 这 点上两者相 致 经统计得 出 的 所测 音节频率 统计表 和 时长数据
一 一
, 。
;
,
" " " "
起 也在 定 程度 上 证 明 了 两 者 之 间 具 有 相 似性 因此 在 日 常交际中 语言 的
■ -
, 。 , ,
编码原则 定 程度 上 符 合 霍 夫 曼 编 巧 原 则
一
。
44
第四 章 总结
4 . 1 . 2 音节 时长 与其所携 带信 息量之 间 的 关系
音节 时长 与 其 出 现频率之 间 存在 很大 的 相 关性 在 上文 中 己经 多 次提 到 了 这
,
, , ,
并仅仅 是 编 码 过程 ,
更加 重 要 的 是码所携 带 的信 息量 , W 及码和信 息 量之 间 的 关
, , 。
农 提 出 的 信 息度 量 公 式基础 上进 行 关 于 音节 自 信 息 量和 互信 息 量 的 计算 试 图 从
,
所得数据 中 得 出 相 关 时 长和 信 息 量之 间 的 结 论
。
, 3 . 3 ,
靠性 ,
分别 从H个 不 同 的 时 长 角 度 展 开 研 巧 ,
具体 的研 究结 果 W散点 图 显示 ,
从
H 幅散 点 图 中 可 W 看 出 分别 取 时长 最 大值 、 平 均值和 最 小 值 时所得 结 论 并 不相
, ,
:
较少 相反 时 长长 的 音节所携 带 的 信 息量大都较 多 这 点 非常 之 关键 更是
一
, , , ,
, ,
。
值 的科学性 , 时 长 平 均 值 的 散 点 图 所 显 示 出 的 两 者 关 系 最 为 关 键和 重 要
。
再 从 互信 息 量 的 角 度 出 发 也即文中所写到 的 节 文 中 所取 的均为短
—
, 3 . 4 。
, ,
小 节 中 所 能 获得 互信 息 量 的 音 节 数 量 并 未 达 到 规模 化 这 点 基于两方面 的 原
一
因 , 首先 , 并 不 是 所 有 的 音 节 都 可 W 在 现代汉语 词 频 统 计 表 中 找 到 相 关 的 互 信 息
的 音节 中 ,
仍然 可 W 明 确看 出 关于 互信 息量与 时长之 间 的 关系 , 文 章 从两个方面
, ,
素 考 察 可 能 出 现在其之前 的 单 音节 语素 的 互信 息量 这是 项非常繁重 的 统计
一
,
;
, ,
。
45
普 通话 音节 时 长 与 其所携 带 信 息 量 关 系 的 语 音 实 验 研 巧
所携 带 的 信 息 量 。
从 自 信息量的角 度 出 发 :
音节 时长与 所携 带 的 信 息 量之 间 存在
着正相关 关系 , 时长越短 , 信 息 量越 小 , 互信 息 量也 从侧 面说 明 了 这
一
立论
。
4 2 . . 1 论文待 改进之 处
缺 , 虽然这并未影响 文章 的顺利完成 ,
但 是 仍 然希 望在 此 处将 其 指 出 便将来更
好 的进行解 决此类 问 题 , 从而 能 更加 严谨 地进 行 学 术 研 究
。
, , ,
工切 分工作繁琐复杂 , 校验 工 作 量 巨 大 ;
二 是 后 期 所根 据 这 些 音 节 进 行 的数据统
性 的 前 提 下 较 小 规模 的 数 据库 希 望 在 将来 的 研 究 工 作 中 借助 计算 机 程序 软 件 和
,
, , 、
、
期 刊 杂 志 到 网 络语 言 等等 希望将来建立更加 全面 。 、 内 容丰 富 充 足 的 词 频数据库
。
4 2 2
. . 对 未来研 巧工作 的 展望
从实验数据 的 收集 、
数据 库 的 建立 、 现代汉 语词 频表 的 整理 、
数据 频率频 次
的 统计等等这些 工作 中 ,
都可 发现很 多 值得 深入研 究 的 相 关 问 题 , 但 由 于和文
和 研 究 内 容提供 些帮 助
一
。
" " "
"
1 ) , ,
是 个在 现代 汉 语 中 词 频 位 于 第 二 位 的 超 高 频 词 但是在实验 中 所测 的
个
一
, 42
" "
, , ,
" "
, ,
46
第四章 总结
" "
, ,
真正原 因 ,
我们 还 需 要 更 加 丰 富 的 数 据 来证 明 ; 同时 , 分 别 处于 句 中 和 句 末位置
" " " " " "
的 了 是否 存在着 时 长 的 差异 , 究竟是充 当 结 构助词 的 了 所用 时长更
" " " " " "
, ,
" "
的切入 口 从这两个方面 去 研 究 了 这 音节 时 长应 该 是 个 有 趣新 颖 的 研 究
一 一
" "
间 的新成 就
。
" "
2 ) ,
" " " "
去 探 索 了 互 信 息 量 和 音节 时长 之间 的 关系 ,
但是其 内 部仍然存在着 巨 大
研 究 工 作 能 借 助 计 算 机 程序 来 操 作 这 部分工作 只 完成 了 其 中 的 部分 更加
一 一
, ,
" "
做到两项工作 是 收集 到 现代 汉 语 所 有 可 能 和 打 相 结 合 的 其他音节 在我
一
, ,
" "
作参考 ;
二 是测 量 出 现的这 89 个单音节语素 的 时长 , 并不 是测 量这些语素 单独
" "
出 现 的 时长 , 而是测量 当 其和 打 结 合后 的 时长 , 那 么 这就要求语音材料 中 必
关 于 两者 之 间 的 关 系 判 断
。
当 然仅仅 凭借 W 上 个 音 节 的 互 信 息 量和 时 长 数 据 是 远 远 不 足 W 立 论 的 因
一
此 , 大 规 模 的 搜 集 语 音 材 料 和 数 据 材料 才 是 解 决 这
一
问 题 的 根本 , 希望在 后借
" " " "
助 更好更强 的 科学 手段真正考量 互信 息量 和 音节 时长 两者 的 关系
。
也 希 望在 未 来 能 真 正解 决这两 个 问 题 , 为 学 术进 步做 出 贡献
。
47
普通话音节时 K 与其所携 带信 息量关系 的 语音实验研 巧
参考文 献
[
1
] F r an
9〇
i s P e l l e
g r i no , C hr
i sto
p h e C o u p e a n d E g d o M a r s i i i co . 2 0 1 1 . A
c ro s s
-
l an
g u ag e p e r s p e c
ti v e o 打 s p e e c h i 打 fo r m at i o 打 r at e . L an g u ag e
.
[
2
] G e o rg i n a A nn e To l a n , Gera l d Te h a n 2 0 0 5 I s S o k e 打 D u r at i o 打 A S u
p . ic
f i e nt
Exp l a n at i o n o f The Wo r d L e n g t h E f fe c t . M e m o ry
.
[
3
] Go l d s m i th ,
J o hn A . 2 0 0 0 . O n i n fo r m at i o n t h e o r y ,
e nt r o
py ,
an d
p
ho no l o gy nt
ih e
i
20 化 c e nt u r y . Fo l i a L i n gu i s t i c 么
.
[
4 ] G re e nb e r g
Jo se
ph H . 1 9 6 9 . L a n gu a g e U n v e r s a i l s ; A Re s e ar c h
F r o nt i er . S c i enc e
.
[
5
]
Tr u b e t z k o y ,
N i cho l as S 1 9 3 . 义 Pr
i nc i
pe sde pho打o o g e
l i
,
K li n c ks e ck i ; P ari s
.
[
6] R o ac h ,
P eter . 1 9 9 9 . S o m e l a n gu ag e s ar e s p o k e n m o r e q u i c kl y t h an o th e r s
.
L an gu a g e m yt h s
,
ed . b yL . B a u e r & R Tr u d g i l LL o nd o n : P e ng u in
.
[
7]Z i
pf ,
G e o rg e K . 1 93 5 . T he P s y c ho B
-
i o lo
gy o f L a n g u a g e : An I nt r o d u c t i o 打 to
D yn am i c P hi l o l o g y M rr P r e s s C am b r
i d ge :
.
[
8
]
Z p f G e o rg e K
i
,
. 1 9 3 7 S t at i s t i c a l
. Me t h o d s a nd D y n a m c P h i l o l o gy i . L an gu ag e
.
[ 9 ] 曹剑芬 .
普通话轻声 音节特征分析 [ J] .
应用 声 学 . 1 9 8 6( 4 )
.
[
1 0 ] 邓丹 石峰 , , 吕 ±楠 .
普通话 四 音节韵 律词 的 时长分析 [ J ] .
世 界汉 语教学
.
2 0 0 7 ( 4 )
.
[ 1 1 ] 邓丹 , 石峰 , 旨 ±楠 ,
普 通话双 音 节 韵 律 词 时 长特性研 究 [ CL 第屯届 中 国
[ 1 2 ] 冯勇 强 , 初敏 , 贺琳 , 吕 ±楠 .
汉 语 话语音节 时长统 计分析 幻 [ .
第五届 全
国 现代 语 音 学 学 术会 议论 文 集 .
北京 . 200 1
.
[
1 3 ] 冯 志伟 .
齐 夫 定律 的 来龙去 脉 [ J] .
情报科 学 . 1 983 ( 2 )
.
[ 1 4 ] 冯志伟 .
数理语 言 学 [ M] .
北京 : 知识 出版社 . 1 985
.
[ 1 3 ] 关存太 , 陈永彬 , 吴伯 修 .
全音节汉语语音识别 系 统 的 声 学模型研究 [ J]
.
声 学 学报 . 1 9 9 4( 5 )
.
黄德 智 蔡莲红 种 面 向 声 音 变换 的 参数化模 型 声学 学报
一
[ 1 4 ] , .
[ J ] .
.
2 0 0 6 ( 6 )
.
[ 1 引 黄吴 ,
郭立 ,
李琳 .
基于 感知 敏感成 分划 分 的 语音 时 长规整算法 [ J] .
数据
采集与 处理 . 2 0 0 8( 1 1 )
.
48
参考文献
[ 1 6 ] Jo hn E . . 化pcr o ft .
( 著 ) 孙 田 等译 .
自 动机理论 、 语言和计算导论 [ M]
.
北京 :
机械工业 出 版社 . 2 0 04
.
[ 1 7 ] 姜丹 .
信 息论和编码 [ M] .
合肥 :
中 国 科 学技术大学 出 版牡 . 200 1
.
引 罗 常培 王均 普通 语音 学纲 要 M] 北京 科 学 出 版社 1
-
[ 1 , .
[ . ; . 1 957 . 27 1 29
.
[ 1 9 ] 林煮 .
北京 语音 实录 [
M] .
北京 :
北京大学 出 版社 . 1 985 年 . 1 33
-
1 46
.
巧0 ] 厉为 民 .
试论轻声和重音 [ J] .
中 国 语文 . 1 98 1 ( 1 )
.
巧 1 ] 林茂灿 .
疑 问 和 陈述语气与 边界调 [ J ] .
中 国 语文 . 2006 ( 4)
.
[ 22 ] 林茂灿 .
汉语语音研 巧 的 几个 问 题 [ J] .
语 言 文 学应用 . 20 1 3 (
1 2)
.
巧3 ] 林茂灿 .
语 音研 究 的 新进展 [ J] .
语文建设 . 1 989 ( 6)
.
[ 24 ] 林茂灿 .
普通话语句 中 的 韵律结构和基频高低线 建构 [ J] .
当代语言
学 . 2 0 0 2 ( 4
)
中 国 语文 . 1 980 (
4)
.
巧6 ] 林茂 灿 ,
颜景助 .
普通话轻声 和 轻重音 [ J] .
语言 教学与 研究 . 1 990 ( 3)
.
方言 . 1 9 8 4 ( 1 )
.
巧引 莫双燕 , 关海欣 , 郑 可欣 .
语 音 时 长 调 整 快速 算法 [ J] .
声学 学报
.
20 1 0 ( 1 0 )
.
[ 29 ] 倪崇 嘉 , 刘文举 , 徐波 .
汉语 韵律 短语 的 时长与 音 高研 究 [ J] .
中 文信 息 学
报 . 2 0 0 9 ( 7 )
.
巧0 ] 吴宗济 ,
林茂灿 .
实验语音 学 概要 [ M] .
北京 :
高等 教 育 出 版社 . 1 989
.
巧 1 ] 王理嘉 ,
林慕 .
语音 学 教程 [ M] .
北京 ;
北京大学 出 版社 . 1 992
.
巧2 ] 叶 斐 声 徐 通銷 , .
语 言 学 纲 要 修订版 ( ) [ M] ,
北京 北 京 大 学 出 版化 : . 20 1 0
.
巧3 ] 赵元任 .
( 著 ) 吕 叔湘 .
( 译 ) 汉语 曰 语语法 [ M ] ( T h e G r a mm a r o f S p o k e n
Ch i nes e ) .
北京 :
商务 印书馆 . 1 9 79
.
巧4 ] 王晶 , 王理嘉 .
普通话 多 音 节词 音节 时长分布模 式 [ J] .
中 国 语文
.
1 9 9 3( 2 )
.
巧引 王理嘉 .
实验语音 学和 传 统语音 学 [ J] .
语文建设 . 1 9 8 9( 1 )
.
巧6 ] 王茂 林 .
音 系 学 的 时长理论 [ J] .
当 代语言 学 . 2 0 0 5( 6 )
.
49
普 通话 音 节 时 长 与 其所携 带 信 息 量 关 系 的 语 音 实 验 研 究
口7 ] 吴宗济 .
普通话 元音 和 辅 音 的 频谱 分 析 和 共 振 峰 的 测 算 [ J]
.
声 学学报 . 1 964 ( 1 )
.
巧引 吴宗济 .
自 主 音段音系 学 [ J] .
当代语言学 . 1 9 8 6( 1 )
.
巧9 ] 吴宗济 .
实验语音 学 与 语 言 学 [ J] .
语文研究 . 巧8 1 ( 4 )
.
[ 40 ] 许洁萍 , 初敏 , 贺琳 , 吕 ±楠 .
汉语语句 重音对音 高和 音长 的 影 响 [ J] .
声
学学报 . 2 0 0 0 ( 4 )
.
[ 4 1 ] 化 多 延柯 .
普通话 弱 读 音节和 轻声 的 实验研 充 [ J] .
中 国 语文 . 1 958 ( 1 2 )
.
2 0 0 2( 9 )
.
[ 43] 张家録 .
韵 律 特 征 研 究 新进展 [ J] .
国 外语 言 学 . 1 995
.
系 [ JL 声学学报 . 1 9 8 0( 2 )
.
[ 4 引 仲 晓波 , 杨玉芳 .
汉 语普通话句 子重 音在 时长方面 的 声 学表 现 [ J]
,
屯 理学报
、
. 2 0 0 3( 3 )
.
[ 46 ] 赵建忠 ,
傅祖芸 信息论与 编码 .
, 北京 :
电子 工业大 学 出 版社 , 20 1 4
.
5 0
^
附录
表
表 1 例 句 音 节 统 计 表 1
4
表 2 数 据 库 样 板 1
6
表 3 音 频 文 件 分 类 统 计 表 1
7
表 4 音 节 数 量 按 时 长 分 类 数 据 表 23
表 5 短 时 音 节 分 段 数 量 统 计 表 23
表 6 长 时 音 节 分 段 数 量 统 计 表 24
表 7 音 节 频 次 统 计 表 25
" "
表 8 了 的 时 长 统 计 表 26
" "
表 9 的 的 时 长 统 计 表 28
" "
表 1 0 我 的 时 长 统 计 表 28
" "
表 1 1 看 的 时 长 统 计 表 29
表 口 音节频 次统计表 ( 节选
) 3
1
表 1 3 音节频次与 信 息量统计表 ( 节选 ) 32
表 1 4 音节 时长最大值 、 最 小 值 与 平 均 值 表 3
4
" "
表 1 5 衣 的 交 互 音 节 信 息 统 计 表 40
表 1 6 所测 音 节 前 互 信 息 量 统 计 表 ( 节选 ) 4
1
表 1 7 所测 音节 后 互信 息量统计表 ( 节选 ) 42
" "
表 1 8 与 友 有 交 互 关 系 的 单 音 节 语 素 互 信 息 统 计 表 4 3
5
1
普 通话 音节 时 长 与 其所 携 带 信 息 量 关 系 的 语 音 实 验研 究
图
图 1 例 句 时 长 语 图 1
2
图 2 例 句 音 节 时 长 语 图 1
3
图 3 提 取 音 节 时 长 语 图 1
4
图 归 系 数 范 围 图
一
4 1
8
图 5 时 长 最 大值 与 信 息 量 之 间 的 关 系 35
图 6 时 长 最 小 值 与 信 息 量 之 间 的 关 系 36
图 7 时 长 平 均 值 与 信 息 量 之 间 的 关 系 3 7
52
^
致谢
论文 己 写 至此 意 味着走过 了 研 究生期 间 最后 的 段美 好旅程 时光甚巧
转
一
, 。 ,
, ,
,
。
供 的 帮 助 W 及对我 的 悉 屯 教导 、
,
使 我在 研 究 生 生涯 中 接触 到 计 算机课程 , 了 解和
极大 的 成就感和 自 信屯 、
。 同时 , 王 老 师 也 时 常 教 导 我 为 人 处 世 的 方式 方法 , 也为
我今 后 走 向 社会 打 下 了 良 好 的 交 际基础
。
, ,
授
。
再次 我要感谢 每 位 陪伴着 我 的 朋 友 尤其 是 我 的 舍 友 程巧 李 冉和 朱 冬
一
, , 、
雪 , 良 好 的 寝 室 学 术氛 围 是 督促我 上进 的 积 极动 力 , 而且在我遇 到 困 难 、 搂折 时
, , , ,
, ,
。
、
, , 、
里 身 体健康 工 作顺利 切 安好
一
、 ,
。
5 3
普通话音节 时长 与 其所携 带信 息量关系 的 语音 实验研 巧
攻读研 究生期 间 发表 的 论文
" "
[ 1 ] 张倩 .
不 X 白 不 X 结构 的使用 问 题 [ J] .
鸡西 大学学报 , 20 1 4( 1 0
)
[ 2 ] 张倩 .
现代 汉 语 副 +名 现 象 分 析 [ J] .
科海故事博览 ,
20 1 4 (
1 ) 3 0
54