You are on page 1of 8

2004 年 1 月 外语教学与研究( 外国语文双月刊) Jan.

2004
第 36 卷  第 1 期 Fo reign Language T eaching and Research ( bimonthly ) Vol.36 No .
1

以概率为基础的语言研究

广东外语外贸大学  桂诗春

  提要 :本文从语言事实和语言理论关系的角 度对语言学中的理性主义及 其内省式研 究方法提 出质


疑, 介绍了作为相反潮流的概率语言学 、语料库语言学 、计算语言学 、心理语言学的最 新发展 。 我国 语言
学应 发挥注重语言数据的历史传统, 使用概率方法, 同时 也应发 展语料 库语言学, 建 立现代汉 语和古 代
汉语的大型语料库, 研究汉语处理的认知心理模 型 。
关键词 :概率语言学 、语料库语言学 、心理语言学
  [ 中图分类号] H0-05   [ 文献标识码] A  [ 文章编号] 1000-0429( 2004) 01-0003-7

往往忽略了一个出发点 :
语言理论虽可解释语
  一 、 语言事实与语言理论
言事实, 但语言事实本身并非语言理论的产物 。
20 世纪中叶以来, 生成转换语法突破原来 语言事实和语言理论究竟谁是第一性的 ? 如果
结构主义和行为主义的藩篱, 掀起了语言学界 我们承认语言事实是第一性的, 那么根据哪些
的轩然大波, 出现了众多语言理论异彩纷呈的 语言事实来提升语言理论 ? 是语言研究者凭本
局面 。 在语言学争论中, 各种语言学派都列举 人直觉所提供的语言事实, 还是大多数语言使
语言事实作为其理论的支撑点 。从现代语言学 用者所提供的语言事实 ? 郑锦全在谈到美国语
的传统来看, 从描写主 义 、历史主 义到结构 主 言学研究现状时指出 :
“目前美国语言学界存在
义, 从语言习得 、语言教学到语文改革, 都注重 一个问题 :
理论泛滥, 而缺少充分的语言材料,
收 集 语 言 数 据, 提 倡 经 验 主 义 。 Chom sky 不够扎实”( 张凤芝等 2002 :77) 。
( 1957, 1961) 的理性主义则主张语言学家的任 语言学中理性主义的基石之一是语言能力
务是 描写人的语言能力, 外 部语料( 例如语料 /运用的两分法, 自 Saussure 提出“语言” 和“言
库) 无法解释语言能力 。 理性主义所根据的语 语”的区别以来, 赞成此说者不少 。Chomsky 强
言事 实是语言学家本身的母语知识 ( 直觉 、天 化了它们的区别, 将之看成是泾渭分明 。 对此,
性) , 由 此可 推导 出 UG ( linguistic universals,
不同的语言学家从不同的角度提出了相反的看
语言共同性 、语言 共项) 。 Chomsky 主要针 对
法 。从语篇研究的角度持相反意见的语言学家
20 世纪中叶以前以经验主义为基础 的语法研
有:
Pike, Hjelmslev, Fi rt h, H alliday, v an Dijk
究( 例如 Fries 依赖美国政府非正式通讯档案来
& Kint sch, Hartmann 等 人 ( 见 Beaug rande
编写 American English Grammar, 1940) , 不无
1991) 。 社会语言学家( 如 Hymes 1972) 、功能
道理 。 但理性主义研究方法提出以来, 语言理
语法学派( 如 Halliday 1973) 、应用语言学家( 如
论层出不穷, 而我们在沉迷于理论的解释时, 却
Widdow son 1984) 、心理语言学家和语用学家更
· 3·
2004 年                    外语教学与研究                    第 1 期

是毫不讳言, 指出语言运用才是他们研究的对 该是观察问题和回答问题, 从定量向定性发展


象 。 语用学家 M ey( 1993 :
5) 指出, “语用学的恰 ( Aart s 1999) 。 概率语言学 、计算语言学 、语料
当领域是 Chomsky 所说的语言运用” 。 心理语 库语言学 、心理语言学都是以频数和概率为基
言学家 Aitchison( 1998 :
183-184) 虽广泛地介绍 础的, 它们体现了尊重语言事实的历史传统的
了 Chomsky 的观点, 却也觉得把语言能力和语 重现光彩 。
言运用截然分开难以接受, 认为“心理语言学家
  二 、概率语言学的提出
对语言运用和语言知识同样感兴趣 ; 两者密切
相关, 任何人只注意其中一个因素, 而忽略另一 语言 研 究 的 概 率 方 法 ( P robabilistic Ap-
个因素, 是很奇怪的” 。 proach) 由此出现 。 2001 年美国语言学会首先
内省式的语言研究方法也受到不少人的质 在华盛顿召开了第一次语言学概率理论专题讨
疑 。在语音学研究中, 人们只能依赖自然观察 论会, 其 结果 见 Bob 等 ( 2003) 的 《概 率 语言
的数据 。语言习得研究难以采用内省式判断, 学》 。该 书 Juraf sky ( 2003) 一文指 出 :
“各式各
研究者本人的语言直觉代替不了儿童的语言直 样的证据表明语言是概率性的 。 概率在语言理
觉 ( McEnery & Wilson 1996 ) 。 Chom sky 解和产生方面, 对意义提取 、分解和生 成起作
( 1964) 自己也认为反对观察语言运用的看法并 用 。概率在 学习方面, 对切分 和概括 起作用 。
不适用于研究语言习得 。 内省式判断对自然观 概率在语音学和形态学方面, 对可接受性判断
察方法的指责是言过其实 。自然观察的数据的 和替换性起 作用 。 概率在 句法学和语 义学方
好处是有案可查 、有目共睹, 可以验证 ;
而内省 面, 对范畴梯度化 、句法合格与否的判断和解释
式的判断则是个人的行为, 往往没有太大把握, 起作用 。概率在建立语言变化和差异模型中更
容易陷入循环论证的怪圈 。这实际上是科学研 起到关键作用 。”现代语言学的基石是所谓“范
究中经常出现的客观知识和主观知识问题 : 是 畴主义的准则”( maxim of categoricity ) 。 语言
自然现象还是人为现象 ? 是公众的观察还是个 是一些定义清晰的 、离散的范畴, 数量不起什么
人的臆断 ? 至于当初 Chomsky 对语料库 的任 作用 。 虽然真正的语言有很多变数 、有梯度, 但
意 性 偏 态 的 指 责, 也 不 见 得 公 允 。 Oakes 它仅是语言运用的产物 。但是概率语言学的主
( 1998) 指出, 如果我们使用对数正态分布( log- 张者认为, 越来越多的证据表明, 语言判断显示
norm al dist ribution) 的办法来描述语料分布, 偏 出连 续 统 的特 性, 是 一种 明 显 的 梯 度 行 为 。
态就不会出现 。值得注意的是 Alien &Seiden- 2003 年在 Atlanta 召开的第二次概率语言学讨
berg( 1999) 的研究, 他们认为, 在整个生成语法 论会, 深入讨论了怎样把概率语言学和当前语
历史中一直没有弄清楚语言能力和语言运用的 言学潮流结合起来 。会议认为概率语言学和生
关系, 其实两者不能截然分开, 他们 使用了连 成语言学似乎是对立的, 其实也并行不悖 :
生成
接主义网络模型的方法来模拟语法性判断, 说 语言学的目的 是获得语言现象分布的最终结
明语言运用也可以产生语言能力 。 果, 而概率语言学则考虑较少为人探索的 、有梯
应该说, 生成语法学家致力于考察语言能 度的中间地带 。 只注意连续统的两端, 会使一
力的同时, 作为相反倾向的 、主张尊重客观语言 半语言现象得不到探索和解释 。 两者结合起来
事实的经验主义传统并没有中断, 而且在理论 、 可以让语言学家去探索数据中那些不易为人觉
方法论上也有很大进步 。 数据的基本特征是频 察的 、没有得到解释的微妙的型式, 使语言学界
数( f requency) , 表现为概率关系, 这就导致以概 超越那些显而易见的现象 。“中间地带论”只是
率为 基 础 的语 言 研 究 的 蓬勃 发 展 。 Halliday 概率语言学的一种想法, 生成语法学者是否也
( 1991) 认为, 语言系统的概率是固有的 。 当然 这样想, 那是另一回事 。
观察频数仅是一种手段, 不是目的 。 其目的应 计算语言学 、语料库语言学 、统计语言学也
· 4 ·
桂诗春   以概率为基础的语言研究

把频数作为它们研究的出发点 。它们更直截了 的男子 。 如果又看到一个只有四尺的男子, 我


当地 提 出 和 理 性 主 义 相 对 立 的 经 验 主 义, 们绝不会叫他为“高个子” 。 所以概率论的模型
Sampson( 2000) 称之 为经 验语 言 学 ( empirical 很容易表征这种规律性, 而对未经检验的句子
ling uistics) 。 M anning & Schutze ( 1999) 认为, 做出判断 。 它不会把未经判断的句子都看成一
从 1960 到 1985 之间, 理性主义完全统治了语 样。
言学 、心理学 、人工智能和自然语言处理, 但是
  三 、语料库语言学的兴起
原来在 1920 —1960 年间盛行过的经验主义传
统在 1970 —1989 年之间有所复苏 。 经验主义 Svart vik ( 1996) 指出, 语料库正在 成为主
也认为人的大脑生来就有认知能力, 不过并没 流, 它不但提供了一种研究方法, 而且提供了一
有理性主义所说的与语言组件有关的原则和程 种新的哲学 思维方式, 就像 Leech ( 1992) 所说
序 。经验主义从信息论的角度出发, 不赞成范 的, “它是一种`芝麻开门' , 导致关于语言的新
畴化的原则, 把语言现象分为合语法和不合语 思维方式” 。Sam pson( 2001) 认为, 由于语言运
法 。Colo rless green ideas sleep f uriously 虽然合 用存在一些别的因素而排斥它, 也违反科学常
乎语法, 但实际上没有人那样说 。 还不如把语 理 。例如加速使物体下落部分地受引力规律所
言事件的出现看成是概率性的行为, 如把句子 控制, 但其他的外部因素( 例如空气阻力 、气流
分为“经常出现”和“不经常出现” 。所以一个学 运动) 也会发生干扰 。一个研究引力规律的物
英语 的 学 生 写下 这 样 的 句 子 :In addition to 理学家不会因为有了这些外部因素, 而放弃观
this, she insisted t hat women w ere reg arded as a 察数据。 他无 非是把 这些因 素分离 开来 。
different existence f rom man unfairly ./ I have Sampson( 1992) 指出, 采用内 省式方法 想出来
an ache in the head .即算是合语法, 操本族语 的句子和语料库所收集的句子相距甚远, 不但
者也听得懂, 但却觉得 他们自己不 会这样说 。 是语料, 就是 内省式判断也存 在任意 性偏态 。
M anning & Schutze ( 1999) 认为, 语言的非范 Chomsky 认为有些句子不见于语料库, 这实际
畴化现象在语言变 化中尤为明显 。 英语中 的 上说明一个饶有趣味而又十分重要的问题 :

w hile 曾经 用 作名 词, 表 示“ 时 间” ( 如 take a 数问题 。人类并不太清楚某些词语或结构的频
w hile) , 但 后 来 却 变 为 引 导 从 句 的 补 足 语 数是多少, 用内省式方法更不能了解以频数为
( While you w ere out .
..) 。 我们没有什么理由 基础的数据 。例如 T hey' re just t rying to score
说它在 1742 年前是名词, 以后则变为补足语 。 brownie points wi th politicians .
/ T he boss is
这是因为它的使用频数在不同的语言环境中有 pleased — t hat' s anot her brownie point .
这两句
变化 。 从本质上看, 认知和作为它的一部分的 话中有一句是来自真实的语料库, 是哪一句呢 ?
语言都是概率现象, 概率论应是解释语言的理 内省式判断会产生意见纷纭, 通过语料库检索
论核心 。认知之所以是概率性现象, 是因为世 可 了 解 到 brow nie points 的 频 数 是 76, 而
界充满了不确切性和不完整的信息 。Chom sky brow nie point 的频数只有 6 。 可见用作复数的
( 1957) 反对根据语料库的话语来计算句子的概 情况多得多 。
率, 认为这样一来, 合语法和不合语法的句子的 从计算语言学的角度看, 作为以规则为基
概率都会很低, 难以解释语言的能产性 。 Man- 础的人工智能派的对立面的概率派在 20 世纪
ning &Schutze ( 1999) 认为这种看法只是针对 80 年代出现 。 Sam pso n( 1987) 指出, 概率方法
那些对 概率 表征 有偏 见的 人 而言 的 。 以 tall 的特点有三 : 1) 使用依赖语言统计特性的分析
( 高) 的认知表征而言, 当我们看到一个堂堂七 技术, 而不是使用绝对的逻辑规则 ;
2) 焦点放在
尺的男子汉, 又第一次看到这样的高度时, 我们 不受限制的语篇中的真实材料, 而不是一些语
才会叫他“高个子”, 而不会把他看成非范畴化 言学家自己发明的例子 ;
3) 和这两点有关的是,
· 5·
2004 年                    外语教学与研究                    第 1 期

由于算法需要而采用的对付真实的 、而不是事 种语言 的儿 童语 料 ;


密 歇根 大 学开 发 的 M I-
先选择好的材料的统计学是强有力的 。 当时提 CASE ( Michigan Corpus of Academic Spoken
出这种方法的是少数派, 主要原因是受到生成 English) 专门收 集大学生英语 口语语料 ;
美国
转换语法的影响 。概率方法在对语料库进行语 考试服务公司的 T 2K-SWAL 语料 库( TOEF L
法标注上取得了重大进展 。Brow n 语料库问世 2000 Spoken and W rit ten Academic Language
后, Green 与 Rubin 编制 了以规则 为基础的 标 Corpus) 则 是 专 门 研 究 大 学 英 语 语 体, 保 证
注程 序 T AGG IT, 准确率 只有 77-78 %。 英 国 TOEF L 考试所测试的英语符合到美国大学就
Lancaster 大学 Garside ( 1987) 等人用 概率的方 读的学生的需要 。对英语的使用者和学习者来
法根据 LOB 语料库所提供的 133 ×133 个标注 说, 他们关心的不是理论语言学家坐在扶手椅
过渡矩阵而编制的 CLAW 程序, 标注的准确率 上( Fillmore 语) 想出来的母语 语言能力( 哪些
达 96-97 %。 CLAW 不断更新, 它的第四 版吸 句子是可能的 ? 哪些句子是不可能的 ?) , 而是
收了以规则为基础的标注程序的优点, 用来处 哪些语言现象使用得较为普遍 ? 哪些不那么普
理一亿词的 BNC, 其错误率是 :
1.15 %, 歧义率 遍或较为不普遍 ?
是 3.
75 %。 在高科技( 计算机的普及, 大硬盘 、 随着大型语料库的出现, 在以语料库为基
高内存的出现, 扫描仪和光盘技术的发展) 的推 础的方法( corpus-based approach) 之外, 又出现
动下, 语料的收集数量以一日千里之势增加, 现 了 受 语 料 库 驱 动 的 方 法 ( co rpus-driven ap-
在的语料库实际上已是机读语料库 。 20 世纪 proach) 。 T ognini-Bonelli( 2001) 指出, 以语料库
60 年代出现的 Brow n 和 LOB 语料库只有 100 为基础的方法是使用语料库的证据来解释 、检
万词, 而现在的 LGSWE( Long man Spoken and 验或说明语言理论或做语言描述 。这些理论或
W rit ten English Corpus) 已达 4000 万 词, BNC 描述是大型语料库出现前已经存在的, 但是语
( British National Corpus) 已达 1 亿词( 而且提供 言事实不够充分, 语料库提供了收集大量 、可靠
光盘版给人研究) , 而 COBUILD 语料库( Bank 数据的手段 。Bob 的自然语言处理研究 、Qui rk
of Eng lish) 则接近 4 亿词 。 Biber 等人 ( 1999) 等人的《 当代英语综合 语法》 、Halliday 的功能
根据 LGSWE 而编著的 Longman Gram mar of 语法学派都是使用这种方法 。受语料库驱动的
Spoken and W ri tten English , 洋洋洒洒达 1000 方法则不限于使用语料库来选择例证以支持某
多页, 对各种英语使用现象的描写大都附以语 一种理论的陈述, 而着眼于整个语料库的完整
料库的统计资料, 令人耳目一新 。 由 15 个国家 性, 根据语料库所提供的证据来全面地描写语
和地区的语料库专家联合开发的国际英语语料 言 。所以理论的陈述和语料库所提供的证据应
库( International Co rpus of Eng lish, 简称 ICE) , 该是一致的, 它应该直接反映语料库的证据, 根
按照统一部署收集各个国家和地区的英语语料 据频数分布和反复出现的型式来系统地导出语
各 100 万词, 亦接近完成 。 语料库语言学首先 言范 畴 。 作 为 这 种 方 法的 体 现 的 是 Sinclair
在欧洲兴起, 而北美因为受到生成语法的影响, 1987 以 来 所 从 事 的 COBUI LD 工 程 ( 包 括
相对 滞 后, 但 后 来 也 发 展 神 速 。 Simpson & Col lins Cobui ld Dictionary 和 一 系 列 丛 书) ,
Sw ales( 2001) 指出 :
“ 美国 具有迎 头赶 上的 能 Hunston &F rancis( 2000) 的《型式语法》是体现
量, 已经得到很好的证实, 就等于我们所见到的 这种方法的一本代表作 。
空间竞赛中后苏联人造卫星时代和最近 10 年
  四 、心理语言学的突破
的美国汽车工业一样 。”美国宾州大学的语言数
据联合体 ( Linguistic Data Consortium ) 长期 致 在 20 世纪 50 年代, 受信息论影响, 语言学
力 于 收 集 和 散 布 各 种 语 料 ;由 心 理 学 家 和心理语言学的许多研究都使用了统计和概率
M acWhinney 主持的 CH ILDES 专门收集 说各 的方法 。但是 60 —80 年代, 这种方法销声匿迹
· 6 ·
桂诗春   以概率为基础的语言研究

了 。 到了 90 年代这种方法有了很大复苏, 根据 把语言习得看成是一个构建性的 、受数据驱动


Juraf sky( 2003) 的统计, 在 2000 年国 际计算语 的过程 。 这个过程并不依赖语言结构的共项,
言学协会年会上, 有 77 %的论文都采用了语言 而是依赖认知过程的共项 。 这个模型强调词汇
和学习概率模型 。关于语言理解, 可从三个方 功能主义( 句法型式受词项控制) , 把“形式”层
面看概率的作用 :
( 1) 从心理词汇或语法的角度 面( 表层形式 、句子结 构 、韵律形式等) 映射到
看, 语言结构的提取是一种概率性行为 :
最有可 “功能”( 意义 、意图) 。 因为输入是歧义的 、有噪
能被提取的结构提取时间最短, 花的力气最少 。 音的, 句子处理器就必须以概率的方式依赖词
( 2) 解决歧义 。 可能性越大的解释越会被选中 。 语所 提供的 各种 表层提 示( cues) 。 提示 效度
概率在解决歧义时起了核心作用 。 ( 3) 解决语 ( cue v alidi ty) 把提示的 概念形式化, 而提示效
言理解的加工难度 。 一些加工难度较大的句子 度又可以理解为提示可用性( cue av ailabili ty) 和
都是概率很低的句子 。同样的道理也适合于解 提示信度( cue reliabilit y) 的结合 。从学习者的
释语言产生 :
概率高的句子被提取得快, 如有多 角度看, 语言发展主要是学习和转移在起作用 。
个被选的结构, 概率就会起作用 。 在研究学习 以概率为基础的心理语言学不限于提出某
方面, 语言学习结构的模型也是以概率和信息 种语言处理模型, 还想进一步解决一些长期以
理论的模型为基础 。 概率论对心理语言学的最 来争论不休的理论( 例如语言是否天生 ?) 问题 。
基本的启发是使用证据推导的结构模型 :
它提 这就是涌现论( emergentism) 的提出 。Bates 等
供了 一 种 很 容 易 理 解 的 算 法 ( 例 如 贝 叶 斯 人( 1998) 认为这个问题可以得到解决, 有三个
( Bayes) 模型) , 对证据进行组合和加权, 在语言 原因 :
首先是理论物理学的非线形动力学的发
理解时选择最佳的解释, 在语言产生时选择最 展使我们认识到, 按照一个维度所发生的少量
佳结果 。 概率模型在心理语言学方面的应用广 变化可以导致复杂的非连续性的结果 ;
其次是
及语音 、形态 、词汇 、句法 、语篇处理等方面 。 我们可能通过神经网络的模拟技术来解释一些
频数在语言理解和语言产生中都起到关键 简单的输入怎样导致复杂解决方案的产生 ;

的作用, 但是频数必须和词语或句法结构有某 三是发展神经生物学的突破, “今天神经生物学
种关系, 才能发挥作用 。高频词辨认时间比低 的成果对昨天的天生主义是坏消息, 因为这些
频词短 、需要较少的感觉输入 、受邻近词的干扰 成果强调了皮层专门化的特别灵活的 、依赖于
也少 。 高频词的产生时间也短些, 而低频词容 活动的性质, 并且支持对高级认知功能的发展
易导致语音失误 。在解决形态 、句法和语义的 的涌现主义解释” 。 涌现主义可以用来解释诸
歧义时, 人们倾向于使用频率更高的词类 、形态 多语言现象, 包括语音形式 、形态变化 、词汇结
结构和语义 。 但是这种词汇语义/ 句法范畴的 构 、语言 历史变化 、皮钦语化 ( pidginization) 和
效应似乎并没有延伸到语言产生 。 复合词结构 二语习得, 而且可以作形式化处理, 例如连接主
的频率在语言理解和语言产生中都有作用 。 常 义网络模型 、动力学系统论 、贝叶斯模型 、优选
用的词组或成语提取得更快, 在解决歧义时也 论, 等等, 它们都是以概率为基础的 。
用得更多 。各种条件概率在语言理解和语言产 以概率为基础的语言处理模型在心理语言
生中都起作用 。 对具有不只一个句法次范畴的 学中取得了统治的地位, 竞争模型外, 还有以制
动词来说, 最常用的次范畴框架最易于被用来 约为基础的模型( Constraint-based Models) 、理
解决歧义 。 对具有一种词类的单词来说, 最常 性模型( Rational Models) 、马 尔可夫词 汇范畴
用的词类最容易被 用作解决歧义 。 竞争模 型 优先 模 型 ( M arkov M odels of Lexical Prefer-
( T he Competition Model, M acWhinney et al . ence) 、不考虑上下文随机语法( Stochastic Con-
1984 ;MacWhinney & Bates 1989 ;M acWhin- tex t-f ree Gram mar) 、贝叶斯信念网络( Bayesian
ney, 2001) 是第一个 处理句子的概率模型, 它 Beliefs Netwo rks) 、语言产生 概率模 型( P roba-
· 7·
2004 年                    外语教学与研究                    第 1 期

bilistic M odeling of P roduction) 等等, 限于篇幅, 文本格式, 甚至编制统一的 、兼容简繁体的检索


在此不再赘述 。 工具乃至语料库工具, 便于大家使用 。( 2) 语料
的收集和入库虽然牵涉大量人力物力, 语料本
  五 、对我国语言学界的启发
身却是公共财富, 应该向公众开放, 如提供在线
上面着重介绍了以概率为基础的语言研究 检索或语料光盘 。 ( 3) 古汉语语料库的建立也
方法, 丝毫没有意思把它说成为一种主流的 、唯 应提到议事日程 。我国许多经典著作和辞书都
一的研究方法, 而只是想说明语言研究方法丰 应电子化, 便于检索 。 ( 4) 汉语信息化和电子化
姿多采, 必须结合我们自己的实际鼎新革故, 吸 的“拦路虎” 是断词问题, 大家都有不同的方案
收人家的先进东西, 走我们自己的道路 。 和处理方法, 应集中力量, 共谋良策 。 断词问题
1.理论语言学是我们的弱项, 而生成转换 解决不了, 语料就无从进行索引 。 可否考虑以
语法以及其他语言理论模型在西方仍在不断发 “字”为单位, 通过搭配字检索来解决词的问题 ?
展 。 借鉴它们的理论和方法建立一套确实能够 ( 5) 统一和分散, 齐头并进 。 既要考虑编制大型
说明汉语的语言理论, 是我国语言学家面临的 的语料库, 也要考虑编制各种专业化的语料库 。
一大挑战 。我们的目标不限于考察汉语有些什 ( 6) 建立语料库虽是一项基础研究, 但其根本目
么参数设置, 还要进一步通过汉语来探讨 UG 。 的是对语言使用( 包括汉语以及其他民族语言)
2.汉语语 言学 有其自 身的传 统, 从小 学 进行客观的概率研究, 因此必须大力训练掌握
( 文字 、音韵 、训诂) 到现代汉语研究都注重收集 这种研究方法的人员 。
语言数据 。胡朴安( 1983) 早在 1937 年就提出, 4.在汉语心理语言学方面, 虽有一些零碎
“训诂学方法之新趋势, 惟有甲骨文金文之考证 研究( 如对母语习得 、二语习得) , 但我国还处在
与统计学之推测, 二法而已” 。 他有感于“瑞典 创始阶段, 任重道远 。 针对汉语使用而开展认
人柯罗 倔 论著 左 传真 伪 考[ 即 高本 汉 ( Karl- 知心理模型的研究还比较少, 关键问题是汉语
g ren) , 《左传真伪考》为陆侃如译, 新 月书店出 研究和认知心理学研究的结合问题 。 在西方有
版] 用统计方法统计左传 、论语 、孟子中的助字, 过两次结合 :
首先是语言学家和心理学家的结
为考据学者辟一新门径” 。他也统计了《论语》 合, 如 1951 年在美国 Cornell 大学召开的暑期
中的“君子”的频数( 约六十有余) , 然后区分出 研讨班 、美国社会科学院的语言学和心理学委
孔子对君子之界说 。胡朴安后, 又有多少我国 员会 1953 年在 Indiana 大 学召开的学 术讨论
训诂学家使用了概率方法, 笔者忝属外行, 不敢 会, 订出了所谓“心理语言学宪章” ;
其次是上世
妄言 。但概率方法在某个意义上不仅是一种方 纪 70 年代以来心理语言学和认知心理学的合
法, 而且是一种思想 。事物的出现( 包括语言的 流( 桂诗春 2000) 。 这使语言学通过心理语言
使用) 都是一种概率行为, 但是我们立论求证时 学的媒介成为认知科学的一个重要组成部分 。
却往往忽略这种特性, 只注意收集有利于自己 5.以概率为基础的方法在二语习得研究
观点的正面 证据, 而把 负面的证据 置之不顾 。 中的影响更大, 牵涉面更多, 实用意义更大, 是
在我国开展语言学研究, 概率方法值得重视 。 一个很重要的领域 。笔者将另作专文讨论 。
3.实施以概率为基础的语言研 究方法的
参考文献
一个基础工程是收集和建设语料库 。这项工程
已受到整个华语世界的重视, 但力量分散, 各自 Aarts, B.2000.Corpus linguistics, Chomsky and fuzzy
为政, 甚至重复劳动 。 现在要考虑的是 :
( 1) 我 tree fragments [ A] .I n C. Mair & M .Hundt
国大陆 、台湾 、港澳地区都在组织人力建设现代 ) .Corpus Linguistics and L inguistic Theory
( eds.
汉语的语料库, 应该强调统一力量, 加强协作, [ C] .Amsterdam :Rodopi .
像 ICE 那样制订 统一的抽样方案 、注释格式 、 Aitchison, J .1998.T he Articulate Mammals:An In-
· 8 ·
桂诗春   以概率为基础的语言研究

troduction to Psycholinguistics [ M] .London :Rout- tion [ C] .Cambridge :Cambridge U niversity P ress.


ledge . M anning, C .& H .Schutze .1999.S tatistical Natural
A lien, J & Seidenberg .1999 .T he emerg ence of g ram- Language Processing [ M] .
maticality in connectionist netwo rks [ A] .In B . M cEnery, T .& A .Wilson .1996 .Corpus Linguistics
) .T he Emergence of Language
M acWhinney ( ed. [ M] .Edinburg h:Edinburg h University Press.
[ C] .NJ :
L aw rence Erlbaum Associates, I nc .
, Pub- M ey, J.1993.Pragmatics :An Introduction [ M] .O x-
lishers ford:Blackw ell Publishers Ltd.
Bates, E .
, J.Elman, M .Johnson, A .Karmilo ff-Smith, Oakes, M .1998 .S tatistics for Corpus Linguistics [ M] .
D .Parisi & K .Plunkett .1989 .Innateness and e- Edinburgh :Edinburgh U niversity P ress.
mergentism [ A ] .In W .Bechtel & G .G raham Sampson, G .
1987.Probabilistic models of analysis [ A] .
) .A Companion to Cognitive Science [ C] .
( eds. I n R .G arside et al.( eds .
) .T he Computational
O xford :Basil Blackwell. Analysis of English [ C] .
London: 16-29 .
Longman.
Beaugrande, R .1991 .Linguistic T heory :The Discourse Sampson, G . 1992 . Probabilistic parsing [ A ] . In
of Fundamental Works [ M] .London :Lo ngman . ) .Directions in Corpus L inguistics :
Svartvik ( ed.
Bob, R .
, J.Hays & S .Jannedy .2003.Probabilistic Proceedings of Nobel Sy mposium 82 [ C] .Berlin:
Linguistics [ M] .Cambridge, M ass.:M I T Press. M outon Gruyter .
Chomsky, N .1957.Sy ntactic S tructures [ M ] .T he Sampson, G .2001 .Empirical Linguistics [ M] .Lo n-
Hague :M outon & Co . don :Continuum .
Halliday, M .
A.K.
1973.Ex plorations in the Function Simpson, R .& J.Sw ales .2001 .Intro duction :N orth
of Language [ M] .London :A rnold . American perspectives on co rpus linguistics at the
Halliday, M .
A.K.
1991.Corpus studies and probabilistic millennium [ A ] . In R .Simpson & J. Sw ales
grammar [ A] .In K .Aijmer et al.( eds.
) .English ) .Corpus L inguistics in North America [ C] .
( eds.
Corpus Linguistics [ C] .London :Lo ngman M ichigan:T he University of Michig an Press .
Hymes, D .1972 .On communicative competence [ A] . Svartvik, J.1996 .Corpo ra are becoming mainstream
) .Sociolinguistics[ C] .
In J.B.P ride et al ( eds. [ A] .In J.T homas & M .Sho rt ( eds .
) .Using
Harmondswo rth:Peng uin Books L td . Corpora for Language Research [ C] . London:
Jurafsky, D .2003 .Probabilistic mo deling in psycholin- L ongman .
guistics: Linguistic comprehension and productio n T og nini-Bonelli, E.2001 .Corpus L inguistics at Work
[ A] .I n R .Bob et al.( eds.
) .2003 . [ M] .A msterdam :Jo hn Benjamins Publishing Co .
Leech G .
N .1992.Corpora and theories of linguistic per- Widdow son, H.1984.Competence and capacity in lan-
formance [ A] .I n J.Svar tvik ( ed) .Directions in guage learning [ A] .I n H .Widdow son ( ed .
) .Ex-
Corpus Linguistics.Proceedings of Nobel Sy mpo- plorations in Applied L inguistics 2 [ C] .Ox ford:
sium 82 , S tockholm , 4-8 August, 1991 [ C] . O UP .
Mouton de G ruy ter , Berlin and New York . 桂诗春, 2000, 《 新编 心理语 言学》[ M] 。上 海 :
上海 外
M acWhinney, B .
, E.Bates & R .Klieg l.1984 .Cue 语教育出版社 。
validity and sentence interpretation in English, G er- 胡朴安, 1983, 《中 国训诂学史》[ M] 。 北京 :
中国书 店
man, and Italian [ J] .Journal of Verbal Learning ( 根据商务印书馆 1937 年版影印) 。
and Verbal Behavior 23 .
127-150 . 张凤芝等, 2002, 语言 学 科建 设 高 级专 家 座谈 会 综 述
M acWhinney , B.& E .Bates .1989.The Cross-linguis- [ J] ,《 暨南大学华文学院学报》第 4 期 。
tic Study of Sentence Processing [ M] .Cambridge :
Cambridge U niversity P ress. 收稿日期 :2003 —7 — 26 ;
M acWhinney, B .2001.T he Competition model :T he 本刊修订稿, 2003— 11— 1
input, the co ntex t and the brain [ A] .In P .Robin- 通讯地址 :510420 广东 外 语外 贸 大学 外 国 语言 学 与
so n( ed .
) .Cognition and Second L anguage Acquisi- 应用语言学研究中心
· 9·
2004 年 1 月 外语教学与研究( 外国语文双月刊) Jan .2004
第 36 卷  第 1 期 Fo reign Language T eaching and Research ( bimonthly ) Vol.36 No .1

Abstracts of major papers in this issue


Probabilistic approaches to linguistic research, by Gui Shichun, p. 3
T he paper calls into question linguistic rationalism and its introspective methodology in terms of the relation betw een
linguistic facts and linguistic theories .New developments of probabilistic linguistics, corpus linguistics, computational lin-
guistics, and psycholing uistics are given as the opposing trend, which reflects the rejuvenation of the historical tradition of
respect for linguistic facts.In Chinese ling uistics the strengthening of theoretical linguistics should g o hand in hand w ith
the adoption of the probabilistic approach w hich is more in line with the Chinese historical tradition of focusing on linguis-
tic data .

Grammaticalization of A and B, by Xu Shenghuan , p. 10


T he expression ty pe of A_and_B can not only ex press coordination, but also imply subordinative relation of condition,
purpose and cause_effect .T he paper argues that the implication of this kind of subo rdinative semantics has been grammati-
calized as the Constructio n of A and B .The paper first ex amines the grammatical_semantic environments which serve as
the inducing causes of the g rammaticalization of the Construction.T hen it summarizes the 4 main features of the realiza-
tio n of grammaticalization of A and B .I t further points out that the nature of the grammaticalization of A and B is essen-
tially the process in w hich and as the device of tex tual continuation first developed into a coordinator in grammar, and
then the coo rdinato r further developed into a grammatical device with w ider coverage of semantic application .

Cognitive effects of grammatical metaphor, by Jin Nana & Chen Zili, p. 25


G rammatical metapho r in this paper refers to elementary grammatical metaphor in SFG, which co ncentrates on
w ordsgrammatical functions, thus completely different from lexical metaphor .M etaphoricity presumes an index that is
g radated in this paper to describe the quantity of the g rammar me taphor in a text .With tw o groups of colleg e students
questionnaires, the po sitive study brings forth the follow ing results:there is quite a difference between the tw o groups in
construing congruent texts and metaphorical texts.F urthermore, the analysis shows that the metapho rical tex t helps sub-
jects make better cog nitive effects, and under cer tain circumstances, metapho ricity is in direct pro portion to the cog nitive
effects and the relevance o f the text as w ell.T his is unexpectedly co ntrary to the common view that “ the more metaphori-
cal the tex t remains, the more difficult it is to be understood” .

Constructions in the comprehension of English sentences by Chinese EFL learners, by Dong Y anping & Liang J unying, p. 42
T his paper investigated, by the sor ting paradigm, the role of verbs or constructions when Chinese EF L lear ners try to
understand an English sentence .Six teen sentences were created by crossing four verbs with four constructions and subjects
of different language proficiencies w ere asked to so rt them into four groups according to their overall meaning .T he results
sugg est that in an L2 co ntex t, language proficiency makes a difference on the main determinants of sentence meaning .
T hat is, EFL beginners rely more on the verb in sentence interpretation, w hile intermediate and advanced learners are
mo re influenced by the construction of a sentence .

The effects of lexical aspect and discourse structure on the simple past marking in English interlanguage, by Cai Jinting, p. 49
T his paper studies the effects of lex ical aspect and discourse structure on the simple past marking in Chinese_English
interlanguage with 120 w ritten narratives collected from 120 2nd_year university students .I t is found that these two fac-
tors ex ert both individual and interactive effects on the simple past marking .T he effect of lexical aspect does no t fully a-
g ree with the prediction of the primacy of lex ical aspect hypothesis, but that of discourse structure accords with the predic-
tio n of the discourse hy pothesis.Besides, the effect of one factor is mediated by the o ther, hence the interactive effects oc-
cur .Discourse structure behaves differentially in various lexical aspect classes, stro nger in activities and achievements than
in states and accomplishments.Lexical aspect show s a stronger effect o n the simple past marking in the foreground .

Self_concept, English pronunciation and EFL learning, by Wang Chuming , p. 56


T his paper constitutes an attempt to study the role of pro nunciation in EF L learning .T he autho r claims that although
pronunciation is o nly part of the L2 learning task, performance on L2 pronunciatio n influences a learner s L 2 achiev ements
and judgment o r self_co ncept of his/ her L2 learning ability .T he effect of pronunciation on the L2 learning self_co ncept
and the facilitating or debilitating ro le of pronunciatio n in L2 learning are couched in w hat the autho r calls the L2 pro nun-
ciation lear ning hypo thesis.T hree studies have been conducted to test this hy pothesis, adducing co nverging evidence that
the English pronunciatio n self_concept correlates hig hly w ith EF L learning achievements and predicts the EF L learning
self_concept very well.

You might also like