You are on page 1of 10

第 62 卷第 5 期 华中师范大学学报(人文社会科学版) 2023 年 9 月

Vo
l.62 No. 5 J
our
nalo
fCen
tra
lCh
inaNo
rma
lUn
ive
rsi
ty (Human
iti
esandSo
cia
lSc
ienc
es) Sept. 2023

算法阐释 :人工智能时代的文论问题
曾 军
(上海大学 文学院,上海 200444)

摘要 以 Cha
tGPT 和“文心一言”为代表的大语言模型展现了“
AI生成”的巨大潜力。通过
算法进行运算是计算机编程语言与人类自然语言的根本差异,这也是理解人工智能的重要维度。
把算法引入文学研究,一方面 需 要 理 解 算 法 背 后 的 逻 辑,另 一 方 面 还 要 理 解 文 学 研 究 自 身 不 断
“数”化的进程。文学研究对与算法相关议题的关注由来已久。20 世纪 80 年代的“方法论热”不
仅将与人工智能相关的控制论、信息论等作为重要的科学基础和思想来源,而且开始尽可能调用
已有的文学和艺术资源,试图实现对“三论”中的观点和方法的文学化和美学化征用,这构成把算
法引入文学研究的理论“先声”。研究算法阐释有两种 路 径。其 一 是 将 算 法 作 为 对 象,通 过 辨 析
算法的运行逻辑及执行过程来与文学创作和文学研究的活 动 相 比 较,进 而 讨 论 以 作 为 对 象 的 算
法阐释有何特点。基于20 世纪以来西方文论相关理论思维,可以将算法作为对象的阐释命名为
“人 - 机互动”的“可写阐释”。其二是将算法作为方法,通 过 对 算 法 的 数 据 处 理 能 力 的 应 用 及 其
任务实现效能的评估,为文学研究这一此前纯粹属于精神生产领域的活动赋能,进而提高文学研
究的效能。“数字人文”(“人文计算”)便是对这一辅助性方法的命名,且已经经历了近 90 年的发
展。进入人工智能时代之后,文学研究有可能实现对文学意义的“总体阐释”。
关键词 人工智能时代;AI生成;算法阐释;可写阐释;总体阐释

DOI: 19992/
10. j.cnk
i.1000
-2456.
2023.
05.
010
基金项目 国家社会科学基金重点项目“当代中国对话主义文学理论的话语建构研究”(22AZW003);上 海
市教委科研创新计划(人文社科重大项目)“新媒体艺术理论基本问题研究”(
2023SKZD15)

近年来,以 Cha
tGPT 和“文心一言”为 代 表 的 大 语 言 模 型 先 后 横 空 出 世。 它 们 因 具 有 了 通 用 人 工 智
能的某些潜能,而令几乎所有人文 社 会 科 学 及 自 然 科 学 研 究 者 感 到 前 所 未 有 的 冲 击。 其 实 Cha
tGPT 和
“文心一言”只是全世界数以百计的 各 类 大 模 型 中 的 一 种。 根 据 《中 国 人 工 智 能 大 模 型 地 图 研 究 报 告》显
示,仅 2021-2023 年短短两年间,中国就自主研发了 79 个大模 型,不 仅 有 大 语 言 模 型,还 有 视 频 大 模 型、
多模态大模型等 ① 。它们都聚焦“
AI生成”领域,提供文本生成、图像生成、声音生 成、代 码 生 成,以 及 多 模
态之间的相互生成的解决方案。 语 言 是 人 类 思 维 的 工 具,经 由 “
AI生 成”的 文 本、图 像、声 音 和 程 序 直 接
“入侵”了人类精神活动最核心的领域,并开始表现出知识生产、艺术创新和思想重构的巨大潜能。

AI生成”技术的出现带给人类的震惊及对未来的恐惧令每个人文学者被迫思考一个重要的问题:我
们是否会被替代? 在科技与人文的交锋中,人文学者一直处于弱势的、被动的、防御的地位。然而,作为正
AI生成”的技术
在进入人工智能时代的人文学者而言,简单的拒斥和回避是无济于事的。我们只有了解“
AI生成”给人文研究
与人类此前从事精神活动和艺术创作的手段之间的异同,才有可能较为深入地讨论“
AI挑战”的一种回应:人工智能时代文学研究将呈
带来的影响。因此,将算法引入文学研究,实质上是对“
现怎样的新面貌? 由此会发生怎样的研究范式转换?

① 参见郜阳:《中国人工智能大模型地图发布》,《新民晚报》
2023 年 5 月 30 日,第 3 版。
126 华中师范大学学报(人文社会科学版) 第 62 卷

一、未来已来:算法逻辑及其被理论化的可能

将算法引入文学研究,一方面需要理解算法背后的逻辑,另一方面还要理解文学研究自身不断“数”化
的进程。只有这样,才能实现算法的理论化。
计算机编程语言和人类自然语言的区别,根本在于算法。所谓“算法”,指的是一系列解决问题的步骤
和指令集。它是一种能够被计算机程序所实现的、有明确规定性的计算 过 程。算 法 包 含 着 一 系 列 环 环 相
扣的步骤,每个步骤又包含若干指令 来 规 定 着 其 任 务 的 执 行 方 向。 根 据 最 新 统 计,全 世 界 的 自 然 语 言 有
7000 多种,那么编程语言有多少种? 目前为止还没 有 标 准 答 案,但 根 据 估 算 可 能 存 在 几 百 种 编 程 语 言 ① 。
将人所使用的自然语言与在计算机中运行的编程语言进行对比,可以发现,编 程 语 言 中 没 有 语 音 学、语 言
习得相关问题;与自然语言中存在语言的变异与演化类似,编程语言也 有 语 言 历 史 学、语 义 学、语 法 学、语
言类型学、语言标准化相关的问题。 唯 一 一 个 在 自 然 语 言 中 不 存 在,而 在 编 程 语 言 中 存 在 的,就 是 算 法。
所以算法事实上是理解编程语言的过程中最重要、最特殊的内核。
AI辅 助 算 法”的 演 变。所 谓“计 算 机 辅 助
从计算机到人工智能,算法经历了从“计算机辅助 算 法”到“
算法”是非人工智能的,这其中人是算法的设计主体、任务主体,计算机则是 算 法 的 执 行 主 体,二 者 间 界 限
AI辅助算法”则与此不同,计算机不仅是执行主体,而且拥有了自我学习能力,进而拥有替代部分
分明。“
人的设计能力和任务能力,具有自主 执 行 能 力。Cha
tGPT 的 使 用 证 明,人 工 智 能 的 算 法 能 够 处 理 不 确 定
性的信息,它具有数据驱动的模型,因而具有很强的适应性和自适应的能力。这里还存在人工智能专家也
无法完全理解的算法黑箱问题。也就 是 说,人 们 并 不 太 清 楚 算 法 到 底 是 怎 么 实 现 既 定 的 任 务 和 目 标 的。
最新的研究显示,OpenAI的设计师正在用 GPT4 去理解 GPT3.
5 的运行,希望通过高级人工智能去理解
低级人工智能,以破解黑箱的奥秘。
要理解算法背后的逻辑需要从算法的技术原理和一般规律的角度出发。首先,算法种类多样,所有的
算法都是为了实现特定目的而被制造的。如为了解决排序问题而设计的快 速 排 序 算 法,为 了 解 决 最 短 路
径的问题而设计的 Di
jks
tra最短路径算法,为了挖掘关联规则而设 计 的 Apr
ior
i算 法 等。其 次,每 一 个 有
Di
特定目的的算法都有特定的数据 结 构。如 快 速 排 序 算 法 的 数 据 结 构 是 数 组, ks
j t
ra最 短 路 径 算 法 的 数
Ap
据结构是加权有向图, r
ior
i算法的数据结构是事务数据集合等。最后,每个算法的执行过程也不一样。
比如快速排序算法的执行过程就是先选取一个基准元素,进而将序列中小于基准元素的放左边、大于等于
的放右边,最后再用递归处理两边 的 序 列。Di
jks
tra最 短 路 径 算 法 的 执 行 过 程 是 首 先 将 所 有 节 点 之 间 的
距离初始化为无穷大,将起点的距离设为 0 并加入访问集合,进而更新起点与不同节点之间的距离并将其
加入访问集合,最后通过不断重复上述过程,直到所有的目标节点加入访问集合或者待访问集合为空。因
此,根据任务的不同,便会设计出不同的算法,如排序算法、搜索算法、图形算法、计算几何算法、加密算法、
优化算法、机器学习算法、深度学习模型、神经网络、梯度下降算法等。简 言 之,算 法 首 先 要 去 理 解 其 目 的
是什么,即要解决什么问题;然后理解数据结构、运行规则、执行过程分别是什么;最后还要问的是,这一算
法是否有效。
怎样把算法引入文学研究? 这需要实现自然语言的文学和编程语 言 的 算 法 的“双 向 奔 赴”。事 实 上,
文学研究也经历了不断地被“数”化的历程。
第一阶段是指“数学化”,即用数学中的计算方式来理解文学。在《中国叙事学》一书中,浦安迪发现中
国古代的四大奇书里有一个非常有趣的奇书文体的结构现象。他概括为“十回”的 主 结 构,即 百 回 的 小 说
都是以每十回为一个单元,从而构成了十乘以十的叙述节奏。“十回”的主结构里又存在“三、四回”的次结
构,也就是说“三三四”“三四三”或“四 三 三”的 结 构 模 式 ② 。这 就 是 浦 安 迪 从 数 学 角 度 对 四 大 名 著 早 期 版
本所做的研究。从这里可以看出,数学化过程有助于以一种抽象化的方式来理解文学文本的特有规律。
第二阶段是“量化 - 统计化”,即不仅将各类文学现象量化,而且还用统计的方式实现对被量化的文学
现象的规律性分析。中国古代文学研究学者陈大康是数学专业出身,他即是 以 数 学 的 数 理 思 维 研 究 包 括

① 参见 TIOBE 编程语言排行榜,排行榜每月更新。
② 浦安迪:《中国叙事学》,北京:北京大学出版社, 1996 年,第 62
-75 页。
第5期 曾 军:算法阐释:人工智能时代的文论问题 127

红楼梦在内的中国古代文学。他的博士论文《通俗小说的历史轨迹》就是用统 计 学 的 方 法,对 明 清 通 俗 小
说的内容进行分析,辨析小说所反映的思想内容和形式风格。陈大康统 计 发 现,明 清 通 俗 文 学 创 作 中,演
述宋代的作品最多,达到了 93 篇,演 述 元 代 的 作 品 为 19 篇,演 述 嘉 靖 朝 以 来 的 作 品 则 相 当 少 ① 。 这 就 是
通过具体的量 化 分 析,以 统 计 学 的 方 法 所 实 现 的 文 学 现 象 分 析 案 例。 又 如,美 国 学 者 丹 尼 · 辛 尼 金
(
Dan
ielS
inyk
in)在其《经济学、种族和美国战后小说:一部计量文学史》一文中绘制了两幅图。图中,横轴
为出版时期,纵轴为平均的经济程度,左幅为黑人作家,右幅为白人作家,实 线 圆 点 为 黑 人 女 性,虚 线 三 角
为男性作家。从大数据的角度去比较这两幅图中 1950 年到 2000 年间黑人作家和白人作家、女作家和男作
家受关注度的差异。图表显示,白人女作家的受关注度基本保持不变,黑人女作家则在不同的时期受关注度
不一样,呈明显的波浪性分布。这说明,大数据可以辅助特定的经济学、种族问题与文学的关系研究 ② 。
第三阶段,也就是现在所进行到的“数字化 - 数据化 - 向量化”阶段。所谓“数 字 化”其 实 就 是 将 纸 质
的文本变成了数字形态所能够识别的文本,使其得以在互联网上传播。“数据化”则 是 进 一 步 赋 予 被 数 字
化的文本元素以特定的权重,形成可以进行检索与分析的数据库。到了人工智能的“向量化”阶段,文本所
负载的位置标签、被赋予权重的各类 数 值 越 来 越 多,影 响 大 模 型 运 行 的 参 数 也 越 来 越 多。 这 一 阶 段 文 学
“数”化的典型代表就是“
AI生 成 艺 术”的 诞 生。 无 论 是 “
AI 写 作”还 是 “
AI 绘 画”“
AI 音 乐”以 及 “
AI 影
视”,越来越多的人工完成的创造性活动被人工智能所替代。从前几年人工智能诗歌写作工具微软小冰和
“九歌”的出现到现在以 Cha
tGPT、“文 心 一 言”为 代 表 的 “
AI生 成”技 术 的 兴 起,预 示 着 人 工 智 能 开 始 从
“专家人工智能”向“通用人工智能”的过渡。
通过对算法背后的逻辑以及文学“数”化进程的理解,可以实现计算机与文学分析之间的某种结合,从
而为建构一种“算法阐释学”提供某种思路。在《真理与方法》中,伽达默尔提倡从 游 戏 的 角 度 去 理 解 艺 术
作品,认为只有遵守游戏特定的规则,主体才能成为游戏中的人。因此,阐 释 也 是 要 在 这 种 特 定 的 规 则 范
围里展开讨论。美学和阐释学也有这么一个过程,所以伽达默尔提出“美学必须被并入到诠释学中”,即要
tGPT 和 “文 心 一 言”为 代 表 的 人 工 智 能 技 术
纳入到相应的规则系统之中。套用伽 达 默 尔 的 表 述,以 Cha
正在创造一个全新的精神世界。它以“游戏”的方式,以“自由创造”的理念,以“与现时生命的思维性沟通”
为特征 ③ ,提出了重新展开对审美意识与历史意识批判的艺术真理的问题。换言之,人工智能技术提出了
一个新的诠释学的使命。这一新的诠释学使命可以被命名为走向文论的“算法阐释”。

二、往事回首:“前”人工智能时代的“方法论热”

文学研究对与算法相关议题的关注由来已久。因此,在正式进入人工智能时代的文学阐释问题之前,
还有必要对人工智能对人文领域的影响做一个历史化的梳理。这里最值得关注的就是 20 世纪 80 年代中
国文论中的“方法论热”现象。
“方法论热”主要是指 20 世纪 80 年代发起于哲学领域尔后迅速向其 他 人 文、社 科 领 域 滋 生 蔓 延 的 研
究方法讨论热潮。1985 到 1986 年是方法论研究的爆发之 年,因 而 1985 年 被 称 为“方 法 年”,
1986 年 被 称
为“观念年”。其中最核心的就是“新”“老”三论的兴起,即以“老三论”为代表的系统科 学 理 论 引 入 人 文 研
究尤其是文学研究。所谓“老三论”,即系统论、控制论和信息论;所谓“新三 论”,即 耗 散 结 构 论、协 同 论 和
突变论。“老三论”和“新三论”对文学研究的影响并不一样,前者的影响大于后者。就“老三论”内部而言,
系统论、控制论和信息论也是从不同层面影响文学研究的。系统论从原则上为文学研究提供整体性、系统
化的框架。因而,系统论往往是在文学的基本原理、文学研究的体系框架 上 产 生 影 响。童 庆 炳 的《文 学 概
论》从文学活动开始,并将艾布拉姆斯的“文学四要素”作为提纲挈领的框架,这在 一 定 程 度 上 是 受 到 了 系
统论思想的影响。控制论与信息论对文学研究的影响则带有碎片化的 特 点。换 言 之,某 些 学 者 只 吸 收 了
某些基本概念,继而将之横移到文学研究中来。整体而言,“新三论”并非“老三 论”的 替 代,而 是 对 后 者 的

① 参见陈大康:《通俗小说的历史轨迹》,长沙:湖南出版社, 1993 年,第 108 页。


② 参见丹尼·辛尼金等:《经济学、种族和美国战后小说:一部计量文学史》,《数字人文》 2020 年 4 期。
③ 参见汉斯 - 格奥尔格·加达默尔:《诠释学 Ⅰ :真理与方法———哲学诠释学的基本特征》,洪汉鼎译,北京:商务印 书
2010 年,第 241、
馆, 247、
247 页。
128 华中师范大学学报(人文社会科学版) 第 62 卷

补充和延展,“老”“新”三论均非 一 般 意 义 上 的 自 然 科 学 学 科,而 是 其 中 的“横 向 科 学”① ,在 科 技 哲 学 或 者


科技观念的层面对人文社科研究产生影响和启迪。因此,与其说是“方法论热”不如说是“科学观念热”。
“方法论热”在文论和美学领域产生影响。1986 年,黄海澄所著的《美学原理》的副标题即是“系统论、
控制论和信息论”,在书中黄海澄明确提出“老三论”是本书重要理论参考 ② 。黄海澄本人曾言:“本书主体
部分的初稿写于 1980 年秋冬”,这意味着“三论”早在改革开放之初就产生影响,并且不是文学简单地受到
哲学影响,而是文学与哲学几乎同步受到“三论”的影响。那么,为什么 1985 年到 1986 年是方法论研究的
爆发之年? 对此,黄海澄在书中直言:“现在学术气氛变了”。所以,“方法论热”其 实 不 仅 是 指 发 生 在 某 个
特定年份的事件,它的影响贯穿了整个 1980 年代这一时段。黄海澄的《美 学 原 理》共 十 五 章,与 控 制 论 直
接相关的就有八章;其他章节偶有涉及系统论,而信息论则被放在附录中。因而,此书与其命名为“三论美
学”,不如命名为“控制论美学”。这一现象也证明“老三论”对文论和美学的 影 响 并 不 是 等 价 的。其 中,系
统论具有研究的指导性意义,即它更多体现在“原则”“思维”“起点”等宏观方面;控制论具有研究的实践性
意义,即能够具体落实到美学和文论的中观层面,与具体问题结合起来;信息论具有研究的认识论意义,即
能够将文学文本转化为信息,引入编码/解码、输入/输出、处理、反馈等认识的微观过程并描述出来。黄海
澄的美学研究偏重的则是中观层面的“控制论”。因此,“三论”对美学和文论的影响是复杂且多样的,不同
学者各取所需,其运用侧重于思想启迪、概念平移、现象类比和观点印证等。
“三论”同样影响了文学批评。在《新方法论与文学探索》(下文简称为《新 方 法 论》)一 书 的 序 言 中,徐
中玉提出了几个重要观点:一是实现文学研究方法多样化的一个途径是通过“移植”“交 融”和 边 缘 科 学 的
研究,突破既有学科的边界和思想束缚。这是 1980 年代思想解放的重 要 体 现,且 与 当 下 对 将 其 他 学 科 的
概念平移到文学研究中基本上持反思性态度不同。第二是徐中玉认为,文艺理论不仅应该与社会学、心理
学、美学、哲学等学科融合,不仅应该从“三论”中汲取营养,而且还应该在弄 懂 真 相 的 基 础 上,大 胆 吸 收 改
造外国一切文艺理论研究的新方 法、新 观 点 ③ 。可 以 说,徐 中 玉 所 著 的 序 言 包 含 了 极 大 的 解 放 思 想、打 破
一切思想束缚的热情。从内容上而言,《新方法论》不仅关注了“新”“老”三论,同时还包括其他科学理论和
西方文论思潮,如“测不准原理”“形式美与形式主义”“怪诞艺术”等。因而,从中 观 层 面 来 看,文 学 研 究 中
的“方法论热”不限于“老三论”“新三论”,还涉及对社会科学诸理论、西方文论诸思 潮、现 代 主 义 诸 流 派 的
广泛借鉴。所谓的“方法论热”,其实 就 是“西 学 新 潮”在 文 学 研 究 方 法 上 的 反 映。 而 “移 植”“交 融”“跨 学
科”“学科交叉”具有研究方法的思想解放意义。因此,“三论”对文论和美学的影 响 需 要 将 之 放 在 80 年 代
学术思想潮流的“整体”中进行系统考察。
如今,人工智能时代终于来临。近几年来,几乎每年都有新的技 术 创 新 被 赋 予 革 命 性 意 义,并 随 即 引
起广泛社会关注。例如 2016 年被称 为 AR、
VR 元 年,
2021 年 被 称 为“元 宇 宙”元 年 等。 麦 克 卢 汉 早 就 预
言:“在电力时代,我们的中枢神经系统靠技术得到了延伸。它既使我们和全人类密切相关,又使全人类包
容于我们身上。”④ 在电力时代之前,虽 然 有 车 轮 替 代 脚、筷 子 替 代 手 指,但 这 些 媒 介 的“身 体 延 伸”并 没 有
产生革命性的影响。但由于数字技术、数字新媒体实现的是对人的中枢神经系统的延伸,它所带来的影响
Ka
无疑是巨大的。对此,凯瑟琳·海勒( t
her
ineHay
les)也提出“为什么计算媒介不仅仅是另一种技术”的
问题 ⑤ 。在计算机背后,更重要的是它 所 包 含 的 逻 辑,这 在 人 的 思 维、人 与 机 器 以 及“它 者”的 关 系 的 研 究
领域产生了全新的理论以及全新的问题。因而,控制论最核心的内容其实是 对 人 与 物 之 间 的 信 息 反 馈 系
统的界定。控制论所 强 调 的,是 依 靠 信 息 的 反 馈 和 执 行 来 完 成 任 务,而 这 也 是 人 工 智 能 的 核 心 内 涵 所
在———机械自动化。根据凯瑟琳·海勒的描述,目前控制论技术已经进入第三阶段,它已超越自然科学内
部,被广泛引入到社会文化研究中 ⑥ 。正是在此基础上,控制论与人工智能时代给当代文论和美学研究带
来了一系列新的议题,如“后人类”思潮(如主体、身体以及人机关系)、“技术主义”思 潮(如 对 技 术、时 间 与

① 冯契:《哲学大辞典》(修订本),上海:上海辞书出版社, 2001 年,第 532 页。


② 参见黄海澄:《美学原理》,长沙:湖南人民出版社,1986 年。
③ 参见中国文艺理论学会《文艺理论研究》编辑部选编:《新方法论与文学探索》,长沙:湖南文艺出版社, 1985 年。
④ 马歇尔·麦克卢汉:《理解媒介:论人的延伸》,何道宽译,南京:译林出版社, 2019 年,第 30 页。
⑤ 凯瑟琳·海勒:《我们何以成为后人类》,刘宇清译,北京:北京师范大学出版社, 2017 年,第 158 页。
⑥ 参见凯瑟琳·海勒:《我们何以成为后人类》,第 9 页。
第5期 曾 军:算法阐释:人工智能时代的文论问题 129

未来图景的关注)、“神经美学”(如审美认知、认知诗学等)等。
AI生成”问题其实早就受到了文论学者的关注。与人
回顾“方法论热”这段历史演变不难发现,当前“
工智能相关的控制论、信息论等不仅成为“方法论热”中的科学哲学的理论基础和思想来源,而且已经开始
尽可能调用已有的文学和艺术资源来 实 现 将 控 制 论、信 息 论 之 中 的 诸 多 重 要 观 点、方 法 的 文 学 化 和 美 学
化。因此,“方法论热”成为当前“
AI生成”问题文 学 研 究 化 的 理 论“先 声”。而 只 有 当 计 算 机 技 术 普 及 化,
人工智能技术向“通用人工智能”阶段发展,“
AI生成”真 正 成 为 一 个 现 实 问 题 时,“算 法 阐 释”才 可 能 真 正
成为文论需要关注而且是可能关注的问题。
将算法引入文学研究,进而展开算法阐释的研究有两种路径:其一 是 将 算 法 作 为 对 象,通 过 辨 析 算 法
的运行逻辑及执行过程来与文学研究的活动相比较,进而讨论以算法作为对象的阐释有何特点;其二是将
算法作为方法,通过对算法的数据处理能力的应用及其任务实现效能的评估,来为文学研究这一此前纯粹
属于精神生产领域的活动赋能,进而提高文学研究的效率。

三、可写阐释:算法作为对象的算法阐释问题

“可写阐释”,就是将算法作为对象,对算法参与下的文学阐释活 动 的 一 种 命 名。这 种 阐 释 何 以 可 能?
AI生成”算法做一个背景性的说明。
回答此问题前,需要对“
(一)首先,我们需要理解以 Cha
tGPT 为代表的算法“生成”与“转换”问题

GPT”的全称是 “生 成 式 预 训 练 转 换 模 型 ”(
Gene
rat
ivePr
e-t
rained Tr
ans
forme l)。 这 里 的
r Mode

G”(生成)、“P”(预训练)和“T”(转换)成为理解基于大语言模型的“ AI生成”特 点 的 关 键 词。具 体 来 说,
Cha
tGPT 的生成过程分为无监督学习、监督 学 习 和 强 化 学 习 三 个 阶 段。 在 无 监 督 学 习 阶 段,程 序 员 利 用
转换器( t
rans
fo r)建立大语言模型。这个模型最初只是一个未经训练的数 据 结 构 模 型。之 后,程 序 员
rme
将收集到的所有相关文本信息全部“投喂”给此模型,同时只输入一些最基本的规则,让该模型自己对信息
进行处理和学习。继而再由人来对数据 模 型 中 所 包 含 的 词 进 行 向 量 分 布,确 定 词 与 词 之 间 的 关 系,形 成
“词向量空间”。这一词向量空间所形成的结构性关系,可以被理解为是宇宙中的繁星所构成的天蝎座、仙
女座等星丛与星丛之间的关系。其次,是监督学习阶段。在这一阶段,工作人员给模型提供任务并判断模
型的任务完成度。根据评估结果,人工对相关参数进行修正,从而调整词向量空间的关系。最后是强化学
习阶段。在 这 一 阶 段,模 型 会 被 提 供 更 多 新 的 任 务,并 通 过 人 工 方 式 对 其 完 成 度 进 行 评 分。 接 着,
Cha
tGPT 会根据分数高低自动调整其人工 标 注。 经 过 以 上 三 个 阶 段 的 训 练 后,对 Cha tGPT 的 训 练 即 基
本完成。此后, Cha
tGPT 采用一套被称为“基 于 自 注 意 力 机 制 的 神 经 网 络 架 构”加 以 运 行。 通 俗 来 讲,这
一运行过程可以被视为用词语接龙的方式完成对于下一个词语的预测。
tGPT 并没有所谓的“文本数据 库”或“知 识 库”。 它 仅 包 含 一 个 数 据 模 型,其 中 又 包 含
Cha
不难发现,
着已经被训练完成的词向量空间。这个数据模型的生成终止于其结束训练的时刻,如 GPT- 3.
5 的所有数
据仅限于 2021 年。不过,到了 GPT
-4,该模型已具备联网能力,能够实现实时的数据库挖掘和反馈,其演化
速度也会飞速增加,不确定性也将更大。这也是为什么马斯克等人对未来的 GPT
-5 持担忧态度的原因。因
为在人类还没有打开算法黑箱的情况下就贸然让它快速成长,将面临人类无法驾驭人工智能的危险。
Tr
ans
forme
r大语言模型是一种经典的生 成 结 构,已 被 广 泛 地 用 于 大 语 言 模 型 的 执 行 过 程。 这 一 执
行过程可被简单地视为包含一个编码输入和解码输出的过程。在此过程中, ChatGPT 通过算法实现了对
指令的有效回复。该模型通过输入嵌入层对输入信息进行编码,并将其嵌入位置信息。进而,模型通过多
头注意机制和前馈,也即预训练系统所积累的“经验”,使用一套基于自注意机制的算法来反馈并确定其有
效性,并根据反馈赋予其不同的权重。在对所有信息反馈进行加权求和后,最终导出的标准性结果即为所
输出的内容。举例来说,假设在模型中输入“你吃”两个词,系统会调用现有 的 文 本 数 据 集,提 取 可 能 的 后
续词汇,如“饭”“菜”等。接着,模型通过编码的位置信息,即上下文语境,计 算 出 每 个 词 出 现 的 概 率,从 而
选择概率最大的词作为输出对象。
(二)将算法引入文论,需要有一个从理论想象到理论实现的过程
事实上,在 20 世纪西方文论中,已有大量理解与人工智能算法相似或相关的某些理 论 思 维。罗 兰 ·
S/Z》中提出“可写性文本”这一概念,意为 “无小说的故事性,无 诗 歌 的 诗 意,无 论 述 的 随 笔,无 风
巴特在《
130 华中师范大学学报(人文社会科学版) 第 62 卷

格的写作,无产品的生产,无结构的结构化”① 。它指的是一种被打散的结构,一种能以任何方式被重新解
构的、具有可生成性潜质的文本。在传统的纸质书籍中,文本在被印刷出来时就已经被确定了。而罗兰·
巴特尝试将文本从作品中解放出来———只有解放文本,它才能够被 拆 散 和 重 组。在 纸 质 的 书 写 文 学 的 时
代,“可写性文本”可能难以理解,但 在 今 天 的 数 字 时 代,它 就 是 现 实。 在 罗 兰 · 巴 特 发 表 了 《
S/Z》的 前 3
I
年,卡尔维诺(ta
loCa
lvno)发表了《控制论与幽灵(关于作为组合式过程的 叙 事 文 学 的 笔 记)》,开 始 思 考
i
未来的以电脑作为工具的文学创作。他构想了一种新的文本,也即由香 农、维 纳 的 信 息 论、控 制 论 所 创 造
出的“文学机器”:“今天,我们倾向于将它视为一系列断续的状态,或者数量有限(一套巨大但有限的数字)
的传感器和控制机构上面的脉冲的组合。电脑还远远不能行使人脑的所有 功 能,却 已 经 能 够 为 我 们 的 记
忆、思想上的关联、我们的想象,还有我们意识中最复杂的过程,提供一个令人信服的理论模式。……没有
任何东西禁止我们想象出这样的一台文学机器:从某个时刻开始,它不再满 足 于 自 身 的 传 统 主 义,于 是 提
出对于写作的一些新的理解,并且彻底打乱自身的所有规则”② 。卡尔维诺认为,“那才是能够与假设的理
论完全相符的文学,也就是终于成为 文 学。”③ 值 得 注 意 的 是,卡 尔 维 诺 写 出 这 篇 文 章 前 后,法 国 的 结 构 主
义正达到顶峰,后结构主义正在兴起。在法国的文化理论从结构主义向后结构主义的转向过程中,克里斯
蒂娃也提出了著名的互文性理论。卡尔维诺所探讨的“文学机器”观念与它们 构 成 了 共 鸣、呼 应 与 同 构 的
关系。
结构主义与信息论、控制论的某些思想所具有的这种同构性并非 只 是 个 案。早 在 法 国 结 构 主 义 运 动
之前,普罗普的故事形态学研究已出现了类似的理论思维。除了耳熟能详的对“功能”和“角色”的区分外,
普罗普对民间故事中“功能”与“功能”的衔接、“角色”与“角色”之间的转换以及“主题”及其意义在海量“功
能”与“角色”中的不断生成和发展的描述,极其类似人工智能算法的“映射”和“迭代”。《故事形态学》的分
析模式也与现在人工智能信息迭代的模式相似:所有的信息在不断迭代的过程中确定下一个向量的特征,
然后实现意义的生成输出。结构主义的分析方法也为我们将语言理解为一种不断生成的过程提供了想象
空间。在索绪尔结构语言学提供的 能 指 和 所 指 的 结 构 基 础 上,罗 兰 · 巴 特 增 加 了 二 级 符 号 系 统———“神
话”。按照罗兰·巴特的理解,这种“神话”不是一次性完成的,不仅仅有二 级 符 号 系 统,还 可 以 有 三 级、四
级以至于无穷的符号系统。这正是对符号及其意指实践的“生成性”的完美诠释。类似的理论在受结构主
义影响下的经典叙事学研究中也能找到典型案例。当我们论及叙事学,通 常 会 提 及 热 奈 特、托 多 罗 夫,或
者格雷马斯,但很少关注布雷蒙。在布雷蒙设计的“简单序列”模型中,所有的叙 事 都 从 基 本 的 动 力“可 能
性”开始。接着可分出可能性“变为现实/没有变成现实”,“目的达到/目的没有达到”的路径。值得注意的
是,布雷蒙叙事理论中的“可能性”也与信息论中对未来的“预期”存在相同之处。所 谓 信 息 论 中 的 不 确 定
性,也即可能性的问题———当可能性大时,确定性也就越高;当 可 能 性 小 时,不 确 定 性 也 就 越 高。因 此,将
布雷蒙的可能性叙事结构理论转化为信息学或许是一个最为简单的途径。基于“简 单 序 列”,布 雷 蒙 进 一
步总结出了各种“复合序列”及其更 为 复 杂 的 组 合 模 式;他 还 为 叙 事 循 环 设 置 了 改 善 和 恶 化 两 个 路 径,等
等。所有这些对叙事序列的描述都具有被置换为 0 和 1 的编程语言的可能。
进入 20 世纪 70 年代,随着大规模和超大规模集成电路被应用于计算机的制造,人类进入微型计算机
的新时代。计算机的应用场景也从科学计算、事务管理和过程控制逐步进入人们的日常生活,甚至走进家
庭,人们也开始尝试用计算机来从事文学艺术的创作。由此出现的新媒体艺术便具有了真正的“以算法为
对象”的艺术活动的特征。在这一时期,斯图尔特·霍尔的“编码/解码”理论 也 成 为 理 解 文 学 意 义 生 成 过
程的非常有效的理论模型。德勒兹的“块茎”思想如果仅仅被用于理解文学自 身 时 会 显 得 有 些 迂 回,但 若
将其运用于理解新媒体艺术、数字艺术以及这个时代的发展,则显现出高度的契合性。围绕新媒体时代艺
EspenAa
术的发展,也开始出现直接以算法为对象 的 文 学 研 究,例 如 阿 尔 瑟 斯( rse
th)的 遍 历 文 学 研 究 和
玛丽-劳尔·瑞安(Ma
rie
-LaueRyan)的数字叙事研究。阿尔瑟斯用“
r ergod
ic”(遍历)来描述一种随机、自

① 罗兰·巴特:《 S/Z》,见《罗兰·巴特随笔选》,怀宇译,天津:百花文艺出版社,
2005 年,第 155 页。
② 伊塔洛·卡尔维诺:《控制论与幽灵(关于作为组合式过程的叙事文学的笔记)》,见《文学机器》,魏怡译,南京:译 林
出版社,2018 年,第 257 页。
③ 伊塔洛·卡尔维诺:《控制论与幽灵(关于作为组合式过程的叙事文学的笔记)》,见《文学机器》,第 267 页。
第5期 曾 军:算法阐释:人工智能时代的文论问题 131

动、非简单重复的生成性文学特征。它不仅包括“基于文本的冒险游戏和自动生成故事和诗歌的程序”,而
且还可能包含“其自己的机器来操纵它自己(例如计算机程序)”的情况 ① 。不同于阿尔瑟斯对遍历文学文
本的完成性和封闭性的分析,玛丽-劳尔·瑞安 认 为 应 该“把 叙 事 学 看 作 一 项 未 完 成 的 项 目。 倘 若 说 经 典
叙事学未能通过互动文本性的检验,那也并非意味着互动文本性也未能通过叙事性的检验”② ,因此,她主
张拓展叙事研究的领域,将“数字叙事”“计算 机 叙 事”纳 入 研 究 范 围。 为 此,玛 丽-劳 尔 · 瑞 安 列 举 了 出 现
在新媒体艺术中的各种模式组合的文本———讲述式、表征 式、回 顾 式、脚 本 式、接 受 式、自 主 式、确 定 式、字
面式等。她虽然描写并命名了不同的类型,但其实并没有提供一个统一的分类标准,有的只是根据不同的
文本形态进行的命名。因此,玛丽-劳尔·瑞 安 的 新 媒 体 艺 术 的 叙 事 分 析 虽 然 很 专 业,但 并 不 很 深 刻。 不
过,瑞安确实已经将数字时代的叙事学理论往前推进了一大步,尤其是她在《故事的变身》中提出的互动性
类型分析框架,将用户的参与纳入到叙事分析中,为互动叙事这一重要 问 题 提 供 了 基 础。除 此 之 外,列 夫
·马诺维奇的新媒体艺术研究也值得特别关注。在《新媒体的语言》中,马诺维奇提出了一个有趣的观点:
数据库与叙述是相互对立的,但二者开启了交互性叙述的可能性。无论是玛丽-劳尔·瑞安还是列夫·马
诺维奇,都向我们指出了从交互性理解人工智能艺术及数字叙事(更准确的说是“赛博叙事”)的重要性。
(三)在上述基础上,人工智能时代出现基于算法的“人-机互动”“可写阐释”现象
在人工智能时代的文学阐释中,人-机互动是最为核心的问题。我们不应将文学阐释简单地理解为文
本性阐释,即从作家创作、作品完成,再到读者解读的过程。人工智能对文学的影响包括文学活动的作者、
读者、文本、世界四个方面,同时也涉及文学创作和文学批评这两个层面。而人-机互动是最有助于我们理
解 AI 时代的文学阐 释、文 学 算 法 问 题 的 结 构 化 因 素。 我 们 可 以 区 分 出 四 种 人-机 互 动 关 系。 第 一,“人
[生]
-机[用]”,即人类创作,
AI评论。第二,“人-机[互生互用]”,即人提出指令,AI执行。简言之,即是将
人工智能理解为人类的一个智能助理。第三,“机-人[互生互用]”,即 AI 自主 生 成,人 成 为 被 动 参 与。第
四,“机[生]
-人[用]”,即 AI 写 作,人 类 阅 读、评 论。 到 了 这 个 阶 段,就 形 成 了 无 须 指 令 的 AI 自 主 写 作。
我们尚不能确定最后两种关系是否在未来会真的实现,但至少从理论模型上可以推导出这两种可能性。
依托这个分析框架可以进一步探讨 Cha
tGPT 的 文 本 生 成 属 于 何 种 人-机 互 动 模 式。 在 这 个 问 题 上,
玛丽-劳尔·瑞安的《故事的变身》提 供 了 一 个 新 的 解 释 方 案,她 将 人-机 互 动 的 关 系 从 两 个 维 度 分 成 了 四
种类型。一方面,瑞安区分了“外在视角”和“内在视角”。“外在视角”可以被视为“上帝视角”,即处于虚拟
世界外部,而“内在视角”指的是以化身的视角处于虚拟世界内部。例如,在 我 们 使 用 电 脑 时,我 们 外 在 地
操作电脑系统,从而是一种外在视角。而当我们玩一个电脑游戏时,我们 通 过 选 择 扮 演 某 一 游 戏 角 色,以
化身身份进入游戏的虚拟世界,从而处在内在视角。不过,目前的化身形 式 仅 限 于 角 色 扮 演 的 初 级 阶 段。
在新的阶段,如《头号玩家》、“元宇宙”的化身阶段,我们才能够真正实现内在视角,不过现在尚未实现。另
一方面,瑞安又区分了“探索互动性”和“本体互动性”。“探索互动性”指的是用户只使用虚拟世界的视角,
而不改变虚拟世界本身。“本体互动性”指的则是用户不仅使用,而且改变 了 虚 拟 世 界 的 历 史 分 岔。瑞 安
这一分析框架最大的贡献是将用户的参与纳入叙事分析。用户不再是一个被动 的 接 受 者(读 者),而 是 能
够去参与、改变、创造新的叙事的可能性的主体。但用户也并非凭空创造,而只能改变既有的文本,为其提
供呈现的可能性。这就是一种互动的过程———这是此前所有的叙事文本理论都没有触及的新问题。
在这一“内生/外生”、“探索/互动”的分析框架下,我们可以初步 做 出 以 下 判 断:当 前 的 人 机 对 话 是 人
tGPT,且 由 于 人 类 并 不 改 变 Cha
类作为用户,以外在的方式探索 Cha tGPT,其 生 成 的 内 容 也 不 会 进 行 自
我保存,因而目前的人-机互动模式可能基本还处于外在-探索互动型阶段。不过,当 GPT
-4 可以联网,可以
自我更 新 迭 代 之 后,用 瑞 安 的 理 论,它 就 可 能 由 外 在-探 索 互 动 型 演 变 为 外 在-本 体 互 动 型。 当 然,在
Ch
atGPT 自身内部存在一个生成性的过程,我们可以称之为内生性过程。这一过程也包含探索性、本体性、
外在性等方面。那么,我们可以进一步提问:未来的 Ch
atGPT 是否能够被塑形? 也就是说,未来我们是否能
够将 Cha
tGPT 装在一个机器人脑中,赋予它某种自主意识,让它能够自主控制机器身体,使其成为一个具有

① E spen Aa
rse
th,“Er
godicl
ite
rat
ure,”
in Dav
id He rman, Manfr
edJahnand Ma
rie
-Lau
re Ryan,eds.,
Rou
tledge
Encyc
lopedi
aof Narrat
iveThe
ory,New Yo k,Rou
r t
ledge,2005,p.
141.
② 瑞安:《故事的变身》,张新军译,南京:译林出版社, 2014 年,第 94 页。
132 华中师范大学学报(人文社会科学版) 第 62 卷

自主行动能力的主体? 当下,这个问题尚待验证,目前人们只能尝试去推演它的存在过程。在这一推演过程
中,玛丽-劳尔·瑞安探索新媒体叙事学的理论框架可能对理解人工智能人机互动的关系提供启示。
综合以上对 Cha
tGPT 算 法 的 理 解 以 及 西 方 文 论 所 提 供 的 各 种 理 论 资 源 的 调 用,我 们 可 以 试 图 对
Cha
tGPT 算法的进行一种理论性的描述 了。 这 一 描 述 可 以 围 绕 三 个 关 键 词 展 开:转 换 器(
trans
fo r)、
rme
预训练( pr
e-t
raned)、生成的/有生产力的(
i gene
rat
ive)。
A.转换器(
trans
fo r)。Tr
rme ans
forme
r是一种大型语言模型,这与索绪尔所描述的基于规则的语法
结构具有一定的对应性。Tr ans
former模型通 过 词 向 量 空 间 实 现 人 机 之 间 的 互 动 过 程,实 际 上 就 类 似 于
通过问答实现言语交谈,而这两种语言生成过程都在一定的规则体系下实现。Cha
tGPT-
3.5 及之前的机
器算法和编程语言是模式化、结构化 的,这 意 味 着 这 些 机 器 语 言 的 规 则 无 法 实 时 改 变。 但 是 到 了 GPT-
4
之后,这一语法结构具有了改变的可能性,具有更强的不稳定性,也就越来越 像 人 类 不 断 自 我 更 新 创 造 的
自然语言。
B.预训练(
pre
-tr
ained)。预训练可被视为一种语言习得的过程。无论是监督还是无监督的 预 训 练,
实际上都参照了人类的语言习得过 程。 在 这 一 过 程 中,我 们 将 人 类 的 各 种 日 常 语 言、经 验、先 验 知 识、常
识、前见、成规,以及语言使用和意义识别方式都灌注给了这个大语言模型。因此,大语言模型所有词向量
中的标记其实都包含了人类的经验。因此, Cha
tGPT 的预训练实质上是一个优化过程。正如艺术的熏陶
Cha
是一种学习和成长过程, tGPT 的预训练也是如此。一个可能性的结果是, Cha
tGPT 在经过预 训 练 之
Cha
后能够完成对艺术、语言、审美、价值、意义、情感等因素的表达。但是颇为吊诡的是, tGPT 没有情感、
记忆和对自我行为的理解,那么,我们该如何认识 Cha
tGPT 的这种文学性表达?
C.生成的/有生产力的( gene
rat
ive)。 当 我 们 持 续 输 入 和 输 出,
Cha
tGPT 会 不 断 生 成 新 的 内 容。 这
些内容是 Cha
tGPT 所征引的人类已有的知识,还是它创造的全新的知识? 在此,我们 可 以 暂 时 不 去 考 虑
基于传统的书面印刷文字而形成的属于知识产权范围的著作权概念。因为这一概念本身已受到了严重的
挑战。我们仅仅从“创造”“创新”“创意”的可能性角度来思考:基于 GPT 所创造出来的文 本、图 像、音 频、
视频是否不仅仅是“前未有过”的,而且还是“颇有新意”的?
综合以上观点,一个可能的结论是:以算法为对象的文学阐释,是以 经 过 优 化 的 完 成 预 训 练 的 大 型 语
言模型为语法,以“输入-编码”和“输出-解码”的问答式交互所生成的体现意图、创意和差异化的具有结构
性和可写阐释性的文本为言语的文学阐释。借用罗兰·巴特“可写性文本”的 概 念,以 算 法 为 对 象 的 文 学
阐释可以被命名为“可写阐释”。

四、总体阐释:算法作为方法的算法阐释问题

以算法作为方法的阐释即是将算法作为文学研究的辅助工具,以实现对一些简单、机械、重复、非创造
性劳动的替代。如要统计一篇短篇小说中的某个虚词数量,仅靠人工数数就可以了;但是如果要统计一部
长篇小说、甚至数以千计的宏大数据库中的虚词的数量,纯粹的人工数数就远远不够了。基于算法的词频
统计软件的发明正是为了解决这个难题。因此,以算法作为方法的阐释正是 文 学 创 作 和 文 学 研 究 发 展 到
一定阶段,为解决海量的信息处理难题而发明的辅助性方法。
“数字人文”(也称“人文计算”)便是对这一辅助性方法的命名,且已有 了 相 当 长 的 一 段 发 展 历 史。早
在 20 世纪 40 年代,人们已经开始尝试应用计算机来做文献的整理和分析了。1949 年,意大利神 父 罗 伯
特·布萨(Rober
t a)开始使用老式计算机制作出庞大的《托马斯著作索引》(该巨著直到 1980 年才编
oBus
撰完成)。60 年代,约瑟芬·迈尔斯( J
oseph
ineMi
les)在《文艺复兴、十八世纪 和 英 语 诗 歌 的 现 代 语 言:列
表视图》一书中提出了“中等距离”(mi
ddl
edi
st e)概 念。2000 年,弗 兰 克 · 莫 莱 蒂(
anc Franco Mo
ret
ti)发
表了《关于世界文学的猜想》,并于 2013 年出版《远读》,提出了著名的“远读”(
dis
tan
tre
adng)理论。中国
i
学者开始以算法为方法的研究可以从 20 世纪 80 年代开始算起。陈大康受美国威斯康星华裔学者陈炳藻
的影响,用数学方法研究中国古代小说,在文学研究中融入了数学思想方法论。1990 年代末,赵宪章也开
始用文本调查的方式,编制了一个词频软件,应用语料库对高行健的《灵山》进 行 文 本 分 析。他 还 对《美 食
家》小说中出现的由“食”组合而成 的 衍 生 词 进 行 统 计 并 得 出 分 析。 与 当 今 正 在 如 火 如 荼 展 开 的 “数 字 人
文”研究相比,这种研究方法显然十分朴素,但它基于数学和计算思维,正是以算法作为方法的文论研究的
第5期 曾 军:算法阐释:人工智能时代的文论问题 133

起点。
以算法为方法辅助人类进行文本阐释是数字人文领域已经和正 在 实 现 的 一 种 应 用。不 过,因 为 文 学
领域学者的研究还不够深入,而绝大多数开发这一技术的往往是理工科背景的学者,他们对文学的理解还
仅限于比较基本的水平,因此目前这些阐释相对还比较初级。例如,较为简短且最具形式感的诗歌成为现
在数字人文研究的热点问题之一,由此衍生出对节奏、韵律、对偶、意象、主题、情感等基础概念的考察。总
的来说,目前数字人文的研究采取的处理方法还没有达到“高智能”阶段。它 们 大 致 可 以 概 括 为 三 类。其
一,大规模的、可持续的语义分析。如傅 君 励 在《中 国 历 代 人 物 传 记 资 料 库 (
CBDB)对 历 史 网 络 的 结 构 化
处理、记录与分析》一文中,根据人物及其社会关系、社会身份、亲属关系等不同的维度,为他们打上不同的
标签,从而建立一个完整的数据库。借助该数据库,我们能够进行人物与 人 物 之 间 的 关 系 匹 配,从 而 挖 掘
有意义的问题 ① 。其二,自动化的文本分类和归档。该方法目前已在网络文学中被广泛采用,例如使用机
器识别对网络文学进行类型化区分。另外,我们也可以根据文本中的关 键 词、特 征、谓 词 等 语 言 特 征 对 文
本进行情感分析。不过这在当前的文学分析中用得还不多,主要原因是文学 在 情 感 层 面 的 循 环 分 析 过 于
复杂,而机器目前只能进行简单的正向和负向分类,并根据正向或负向赋予 不 同 的 权 重,进 而 做 出 各 种 分
析。目前来看,这方面应用比较成熟的是商业性的顾客心理的情感评价分析。其三,学习并自我完善的系
统。虽然目前网络文学中已存在大量的人工智能写作,在新闻领域人工智能写作也已成为常态,但实现学
习和自我完善的系统目前在文学阐释领域尚未出现成熟的应用。这方面较为成熟的技术包括语音识别技
术(讯飞)、图像识别技术、翻译(谷歌)、推荐算法(
TikTok)等。
传统的数字人文分析方法需要大量的人工操作。例如研究者收集大量文本数据后要对其进行人工的
预处理,即为不同信息打上标签,最后对其进行意义分析。有了人工智能 技 术 以 后,大 语 言 模 型 的 预 训 练
过程实现了对人工预处理的替代。当前以 Cha
tGPT 和“文心一言”为代表的大语言模型都 是 利 用 人 类 已
AI生成”的 能 力 与 预 训 练 的 数 据 性 质、数 据 量 有 密 切 关 系。如
有知识数据进行预训练的结果。因此,其“
果我 们 可 以 将 大 语 言 模 型 通 过 预 训 练 而 获 得 的 “词 向 量”视 为 索 绪 尔 意 义 上 的 “语 言”的 话,那 么,每 次
tGPT 和“文心一言”通过人机交互的方式实现 的 对 话 输 出 则 可 视 为“言 语”。“词 向 量”是 预 训 练 数 据
Cha
中所包含人类知识、情感、价值、意 义 的 集 成;而“人 机 对 话”则 是 依 据 特 定 的“提 示”(
pr t)而 实 现 的 概
omp
率化输出。这便是 Cha AI生成”符合人类基本认知的“正态分布”,体现出人类“均
tGPT 和“文心一言”的“
值”特点的重要原因。这一“正态分布”或“均值”是否具有创造性并不重要。因为 对 这 个 问 题 的 判 断 主 要
取决于人们对“创造性”的定义及其标准。更为重要的是,如果文学意义阐释的“正态分 布”和“均 值”的 判
断能够成立,那么,我们就有可能实现对文学意义的“总体阐释”。
“总体阐释”是由笔者在回应与张江《论阐释的有限与无限———从 π 到正态分布》引发的讨论中提出来
的。在笔者看来,“‘总体阐释’并不想回到哲学阐释学,探讨阐释的‘放之四海而皆准’的一般的、普遍的通
用的规律上去,而是想建立一种针对具体的现实的文学阐释实践的整体性 的 体 系 性 的 认 识 框 架。这 不 是
一种抽象的整体性,而是具体的整体性;这一‘总体阐释’也非‘部分阐释’‘个别阐释’的 叠 加 和 拼 凑,所 谓
‘整体大于部分之和’就是这个意思。”为此,“我们需要建立起一种有关文学阐 释 意 义 的 总 体 性 观 念”。这
种观念同时将“作者意图”“读者阐释”“意思”“意念”甚至“道听途说”等各种因素包括 其 中。进 而,我 们 就
有可能实现对一个时期(时代)某个作家、作品或文学现象的总体认知。基于这一总体认知,我们便能判断
其中存在哪些“共识”,包含哪 些“歧 见”? “共 识”与“歧 见”之 间 是 否 具 有 可 通 约、可 转 换 的 可 能? 等 等 ② 。
“总体阐释”的根本特点就是以“数字人文”(“人文计算”)这些以算法作为方法的辅助性工具突破个人的大
脑对信息的处理能力,帮助人们在更大的数据量(海量数据)、更大的时空尺度(长 时 段、全 球 或 世 界)中 展
开文学研究。在研究对象上,“总体阐释”可 以 包 括 接 受 史、鉴 赏 史、批 评 史、研 究 史 等 在 内 的 文 学 的 阐 释
史;在研究方法上,则是基于数字人文方法的对文学阐释的情感、叙 事、形 式 及 其 意 义 的 均 值、方 差、分 布、
偏态的大数据分析。根据“总体阐释”的意义分布,进而能够测绘出不同的 历 史 维 度,从 而 去 解 决 文 学 史、
文学意义的阐释过程,分析不同时期文学阐释的共识和意义,把握它的主导 倾 向 和 影 响 因 素,从 而 为 总 体

① 参见傅君励:《中国历代人物传记资料库(
CBDB)对历史网络的结构化处理、记录与分析》,
《数字人文》 2022 年 1 期。
② 参见曾军:《总体阐释的量化分析是否可能———对南帆教授一文的延伸讨论》,《探索与争鸣》2020 年 3 期。
134 华中师范大学学报(人文社会科学版) 第 62 卷

文学的研究提供某种可能。这也便是莫莱蒂在试图重新理解和建构关于“世界文学”的想象时,倡导以“远
读”作为方法的重要原因。
综上所述,人工智能时代对文学研究带来了冲击与挑战。这既包括对传统文学研究方法中的“非创造
性活动”(如检索、校对、查询、统计,甚至是部分创作意图和学术思想的文字表述)替代,还包括计算机编程
语言的“算法”成为文学研究的一个问题。算法的核心是“生成性”,从而使“可写阐释”成为可能;以算法为
方法辅助文学研究的数字人文研究在 实 现 人 工 智 能 技 术 的 升 级 之 后,也 使 得 推 进 以 文 学 意 义 的 “正 态 分
布”和“均值”为特点的“总体阐释”的文学研究成为可能。

责任编辑 王雪松

Al
gori
thmicI
nte
rpre
tat
ion
AL
ite
rar
yPr
oblemintheAgeofArt
ifi
cia
lIn
tel
lienc
g e
ZengJun
Co
llegeo
fLi
ber
alAr
ts Shangha
iUn
ive
rsi
ty Shangha
i200444

Ab
str
act Theb
igl
anguagemode
lsr
epr
esen
tedbyCha
tGPTand Wenx
iny
iyanshowt
he
r
gea
tpo
ten
tia
lof􀆵AIgene
rat
ion Compu
tingt
hrougha
lgo
rit
hmsi
sthef
undamen
tal
d
iff
erenc
ebe
twe
enc
ompu
terp
rog
rammi
ngl
anguage
sandna
tur
alhumanl
anguage
s and
i
tisanimpo
rtan
tdimens
ioni
nunde
rst
and
ing AI I
ntr
oduc
inga
lgo
rit
hmsi
ntol
ite
rar
y
s
tud
iesr
equ
ire
s ont
heonehand anunde
rst
and
ingo
fthel
ogi
cbeh
indt
hea
lgo
rit
hms
andont
heo
the
rhand anunde
rst
and
ingo
fthepr
oce
sso
fcon
tinuous􀆵d
igi
tiz
ati
on o
f
l
ite
rar
yst
udi
esi
tse
lf L
ite
rar
yst
udi
esha
slongbe
enconc
erned wi
tha
lgo
rit
hm-
rel
ated
i
ssue
s The􀆵me
thodo
logyf
eve
roft
he1980sno
ton
lyt
ookcybe
rne
tic
sandi
nfo
rma
tion
t
heo
ryr
ela
tedt
o AIa
simpo
rtan
tsc
ien
tif
icf
ounda
tionsandsour
ceso
fide
as bu
tal
so
begant
oinc
orpo
rat
eex
ist
ingl
ite
rar
y anda
rti
sti
cre
sour
cesa
s mucha
s pos
sib
le i
n
a
ttemp
ttor
eal
izet
hel
ite
rar
yanda
est
het
icappr
opr
iat
iono
fthei
dea
sandme
thodso
fthe
􀆵t
hre
etheo
rie
s wh
ich cons
tit
uted t
he t
heo
ret
ica
l 􀆵pr
ecu
rso
r o
fin
troduc
ing
a
lgo
rit
hmst
oli
ter
arys
tud
ies The
rea
retwoappr
oache
stos
tudyt
hei
nte
rpr
eta
tiono
f
a
lgo
rit
hm Onei
stot
aket
hea
lgo
rit
hma
sanob
jec
tandc
ompa
ret
heope
rat
ionl
ogi
cand
exe
cut
ionp
roc
esso
fthea
lgo
rit
hm wi
tht
hea
cti
vit
ieso
fli
ter
aryc
rea
tionandl
ite
rar
y
r
ese
arch andt
hend
iscus
sthecha
rac
ter
ist
icso
fthei
nte
rpr
eta
tiono
fthea
lgo
rit
hma
san
ob
jec
t Ba
sedont
her
ela
tedt
heo
ret
ica
lth
ink
ingo
fWe
ste
rnl
ite
rar
ytheo
rie
sint
he20
th
c
ent
ury t
hei
nte
rpr
eta
tion o
fal
gor
ithmsa
sob
jec
tsc
an be nameda
sthe􀆵wr
itab
le
i
nte
rpr
eta
tion o
f􀆵human
-compu
teri
nte
rac
tion The s
econd appr
oachi
stot
ake
a
lgo
rit
hmsa
sa me
thodt
oempowe
rli
ter
aryc
rea
tionandl
ite
rar
yre
sea
rch ana
cti
vit
y
t
hatwa
spr
evi
ous
lypur
elyi
nther
ealmo
fsp
iri
tua
lpr
oduc
tion t
hrought
heapp
lic
ati
on
o
ftheda
tapr
oce
ssi
ngab
ili
tyo
fthea
lgo
rit
hmsandt
heeva
lua
tiono
fit
sef
fec
tivene
ssi
n
r
eal
izi
ngt
hei
rta
sks s
oast
oimp
rovet
hee
ffe
cti
vene
sso
fli
ter
aryc
rea
tionandr
ese
arch
􀆵Di
git
al human
iti
es o
r 􀆵human
ist
ic compu
ting i
sthe name g
iven t
oth
is
comp
lemen
tar
yapp
roa
ch wh
ichha
sbe
eni
ndeve
lopmen
tfo
rne
arl
y90ye
arsI
ntheage
o
far
tif
ici
ali
nte
lli
genc
e t
hes
tudy o
fli
ter
atur
eha
sthe po
ten
tia
ltor
eal
ize􀆵ove
ral
l
i
nte
rpr
eta
tion o
fli
ter
ary me
ani
ng
Ke
ywo
rdst
hee
rao
far
tif
ici
ali
nte
lli
genc
e AIgene
rat
ion i
nte
rpr
eta
tiono
fal
gor
ithms
wr
itab
lei
nte
rpr
eta
tion ove
ral
lin
ter
pre
tat
ion

You might also like