生成式人工智能的著作权困境... hatGPT和文心一言为例郑飞-1

科技与法律（中英文） 2023 年第 5 期总第 17 期
SCIENCE TECHNOLOGY AND LAW（CHINESE-ENGLISH VERSION）
DOI:10.19685/j.cnki.cn11‐2922/n.2023.05.009
生成式人工智能的著作权困境与制度应对
——以 ChatGPT 和文心一言为例
郑飞 1，夏晨斌 2
（1. 北京交通大学法学院，北京 100044；2. 耀时跨境数据合规研究院，南京 210019）
摘要：ChatGPT 和文心一言不仅实现了自然语言处理的多任务、多功能集成式变革，还带来了模型“输入端”学习数据“指
数化”和“输出端”内容生成“拟人化”的新趋势。基于此，新一代大规模语言模型“输入端”面临着预训练学习难以纳入合理
“输出端”则面临着生成内容不具有可版权性的版权荒漠困境。为顺应生成式 AI 的技术演进趋势，激
使用的版权壁垒困境。
励技术创新和智能创作，宜基于“宽进宽出”原则分别从“输入”和“输出”两端调整著作权规制。一是打破封闭式立法的“合
理使用”制度架构，构造义务规则下的“选择退出”机制。二是构建“法人视为作者，版权归于法人”—“AI 视为作者，版权归
于法人”—“AI 即为作者，版权归于 AI”的渐进式、纵深式版权主体权利归属机制。三是消除“作品”的价值评价维度，构建客
观性审查。
关键词：生成式人工智能；ChatGPT；文心一言；版权壁垒；可版权性
中图分类号：D 923 文献标志码：A 文章编号：2096⁃9783（2023）05⁃0086⁃11
意义。所谓自然语言处理，即机器理解和运用人类语
一、新一代大规模语言模型的技术言的过程[3]。17 世纪哲学家莱布尼茨在跨语言交流
原理与特征的“摧毁巴别塔”构想中提出了“普遍代数学”和“普遍
字符”概念。随后阐述了基于数学、语言学、字符学、
（一）新一代大规模语言模型的技术原理密码学的自然语言处理哲学方法[4]。囿于时代限制，
曾有学者预言“AI 苏醒，并不存在不可逾越的天这一思想直到 1950 年基于人机对话的“图灵测试”理
花板”[1]3。从新一代大规模语言模型（Large Language 论提出后才走下哲学神坛，成为指导现实的技术
Model，LLM，以下简称大模型）雨后春笋般的产业态理论[5]。
势来看，人类确实大踏步走在“逾越天花板”的路上。随着计算机硬件和机器学习算法的迭代发展，基
Open AI 开发的 ChatGPT 实现了单模态下自然语言处于人工智能技术的自然语言处理逐渐成为主流。但
理的多任务高效集成。GPT-4 和百度文心一言则突是卷积神经、循环神经的“千层饼”构造使得传统神经
破了单模态限制，实现了大模型对文本、图像、语音、网络语言模型构造复杂且效率低下，而且语言模型与
视频等理解生成的多功能集成。新一代大模型在自任务模型之间存在一一对应关系，无法做到一个模型
然语言理解和反馈上展现出革命性进步和极高的处处理多种任务[6]。2017 年谷歌的基于自注意力机制
“ChatGPT+”模式更被认为将在全社会各领
理水准。的 Transformer 模型极大改善了模型任务用途单一问
域掀起一场智能化浪潮[2]。题，并极大提升了输出语句的情感表达准确性[7]。
热问题还需冷思考。拨开技术迷雾，祛魅智能面 2018 年，OpenAI 公司在 Transformer 的基础上开发了
纱，才能见新一代大模型真身，探生成式 AI 法理。生成式预训练 Transformer（Generative Pre-Trained
ChatGPT 和文心一言的出现对于自然语言处理技术 Transformer，GPT）。随后 OpenAI 又在 GPT 的基础上
（Natural Language Processing，NLP）发展具有里程碑迭代了 GPT-2、GPT-3、GPT-3.5、ChatGPT 和 GPT-4。
基金项目：证据科学教育部重点实验室开放基金项目“大数据背景下的证据法理论创新研究”
（2021KFKT02）
作者简介：郑飞（1985—），男，北京人，副教授，法学博士，副院长，研究方向：人工智能法学；
夏晨斌（1995—），男，江西赣州人，研究员，硕士研究生，研究方向：人工智能法学。
- 86 -
郑飞夏晨斌生成式人工智能的著作权困境与制度应对
百度也在此技术思路下开发了文心（ERNIE3.0 Titan）大模型研究来看，

在指示学习模式下，
数据量与模型输
大模型。出准确性呈现正相关。这意味着学习数据规模越大，
GPT 和文心都是采用预训练技术的大模型，而模型对自然语言的理解与模仿效果就越好。大模型
ChatGPT 和文心一言是最具技术颠覆性的一代。相的开发也会不断追求更大的参数和数据量。
较于以往几代预训练大模型，ChatGPT 和文心一言除 2. 输出端：生成内容“拟人”化
了使用超大规模语料数据进行训练外，还通过人工标相较于传统的大规模语言模型，ChatGPT 和文心
注的指示学习和近端策略优化学习大幅提升了学习一言在语言生成上展现出高度智能化色彩，
具有强
“拟
实效。其中指示学习（Instruct Learning）通过专业人
[8]
人”
化特征。具体来说，
一是展现出了一定的自我认知
员进行人工标注的方法为基础预训练模型给出高质能力。例如，ChatGPT 在遇到专业问题提问时会主动
量答案范式，帮助其理解人类各类语言指令的内涵与承认自身知识水平的有限性。在《时代周刊》与 ChatG‐
意图。强化学习则为 ChatGPT 和文心一言输出高度
[9]
PT 的访谈中，ChatGPT 对记者关于语言模型的局限性
拟人的文本提供技术支持。在强化学习阶段，Chat‐ 的提问回答道：
“是的，像我这样的大型语言模型有很
GPT 和文心一言首先采用来自人类反馈的学习方式多局限性”。二是展现出了一定的自我反思能力。例
（Reinforcement Learning from Human Feedback，RL‐ ChatGPT 会主动承认错误，
如，并对用户指出的错误和
HF）进行反馈判断训练。该阶段同样通过人工标注意见进行判断、
采纳、
吸收和优化。三是展现出了一定
的方式，对预训练模型生成的不同文本答案进行排序 ChatGPT 会对错误提问进行质疑。
的质疑能力。例如，
标注，并按照排序结果训练奖励模型（Reward Mode，在访谈中，ChatGPT 对记者关于意识的提问提出了质
RM）。随后，奖励模型会按照标注习惯对预训练模型疑：
“不，说我有知觉或意识是不准确的。”四是展现出
的后续生成文本质量进行判断，从而控制预训练模型了一定的思维推理能力。例如，ChatGPT 允许任意任
的文本生成并使其符合人类习惯。例如，ChatGPT [10]
务模式的自然语言输入，并能结合上下文对语言任务
在奖励模型训练过程中聘用了 40 名专业技术人员进 ChatG‐
开展多轮语言对话[14]。在访谈最后，
进行回答，
行标注工作,使得 ChatGPT 的对话内容更加像人类。 PT 对记者关于前述问答的真实性提问时回答道：
“你
最后采用近端策略优化学习（Proximal Policy Optimi‐ 不应该把我所说的都当成真实和准确的。在做任何
zation，PPO）对大模型进行迭代训练，通过迭代修正重要决定或采取任何行动之前，运用自己的判断和常
[11]
的方式，使输出文本不断优化。识核实多方信息，
才是重要的。
”
（二）新一代大规模语言模型的“两端” 二、新一代大规模语言模型面临的
特征
著作权困境
1. 输入端：训练数据“海量”化
从大模型发展历程来看，其输入端呈现出显著的如前所述，以 ChatGPT 和文心一言为代表的大模
训练数据规模“海量”化特点[12]。例如，第一代 GPT 的型在自然语言处理过程的输出与输入两端展现出颠
预训练参数量为 1.11 亿，数据量仅为 5 GB。GPT-2 的覆式的变化。一是输入端的训练数据规模空前“海量
预训练参数量为 15 亿，数据量为 40 GB。相较于第一化”；二是输出端的语言文本高度“拟人”化。大模型
代 GPT，GPT-2 参数量增长了近 15 倍，数据量增长了两端的颠覆式变化同时带来了相应的著作权难题。
近 8 倍。如果说 GPT-1 到 GPT-2 的规模增量只是倍一是规模化数据使用难以纳入合理使用范畴的难题；
数级，那么 GPT-3 的诞生则直接将这一规模增量拉升二是拟人化生成内容不具有可版权性的难题。
到了指数级。GPT-3 的预训练参数量达到了 1 750 （一）输入端困境：训练数据的合理使用

亿，数据量达 45 TB，无论是参数量还是数据量都达到难题
了海量规模。其中，参数量增长了近 117 倍，数据量
[13]
1. 合理使用难以涵盖为训练挖掘使用作品数据
则增长了 1 152 倍。百度开发的文心一言更是包含了的行为
2 600 亿个参数，冠绝中国乃至全球。此外，从以往的《中华人民共和国著作权法》
（以下简称《著作权
- 87 -
法》）第二十四条第十三款新增了合理使用的兜底条 “少数服从多数”的方式认定。这就使得为训练挖掘
款，在原《著作权法》十二项合理使用的基础上新增了使用作品数据即便可以解释进“正常使用”的文义射
“法律、行政法规规定的其他情形”。对于这一兜底条程，并在“转换性使用”理论和“市场中心”理论中具有
款的认识，学界分为三大流派：一是半封闭论，认为第合理正当性，但是依然不能在司法活动中基于“三步
十三款在立法模式上属于封闭式立法，但在司法活动检验法”解释为合理使用。
[15]
上存在突破空间。二是全封闭论，认为第十三款完 2. 缺乏合理使用适用空间的作品数据挖掘使用
全倒回了传统的封闭式立法模式上，并评价其为“貌行为面临版权壁垒困境
[16]
似开放，实则封闭” 。三是对立统一论，认为第十三针对新一代大模型而言，大规模数据训练是模型
款在立法模式上具有封闭性，但在合理使用的立法本搭建与效果产出的刚需。因此，大规模作品数据使用
[17]
身上留下了开放空间。尽管上述三者在第十三款刚需与著作权保护之间存在天然张力。而大模型生
的封闭性认识上存在差异，但都认为其立法模式属于成所需的作品数据挖掘使用无法纳入合理使用之中，
封闭式。事实上，第十三款是《著作权法》修订时立法所以，挖掘使用行为必须获得版权方的授权。以
开放与司法开放争论的妥协产物。这一妥协结果就 GPT-3 为例，其训练数据主要来自维基百科（Wikipe‐
是将合理使用解释的开放性留给了立法者，而把封闭 dia）、书籍（Books）、期刊（Journals）、Reddit 社交新闻
性留给了司法者。这意味着司法者在第二十四条列站点、Common Crawl 和其他数据集[21]。其中 Common
举的具体情形外解释适用合理解释或司法创设新情 Crawl、维基百科等开源免费，对其文本数据的使用一
形的空间被牢牢限制。因此，从法律规定的角度来般不需要获得特别授权。但是书籍、期刊和网络新闻
看，为训练大模型挖掘使用作品数据的行为不属于合文章只要其还在版权保护期内，毫无疑问需要版权方
理使用范畴。其难以解释入兜底条款之中，也无法适授权甚至付费使用。而超大规模的书籍、期刊和网络
用关于研发合理使用的第二十四条第一款和第六款。新闻文章文本数据的使用将不可避免地面对“版权壁
因为大模型训练不属于个人行为，主体不属于大专院垒”问题。
“版权壁垒”问题由来已久，且与大规模作品
校、科研院所，训练所需使用的数据量也显著不满足使用似乎是一对“双生子”。2004 年，Google 启动了人
少量要求。类历史上规模最大的数字图书馆计划，计划通过扫描
此外，在我国司法活动中，司法者对合理使用的成千上万册图书将海量书籍知识数字化。然而，这场
认定虽然具有灵活性，但是合理使用的司法解释仍须理想远大的知识工程却在世界各国版权方的口诛笔
遵循“三步检验法”之限制。从法律适用角度来看，伐中变成了苦难行军。2011 年，美国第二巡回上诉
“三步检验法”首先要求其适用于“特定且特殊情形法院驳回了 Google 的图书和解协议，历时 7 年的“版
下”，其次应符合“正常使用”，最后“应不得不合理损权战争”以 Google 功亏一篑告终[22]。
害著作权人合法利益”。但是从立法目的来说，
“三步海量的数据使用意味着需要获取海量的版权主
检验法”作为《伯尔尼公约》的宣示条款，旨在为各国体授权并承担天价的交易成本。针对大规模授权问
立法做出原则化指示，而无统一明确法律内涵之目题，Google 曾在图书和解协议中提出了“ 选择退出
的。因此，
“ 三步检验法”的三要件缺乏明确、细致可 (opt-out)”规则。
“ 选择退出”规则是一种先使用、先付
[18]
直接适用的法定内核。目前，国内学者多认为“特费，授权后置的“默示授权”规则。该模式允许使用人
定”
“特殊”的指代情形以《著作权法》第二十四条所列在正常支付版权费用的前提下先行使用版权文本，但
举的情形作为特定法源，对于“特定”
“特殊”的理解适版权人有退出选择权。当版权人告知使用人不同意
[19]
用，司法者只能“找法”不能“造法” 。此外，对于“三使用意图后，使用人应当停止使用[23]。不幸的是，包
步检验法”三大要件的适用顺序和相互关系也有学者含这一模式的图书馆和解协议最终被裁定驳回，未能
[20]
提出了“递进累积关系论” 。因此，对于“正当使用” 经由英美法系的判例法制度成为一项法定模式。此
和“不得不合理损害著作权人合法利益”的理解与适外，
“ 选择退出”模式也违反了版权授权的一般惯例。
用不得脱离“特定且特殊情形”的底层逻辑限定，不得以我国为例，
《著作权法》第二十六条明确了以订立合
进行先行判断或者独立判断，也不可以相对独立地以同形式的许可使用规则。该规则实际上暗含了版权
- 88 -
使用的授权前置要求。我国学界在研究 Google 数字或有限主体资格说普遍认为，生物特征或生理结构从

图书馆案例时也认为“选择退出”规则的退出后置做来不是民事法律主体资格的判断依据[27]，且“人类中
法违反了版权授权的国际惯例[22]。心主义”本身具有不合理性[28]。因此，只要人工智能
由于版权使用问题上缺少“默示授权”规则，在面体拥有人类智慧特征，具有自主性，能够自我运行、自
对海量版权授权时，版权实际上如同一道壁垒摆在使我学习、推理结果并做出合理决策，它就能够拥有主
用者面前。且不说面对海量版权主体进行单独授权体资格或至少拥有有限主体资格[29]。从其论述来看，
所需消耗的人力成本与时间成本，单就交易成本而言人工智能体主体资格肯定说或有限资格说具有合理
都是难以估量的。而高交易成本会显著降低协议达性且完全能够自洽，但其唯一的缺点是陷入了“科幻
成效率，甚至可能遭到权利人的劫持谈判策略损害。论证”的窠臼。
“ 拥有人类智慧”
“ 强自主”
“ 类人推理”
此外，资本的逐利性会驱使使用者最大限度绕开壁等特征显然不符合当前人工智能发展水平，这一描述
垒，减少交易成本，造成侵权风险。GPT 大规模语言更符合“强人工智能”阶段的人工智能体。
模型本身具有算法黑箱属性，当前 Open AI 并未公布首先，大模型不具备“类人智慧”，前文已经详细
所有文本数据授权，且种种证据表明 Open AI 存在未阐释了大模型的生成原理。其“拟人”化的生成内容
[24]
授权先使用的风险。完全是价值模型的控制结果。不重复的对话内容完
（二）输出端困境：生成内容的可版权性全是随机输出的机制作用。大模型的“智慧”表象仅
难题仅是一个被精巧设计过的工具，与“类人智慧”有着云
在大模型生成活动中，信息首先被转化为数据用泥之别。其次，新一代大模型的学习生成过程仍然依
以大模型训练，随后数据作为一种暂存态用以机器学赖人类监督。其语言风格及文本输出结果的准确性
习，最后通过机器学习再将数据重组为信息文本用以完全依赖于人类的训练素材选择和数据标注。从素
输出。在信息文本转化的输入阶段，大模型面临着大材选择到数据标注，每一步都是人为主动介入的结
数据来源的版权合法性问题。在机器学习阶段，数据果，而非自主意识做出的。换言之，模型从第一步学
的暂存态与《著作权法》中复制行为的稳定持久态相习素材选择开始就不具有完全的强自主性。最后，新
抵触，因此该阶段通常不存在显著的著作权法律困一代大模型在创作过程中的根本推理逻辑是数学推
境。需要进一步讨论的是，作为数据形式存在的输出理，其创作过程是对高价值语句的判断与输出。尽管
文本是不是“作品”，即是否具有可版权性。数学可能是艺术，但艺术绝对不是数学。人类对文学
1. 新一代大规模语言模型版权主体不适格艺术创作的逻辑推导不是理性的数学判断，而是感性
无论是大陆法系还是英美法系均对“作者”作了的美学判断。因此，新一代大模型在艺术创作领域完
人类限定。例如，
《德国著作权法》严格恪守“创作者全不具备“类人推理”。
为作者原则”，作者只能是自然人[25]。又如，美国版权 2. 新一代大规模语言模型生成内容不具有一定
局在最新版权登记指南中再次重申了“作者”的自然的思想和情感表达
人属性①。我国现行《著作权法》虽然采纳了“视为作 “思想与表达二分法”是识别版权客体的重要基
者”规则，而未明确“作者”的自然人属性，但对“作者” 本原则之一。1994 年世界贸易组织《知识产权协定》
依然有主体资格要求。无论当前学术界对人工智能明确“版权延及表达，而不延及思想”，1996 年世界知
体的主体资格有何争议，都无法影响新一代大模型在识产权组织《版权公约》则规定著作权不保护纯粹的
现有技术环境下不具有主体资格这一事实。过于关思维活动②。基于“思想与表达二分法”的共识，法律
注抽象语境以及未来不确定的科学技术，只会让法学含义下的“二分”即思想不受保护而表达受到保护。
研究走上科幻歧路[26]。人工智能体主体资格肯定说但是从语义学层面理解，思想与表达难以二分，因为
① Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, U.S. Copyright Office, Library
of Congress (March 16, 2023), https://www.govinfo.gov/content/pkg/FR-2023-03-16/pdf/2023-05321.pdf.
②《知识产权协定》第 9 条第 2 款和《版权公约》第 1 条。
- 89 -
思想是表达的内在基础，表达是思想的外在表现，脱问题”中，语言模型被假设为一个坐在放有中英对照
离思想的表达真实存在吗？一种可行的路径是跳出语法规则和对照词典中的英语使用者。英语使用者
语义层思维，而“将其理解为著作权法中受保护的部只是遵照规则和词汇匹配将英语短句重组为中文短
[30]
分与不受保护的部分的隐喻” 。因此，
“思想与表达句，其既不认识每个中文词汇的意思，也不理解所表
二分原则”依然具有著作权保护层面的法律合理性。达句子的内涵[31]。其次就批判而言，新一代大模型虽
综合其语义关系和隐喻关系来看，受保护之客体为经然展现出了人类独有的质疑、认错、更正等类人批判
由思想产生的表达，而非单纯割裂于思想的“表达”。思维，但其只具有类人批判思维的形，而不具有类人
进而，就新一代大模型的“思想”与“表达”判断而言需批判思维的实。从原理上看，质疑、认错、更正等仅是
要讨论以下两个问题。问题 1：何为“思想”，以及学基于人类反馈的强化学习技术实现的对人类智慧活
习活动是否属于“思想”范畴？问题 2：何为表达，以动的形式模仿，是一种对人类批判认识规律的逆向工
及生成活动是不是基于思想的“表达”？程表现，而非对错误的反思。最后，不存在对认识的
“思想”一词在《著作权法》中被提及却未有一个批判，自然也不存在对批判的批判。由于“思想/表达
明确的定义。思想与表达二分原则最早来源于美国二分原则”仅是一种隐喻，因此不具有思想前提也没
1976 年《著作权法》第 102 条（b）款，该款中对思想一有必要再讨论表达之结果。
词的表述是“idea”，随后 TRIPs 协议第 9 条第 2 款和 3. 新一代大规模语言模型生成内容不具有独
WIPO 版权条约第 2 条都使用了“idea”一词。从 ③
创性
“idea”一词的判例法来源看，该词来源于美国联邦最我国《著作权法》中的独创性包含“独”和“创”两
④
高法院贝克诉塞尔登侵犯著作权案。个维度。其中，
“ 独”是“独创性”有无的性质门槛，而
在贝克诉塞尔登案中，法院认为书中的创意方法 “创”则是“独创性”高低的程度门槛[32]。我国著作权
及创意思想不受著作权法保护。因此，从判例法渊源法既需要对“独创性”的性质门槛认定，也需要对程度
角度对“idea”一词进行解读，将其解读为“一种创造门槛的判断[33]。
性想法”较妥。在创作过程中，无论是文学创作还是回到新一代大模型来看。就“独”而言，其要求
艺术创作，作者总是基于一定的创造性想法进行创作 “独立完成”和“个性化表达”。当前新一代大模型生
的，而其最终作品便是这一创造性想法的外化表现。成难以满足上述两点。一旦离开数据标注员的参数
因此，思想一词做“创造性想法”解读更为贴切。解决标注和训练员的文本数据输入，大模型不可能生成任
了“思想”一词的定义问题，又一新问题萦绕心头，何何其他类型的新作品。因此，新一代大模型自身不满
为“创造性想法”？马克思主义认识论揭示了人思想足“独立完成”要件。此外，ChatGPT 和文心一言的
上推陈出新的本质规律，即“否定之否定”。基于马克 “个性化表达”也非 AI 本身的个性化体现，而是创作
思主义认识论,可以将“创造性想法”再拆解为三步，者对大模型训练的特定体现。就“创”而言，其生成成
第一步“基于客观存在的抽象认识”，第二步“对认识果可以很好地满足客观主义下的“最低限度创造”的
的批判”，第三步“对批判的批判”。在日常生活中，论形式要求。因此，新一代大模型在客观主义下不存在
文写作是这一规律的真实写照。至此，
“思想”一词已显著的创造性障碍。但是，当前我国对独创性之“创”
经具象化为人类的认识规律。下一个问题是新一代还存在隐含的价值判断，这一点在学界和司法实践中
大模型对自然语言的理解与处理是否符合这一规律？十分显见。例如，有学者认为“作品”应有文艺和科学
目前来看，其只具有“基于客观存在的抽象认识”形美感[34]。又如，司法者在涉艺术品司法判决中对独创
式，而不具有认识实质，同样不具有批判和对批判的
批判。首先就认识而言，
“中文屋子问题”形象地解释
了语言模型对自然语言的所谓“认识”。在“中文屋子
③ 美国 1976 年《著作权法》第 102 条(b)款；TRIPs 协议第 9 条第 2 款和 WIPO 版权条约第 2 条。

④ Baker v. Selden, 101 U.S. 99 (1879).
- 90 -
性施加了艺术审美要求 ⑤ 。这一隐含的价值判断与美国早在 2017 年《人工智能未来法案》中就已表明了

著作权法对独创性的要求有关。价值判断的本质是其对大模型开发和数据共享的支持立场 ⑥ 。欧盟长
对作品内涵一定思想深度的要求，新一代大模型的生期以来的强监管态势使其在大模型研发领域已实际
成本质是参数标注与概率计算，由于其不具备人类思上落后于中美，为实现技术追赶，欧盟也在《数字化单
想因此不可能满足一定思想深度的潜在要求，进而难一市场版权指令(欧盟第(EU)2019/790 号指令)》中为
以符合价值判断要件。综上所述，新一代大模型生成数据与文本挖掘松绑，为其创设法律例外⑦。韩国也
内容不具有独创性。表示正考虑修改《著作权法》允许使用各种出版物进
行数据分析，加快本国大模型研发，增强本国科技竞
三、大规模语言模型“两端”的著作
争力 ⑧ 。因此，顺应技术趋势与时代潮流，将大模型
权制度回应研发训练的数据挖掘使用纳入到合理使用审视中来
（一）输入端知识产权制度回应正当其时。
1. 构建更加开放的合理使用制度综上所述，可以在兼顾社会整体利益、科技创新
合理使用作为版权的权利限制制度，设计之初本能力、产业竞争能力和著作权主体合法权益的基础
用于抵消版权权利可能产生的壁垒效用，从而起到鼓上，构建更加开放的合理使用制度。一是可以对合理
励驱动创新[35]、激励创作、促进知识公众传播等作使用本体条款即《著作权法》第二十四条第一款和第
用[36]。基于壁垒破除效用，有学者得出克服市场失灵六款进行升级扩容，分别突破第一款下“个人”和第六
才是合理使用制度的核心价值，并提出了合理使用的款下“大专院校、科研院所”的主体限制；二是可以对
审视等式。该等式认为当使用者获取许可的交易成合理使用的非营利性目的进行进一步解释。对其解
本显著高于利用行为产生的社会福利时，这一使用行释可分为两种路径。其一是在不突破非营利性目的
[16] 的限制下，将非营利性目的限于直接目的之下，将虽
为就应纳入合理使用制度的审视范畴中来。
回到大模型的发展态势来看，首先，大模型的研用于企业经营，但主要为研发创新所需的数据与文本
发训练日益依赖大数据的“滋养”。但在数据日益版挖掘间接性行为排除在外。其二是直接突破非营利
权化的今天，数据版权与大模型研发之间正呈现出难性的目的限制。三是可以用好合理使用兜底条款即
以调和的张力。而根据版权保护与创新之间的“负相《著作权法》第二十四条第十三款，通过制定生成式人
关性”原理，易知合理使用在数据挖掘上的严格限制工智能行政法规的形式为大模型研发所需的数据文
势必对大模型研发创新形成阻力，且数据需求规模越本挖掘合理使用提供制度空间。
大，阻力越大[37]。其次，ChatGPT 和文心一言正开启 2. 构建义务规则下的默示许可制度
智能互联时代的新阶段，严格合理使用将有损社会总随着信息革命所带来的影响，学界对版权制度的
体福利。以 ChatGPT 为代表的大规模语言模型将实认识正悄然发生变化。早期人们对著作权的认识是
现对人类社会的又一次重大赋能赋权，将产生革命性类物权，并倾向基于“未得同意，不得使用”的“财产规
[38]
影响。大模型具有突破人机沟通“巴别塔”语义鸿则”构建著作权规则[39]。1972 年，一篇载于《哈佛法
沟的底层技术价值，有望成为打开智能数字互联社会律评论》的文章总结了著作权的“财产规则”
“ 义务规
的钥匙，具有不可估量的潜在社会价值。最后，世界则”和“不可让与规则”并开启了“财产规则”与“义务
主要数字经济体均在为数据与文本挖掘行为松绑。 “Field v. Google”
规则”的“三十年战争”[40]。2006 年，
案将基于“义务规则”的“选择退出”制度推上了舆论
⑤ 广州大川大丰电子科技有限公司诉佛山市佰彩电子有限公司等著作权权属侵权纠纷案，广东省高级人民法院（2020）粤
民终 1281 号民事判决书。
⑥《人工智能未来法案》第 4 节 b.1.e.
⑦《数字化单一市场版权指令(欧盟第(EU)2019/790 号指令)》第 3 条。
⑧《研发韩版 ChatGPT》，载《韩国中央日报（中文版）》，https://chinese.joins.com/news/articleView.html?idxno=109530，最后访问
时间：2023 年 3 月 31 日。
- 91 -
的风口浪尖 ⑨ 。承载该构想的和解协议虽然被司法人版权利益的实现负担，降低使用人的侵权风险[45]。

否决，但却拉开了互联网时代“选择退出”制度适用的因此，
“ 选择退出”机制应严格限定使用范围及适用
序章与慎思。2011 年，我国“叶根友诉无锡肯德基” 情形。
案中，法院实际认为权利人将其“叶根友行书库”免费（二）输出端知识产权制度回应
上传网络并不限制使用的行为构成“默示许可”⑩ 。 1. 构建纵深式、渐进式“作者”及版权归属制度
此外，也有学者认为我国《著作权法》和《信息网络传布莱克斯通法律思想认为，法律的变革是遵从稳
播权保护条例》实际已经开始了“选择退出”默示许可定性基础上的变革，要在秩序的维持与延续状态下进
[41]
制度的探索，只是制度设计不够明显。此后，有学行。同时还认为，对法律系统的考察应嵌入当时的社
者认为“默示许可”能较好地匹配网络时代大规模作会环境之中[46]。因此，
《著作权法》的作者内涵及其权
品使用的特殊情形[42]。可见信息革命正不断掏空“财利安排应顺应生成式 AI 发展趋势，构建“法人视为作
产规则”下“选择进入”制度的正当性根基。这一进程者，版权归于法人”—“AI 视为作者，版权归于法人”
是必然的，因为产权保护规则有效性的基本逻辑是规 —“AI 即为作者，版权归于 AI”的纵深式、渐进式制度
[39]
则是否有利于促进交易。安排模式。
在人工智能与大数据时代以千亿计的数据参数一是在弱人工智能阶段构建“法人视为作者，版
面前，放宽著作权使用标准，构建“义务规则”下的“选权归于法人”的主体权利构造。首先，我国《著作权
择退出”机制具有法经济价值的合理性。此外，进入法》已有法人“视为作者”的具体规定，这一构造在当
Web3.0 数字经济时代。传统经济的三大假设理论基前《著作权法》体系面前不存在法律障碍。其次，在司
石已经发生动摇，其中基础性的资源稀缺假设已经被法实践中，这一构造也获得过支持。在“腾讯诉上海
共享经济所动摇。理性经济人的“自利”思维已经被盈讯公司”案中，涉案文章虽然是 AI 生成创作，但可
[43]
网络社会的“利他”思维所动摇。共享思维与网络将法人视为作者I
1
。最后，著作权保护的实质是作品
文化传播的边际效用递增效应正成为 Web3.0 数字经背后的独创性智力劳动。
《著作权法》的立法目的在于
济时代的底层逻辑。基于“财产规则”的“选择进入” 鼓励创作，而独创性智力活动才属于创作，才可能受
模式正愈发与“共享”背离。构建“义务规则”下的“选法律所鼓励[34]20。美国版权局在最新版权登记指南
择退出”机制具有数字经济时代底层逻辑的合理性。中认为，创作劳动的贡献是考察版权的重要因素，而
最后，互联网时代面临的“版权蟑螂”问题已经十分突用户使用生成式 AI 的行为不存在实质性贡献 I
2
。因
出，
“ 选择进入”模式下，大模型的数据规模化和刚需此，为 AI 生成提供集体智力劳动的法人才是这一阶
化只会招致更严峻的“版权蟑螂”问题[44]。因此，构建段中的合理作者。
“义务规则”下的“选择退出”机制还具有工具主义的二是在生成式 AI 由弱及强的迭代时期构建“AI
实用性。视为作者，版权归于法人”的过渡式主体权利构造。
综上所述，可以在《著作权法》第二十六条的基础在这一阶段，可版权性的主体要件需要做出“去人类
下，通过制定生成式人工智能行政法规的形式，为大中心主义”的迈步。纵观人类历史，作者作为人之主
模型研发所需的数据与文本挖掘设计“选择退出”许体的消解并非当下产物，早在 1968 年法国文坛领袖
可制度。但也要注意到，
“选择退出”机制会将原本由罗兰·巴特就得出了“作者之死”的结论[47]。尽管这一
使用人承担的特定义务转换到权利人身上，增加权利结论并非直接宣告作者作为创作主体地位的消解，但
⑨ Field v. Google Inc., 412F. Supp. 2d 1116 (D. Nev. 2006).

⑩ 叶根友与无锡肯德基有限公司、北京电通广告有限公司上海分公司侵害著作权纠纷上诉案，江苏省高级人民法院（2011）
苏知民终字第 0018 号民事判决书。
1 深圳市腾讯计算机系统有限公司与上海盈讯科技有限公司著作权权属、侵权纠纷、商业贿赂不正当竞争纠纷案，深圳市
I
南山区人民法院(2019)粤 0305 民初 14010 号判决书。
2 Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, U.S. Copyright Office, Library
I
of Congress (March 16, 2023), https://www.govinfo.gov/content/pkg/FR-2023-03-16/pdf/2023-05321.pdf.
- 92 -
也给世人带来了作者能不能死的讨论，至少让作者的而不存在。法律只是“实然”的“应然”映射。
主体性在哲学层面变得不再具有“神权天赋”般的应 2. 实现版权法转向，建立客观性审查
[48]
然性。如果说罗兰·巴特的“作者之死”只是在哲学 “AIGC”时代的客体要件回应主要包括两个方
层面第一次消解人类作者的主体应然性，那么大模型面，一是将作者权法转向版权法，二是将独创性的主
则在现实层面对其进行二次消解。罗兰·巴特把文学客观一体审查改为客观审查。AI 的发展正将作者中
艺术创作的焦点从作者拉到文本上，大模型则证明这心主义转向作品中心主义，而作品的价值在于交易，
一转变的可行性。文学也好，绘画也罢，其总能被类有学者认为著作权制度的功能在一定程度上在于促
型化、模块化。从结果来看，大模型创作在效率层面进作品的商品化[52]。如果恪守作者中心主义，要求作
显著优于人类，其仅在非理性表达上不及人类。尽管品必须体现一定的思想意志表达，那么“AIGC”将无
由于 AI 无法良好计算更为抽象的意识表达，文学界法纳入商品化的进程中来。这既不符合“AIGC”的发
尚不愿意承认 AI 的作者主体性，而更愿意将其视为展业态，也不利于保护和鼓励技术创造。因此，更可
“他者”，但是巴特的“作者之死”和大模型高度“拟人行的做法是伴随着作品中心主义的转向，推动以人格
化”的作品削平了文学的深度，对何为文学意义上的权为出发点的作者权法向以财产权为出发点的版权
[49]
作者带来了二次拷问。在迭代时期，可以预见生成法转向，消除一定的思想意志表达的要求，同时也迎
式人工智能将展现出真正的“类人”智能水准，以及合作者主体的“去人类中心化”改造。
“以假乱真”的生成成果。其生成内容的客观外在表客观审查并不意味着不审查主观方面，而是将主
现将与人类作品无异，甚至在创作思维与智力活动上观方面作进一步隐喻化处理。从立法的目的来看，独
都与人类相似，仅在主体的意识活动能力上尚不具有创性之“独”旨在保护独立创作这一事实，而将抄袭、
自主性，只在意识自主上尚属于背后团队的“意识奴剽窃、篡改等广义复制行为剔除出去[53]。由于上文已
隶”。在这一阶段，可以采取名义权利主体与实际权经讨论了“作者”主体的扩容，因此不必再拘泥于独立
利归属相分离的构造，开放作者的去人类空间，将 AI 创作是人类做出、AI 做出还是人类借助 AI 做出，只要
视为作者。同时，基于民事法律主体和权利归属要求考量其形式上满足独创即可。只要不是借助 AI 抄
以及著作权雇佣作品权利归属理论将作品著作权归袭、剽窃、篡改等“创作”就符合“独”之要件。再者，客
于法人。观审查还需要对“创”进一步改造，消除价值维度。从
最后，在强人工智能阶段，宜构建“AI 即为作者，哲学上看，
“休谟之问”将哲学上的事实维度与价值维
版权归于 AI”的版权主体权利结构。首先，从法律渊度一分为二。由于法学的奥秘蕴含于哲学，因此事实
源角度出发，康德虽然创设了“伦理人”，但是作为大与价值二分原则也被很自然迁移到法哲学之中。法
陆法系民法滥觞的德国民法却没有采纳“伦理人”构哲学上认为“事实与价值分属两个领域，事实问题以
[50]
造，而是选择了基于“权利能力”的“形式人”构造。客观标准验证某一事物是否为“真”；而价值问题则是
换言之“形式人”因具有“权利能力”而成为法律主体，人基于特定需求对事物善恶、美丑之主观评价”[54]。
而不因是“伦理人”成为法律主体。回到强人工智能在这一法哲学思想上，人们对著作权的“创作高度”认
上，这一阶段的 AI 在思想上已经与人类无异，甚至拥识也发生了改变。例如，德国发展出的小硬币理论认
有独立自主意识。这意味着其能够独立做出意思表为著作权的“创作高度”标准很低，达到一枚小硬币的
示，并承担相应的法律后果，具有一定的“权利能力”，厚度即可[55]。事实、价值二分原则和小硬币理论的发
自然应因视为民法上的“形式人”。其次，从工具主义展标志着独创性不必再具有“创作高度”的价值判断
角度出发，赋予 AI 版权主体地位可以有效解决 “AIGC”要想生成具有高度思
维度[56]。从现实来看，
“AIGC”所面临的“行动之法”与“纸面之法”相偏离的想深度的仿真作品需要对大规模模型进行难以估量
问题。最后，保守主义论者认为“一旦赋予人工智能成本的调试。这在技术上存在难度，在经济商用上更
民事主体地位，意味着两种智能主体的并存”，进而导没有“钱”途。而这一没“钱”途的价值追求又与知识
[51]
致民事法律关系被颠覆。但是，
“伦理人”不是因为产权立法之基“是一种经济需要”[57]背道而驰。因此，
写入法律而存在，强人工智能也不会因为不写入法律无论从法哲学层面的独创性理论发展来看，还是从
- 93 -
“AIGC”的商用权利保护现实需要来看，独创性之知识产权, 2021(1): 20-35.

“创”都应消除价值判断，回归“最低限度”判断。 [16] 蒋舸 . 论著作权法的“宽进宽出”结构[J]. 中外法学,
2021, 33(2): 327-345.
[17] 詹启智 . 论新著作权法合理使用的“其他情形”——
参考文献：
兼与王迁、蒋舸、刘佳欣同志商榷[J]. 三峡大学学报
[1] 张鹂 . AI 苏醒: 科幻电影的思想实验室[M]. 北京: 新星
(人文社会科学版), 2023, 45(2): 94-99.
出版社, 2020: 3.
[18] RETO H, CHRISTOPHE G, JONATHAN G. Towards a
[2] 郑世林, 姚守宇, 王春峰 . ChatGPT 新一代人工智能技
balanced interpretation of the 'three-step test' in copy‐
术发展的经济和社会影响[J/OL]. 产业经济评论: 1-20
right law[J]. European Intellectual Property Review,
[2023-05-11]. https: //doi. org/10.19313/j. cnki. cn10-
2008: 489-496.
1223/ f.20230310. 002.
[19] 刘宇晖 . 论著作权合理使用扩张适用的路径选择[J].
[3] 俞士汶, 朱学锋, 耿立波 . 自然语言处理技术与语言深
知识产权, 2018(10): 59-65.
度计算[J]. 中国社会科学, 2015(3): 127-135.
[20] 熊琦 . 著作权合理使用司法认定标准释疑[J]. 法学,
[4] 段德智, 莱布尼茨 . 语言哲学的理性主义实质及其历
2018(1): 182-192.
史地位研究[J]. 武汉大学学报(人文科学版), 2013, 66
[21] 姚前 . ChatGPT 类大模型训练数据的托管与治理[J].
(5): 54-63.
中国金融, 2023(6): 51-53.
[5] TURING A M. Computing machinery and intelligence[J].
[22] 肖冬梅 . 谷歌数字图书馆计划之版权壁垒透视[J]. 图
Mind, 1950, 59(236): 433-460.
书馆论坛, 2011, 31(6): 282-288.
[6] BENGIO Y, SCHWENK H, JEAN-SEBASTIEN S, et al.
[23] 梁志文 . 版权法上的“选择退出”制度及其合法性问
Neural probabilistic language models[J]. The Journal of
题[J]. 法学, 2010(6): 84-94.
Machine Learning Research, 2003, 3(6): 1137-1155.
[24] 陈永伟 . 超越 ChatGPT: 生成式 AI 的机遇、风险与挑
[7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention
战[J]. 山东大学学报(哲学社会科学版), 2023(3): 127-143.
is all you need[R]. arXiv, 2017.
[25] 李伟民 . 视听作品著作权主体与归属制度研究[J]. 中
[8] 郭全中, 张金熠 . ChatGPT 的技术特征与应用前景[J].
国政法大学学报, 2017(6): 87-160.
中国传媒科技, 2023(1): 159-160.
[26] 赵精武 .“元宇宙”安全风险的法律规制路径: 从假想
[9] WEI J, BOSMA M, ZHAO V Y, et al. Finetuned Lan‐
式规制到过程风险预防[J]. 上海大学学报(社会科学
guage Models Are Zero-Shot Learners[J]. ArXiv abs/
版), 2022, 39(5): 103-115.
2109.01652, 2021, [2023-04-11]. https://doi. org/10.485
[27] 石冠彬 . 人工智能民事主体资格论: 不同路径的价值
50/arXiv.2109.01652.
抉择[J]. 西南民族大学学报(人文社科版), 2019, 40
[10] OUYANG L , WU J , JIANG X , et al. Training language
(12): 94-102.
models to follow instructions with human feedback[OL/
[28] 郭万明 . 人工智能体有限法律人格论[J]. 广西社会科
J]. ArXiv abs/2203.02155, 2022, [2023-04-11]. https://
学, 2020(2): 127-132.
doi.org/10.48550/arXiv.2203.02155.
[29] 郭少飞 .“电子人”法律主体论[J]. 东方法学, 2018(3):
[11] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proxi‐
38-49.
mal Policy Optimization Algorithms[OL/J]. ArXiv abs/
[30] 冯晓青, 刁佳星 . 从价值取向到涵摄目的:“思想/表达
1707.06347, 2017, [2023-04-11]. https://doi. org/10.48
二分法”的概念澄清[J]. 上海交通大学学报(哲学社会
550/arXiv.1707.06347.
科学版), 2021, 29(2): 27-39.
[12] 王海宁 . 自然语言处理技术发展[J]. 中兴通讯技术,
[31] 冯志伟, 张灯柯, 饶高琦 . 从图灵测试到 ChatGPT——
2022, 28(2): 59-64.
人机对话的里程碑及启示[J]. 语言战略研究, 2023, 8
[13] BROWN T B , MANN B , RYDER N , et al. Language
(2): 20-24.
models are few-shot learners[OL/J]. ArXiv abs/2005.14
[32] 李晓宇 . 元宇宙下赛博人创作数字产品的可版权性[J].
165, 2020, [2023-04-11]. http://doi. org/10.48553/
知识产权, 2022(7): 20-46.
arXiv. 2005.14165.
[33] 魏永征 . 新闻传播法教程[M]. 北京: 中国人民大学出
[14] 冯志伟, 张灯柯, 饶高琦 . 从图灵测试到 ChatGPT——人
版社 . 2019: 200.
机对话的里程碑及启示[J]. 语言战略研究, 2023, 8(2):
[34] 王迁 . 著作权法[M]. 2 版 . 北京: 中国人民大学出版
20-24.
社 . 2023: 19.
[15] 王迁 .《著作权法》修改: 关键条款的解读与分析（上）[J].
[35] 秦俭 . 创新驱动背景下我国互联网合理使用制度研
- 94 -
究——兼论《著作权法》第 24 条修订建议[J]. 科技与学, 2010.

法律(中英文), 2022(5): 76-122. [47] ROLAND B. La mort de l'auteur, le bruissement de la
[36] 刁佳星 . 算法时代合理使用制度的困境与纾解[J]. 中 langue[M]. Paris: Seul, 1984: 61.
国出版, 2023(3): 33-38. [48] 张江 . 作者能不能死[J]. 哲学研究, 2016(5): 3-128.
[37] 彭飞荣 . 论算法创作中涉数据的著作权侵权风险及 [49] 郑鹏 . 人工智能创作、
“ 作者之死”与人的主体性之反
其化解[J]. 法律适用, 2023(4): 46-55. 思[J]. 安徽大学学报(哲学社会科学版), 2020, 44(3):
[38] 喻国明. ChatGPT浪潮下的传播革命与媒介生态重构[J]. 67-74.
探索与争鸣, 2023(3): 9-12. [50] 朱振, 都本有 . 人格权的伦理分析[J]. 法制与社会发
[39] 魏建, 宋微 . 财产规则与责任规则的选择——产权保展, 2005(3): 54-63.
护理论的法经济学进展[J]. 中国政法大学学报, 2008 [51] 王艳慧 . 人工智能民事主体地位的论证进路及其批
(5): 133-160. 判[J]. 华东政法大学学报, 2020, 23(4): 83-92.
[40] CALABRESI G, MELAMED A D. Property rules, liabil‐ [52] 李琛 . 质疑知识产权之“人格财产一体性”[J]. 中国社
ity rules, and inalienability: one view of the cathedral[J]. 会科学, 2004(2): 68-78.
Harvard Law Review, 1972, 85(6): 1089-1128. [53] 郝江锋 . 法哲学视域内关于人工智能作品独创性的思
[41] 王国柱 . 著作权“选择退出”默示许可的制度解析与考[J]. 中北大学学报(社会科学版), 2022, 38(4): 59-64.
立法构造[J]. 当代法学, 2015, 29(3): 106-112. [54] 熊文聪 . 作为认识论的事实与价值二分法——兼论
[42] 李捷 . 论网络环境下的著作权默示许可制度[J]. 知识自然权利与法定权利之争[J]. 法律方法, 2013, 14(2):
产权, 2015(5): 67-108. 167-177.
[43] 许红, 焦静娟, 唐永忠, 等 . 基于时空经济理论的共享 [55] 卢海君 . 著作权法语境中的“创作高度”批判[J]. 社会
经济理论内涵解析[J]. 云南财经大学学报, 2018, 34 科学, 2017(8): 95-104.
(9): 3-12. [56] 付继存 . 作品独创性功能的反思与重塑——基于著
[44] 孙昊亮, 张倩 . 作品“宽容使用”引发的问题及其解决作权法结构与价值目标的双重视角[J]. 湖南大学学
路径[J]. 法学杂志, 2021, 42(8): 113-122. 报(社会科学版), 2022, 36(5): 147-155.
[45] 冯恺 . 个人信息“选择退出”机制的检视和反思[J]. 环 [57] 郑万青 . 中国传统文献中的所谓“作者”与“创作”[J].
球法律评论, 2020, 42(4): 148-165. 中国出版, 2010(21): 71-73.
[46] 李杰赓 . 布莱克斯通法律思想研究[D]. 长春: 吉林大
- 95 -
The Copyright Dilemma and Institutional Response of

Generative Artificial Intelligence
—Take ChatGPT and ERNIE Bot as Examples
Zheng Fei1，Xia Chenbin2
（1. School of Law, Beijing Jiaotong University, Beijing 100044, China；

2. Institute of Xeon Cross-Border Data Compliance, Nanjing 210019, China）
Abstract：ChatGPT and ERNIE Bot have realized the integration of multi-tasking and multi-function in natural lan‐
guage processing technology, and led to a new trend of "large-scale" learning data at the input end of the model and
"anthropomorphic" content generation at the output end. Based on this, based on this, there is a dilemma in the new
generation of Large Language Model that data usage is difficult to incorporate into the fair use of copyright at the input
end. The data output end has a problem that the generated content is not copyrightable. In order to comply with the
technological development trend of generative AI, stimulate technological innovation, and protect intelligent creation,
it is advisable to adjust copyright regulations from both "input" and "output" ends based on the flexible principle. First
of all, it should break the closed legislative model of the "fair use" and construct an "opt-out" mechanism under the ob‐
ligation rule. Secondly, it is necessary to establish a gradual and in-depth copyright mechanism with "legal person re‐
gards author and copyright belongs to legal person" - "AI regards author and copyright belongs to legal person" - "AI
is author and copyright belongs to AI". Finally, it should eliminate the value evaluation dimension of "works", and es‐
tablish an objective review mechanism.
Keywords: generative artificial intelligence; ChatGPT, ERNIE Bot; copyright barriers; copyrightability
- 96 -

生成式人工智能的著作权困境... hatGPT和文心一言为例 郑飞-1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

生成式人工智能的著作权困境... hatGPT和文心一言为例 郑飞-1

Uploaded by

Copyright:

Available Formats

科技与法律（中英文） 2023 年 第 5 期 总第 17 期

SCIENCE TECHNOLOGY AND LAW（CHINESE-ENGLISH VERSION）

（1. 北京交通大学 法学院，北京 100044；2. 耀时跨境数据合规研究院，南京 210019）

百度也在此技术思路下开发了文心（ERNIE3.0 Titan） 大模型研究来看，

训练数据规模“海量”化特点[12]。例如，第一代 GPT 的 型在自然语言处理过程的输出与输入两端展现出颠

预训练参数量为 1.11 亿，数据量仅为 5 GB。GPT-2 的 覆式的变化。一是输入端的训练数据规模空前“海量

预训练参数量为 15 亿，数据量为 40 GB。相较于第一 化”；二是输出端的语言文本高度“拟人”化。大模型

代 GPT，GPT-2 参数量增长了近 15 倍，数据量增长了 两端的颠覆式变化同时带来了相应的著作权难题。

近 8 倍。如果说 GPT-1 到 GPT-2 的规模增量只是倍 一是规模化数据使用难以纳入合理使用范畴的难题；

数级，那么 GPT-3 的诞生则直接将这一规模增量拉升 二是拟人化生成内容不具有可版权性的难题。

到了指数级。GPT-3 的预训练参数量达到了 1 750 （一）输入端困境：训练数据的合理使用

使用的授权前置要求。我国学界在研究 Google 数字 或有限主体资格说普遍认为，生物特征或生理结构从

者”规则，而未明确“作者”的自然人属性，但对“作者” 本原则之一。1994 年世界贸易组织《知识产权协定》

依然有主体资格要求。无论当前学术界对人工智能 明确“版权延及表达，而不延及思想”，1996 年世界知

③ 美国 1976 年《著作权法》第 102 条(b)款；TRIPs 协议第 9 条第 2 款和 WIPO 版权条约第 2 条。

性施加了艺术审美要求 ⑤ 。这一隐含的价值判断与 美国早在 2017 年《人工智能未来法案》中就已表明了

的风口浪尖 ⑨ 。承载该构想的和解协议虽然被司法 人版权利益的实现负担，降低使用人的侵权风险[45]。

⑨ Field v. Google Inc., 412F. Supp. 2d 1116 (D. Nev. 2006).

“AIGC”的 商 用 权 利 保 护 现 实 需 要 来 看 ，独 创 性 之 知识产权, 2021(1): 20-35.

究——兼论《著作权法》第 24 条修订建议[J]. 科技与 学, 2010.

The Copyright Dilemma and Institutional Response of

Zheng Fei1，Xia Chenbin2

（1. School of Law, Beijing Jiaotong University, Beijing 100044, China；

You might also like

生成式人工智能的著作权困境... hatGPT和文心一言为例郑飞-1

生成式人工智能的著作权困境... hatGPT和文心一言为例郑飞-1

科技与法律（中英文） 2023 年第 5 期总第 17 期

（1. 北京交通大学法学院，北京 100044；2. 耀时跨境数据合规研究院，南京 210019）

百度也在此技术思路下开发了文心（ERNIE3.0 Titan）大模型研究来看，

训练数据规模“海量”化特点[12]。例如，第一代 GPT 的型在自然语言处理过程的输出与输入两端展现出颠

预训练参数量为 1.11 亿，数据量仅为 5 GB。GPT-2 的覆式的变化。一是输入端的训练数据规模空前“海量

预训练参数量为 15 亿，数据量为 40 GB。相较于第一化”；二是输出端的语言文本高度“拟人”化。大模型

代 GPT，GPT-2 参数量增长了近 15 倍，数据量增长了两端的颠覆式变化同时带来了相应的著作权难题。

近 8 倍。如果说 GPT-1 到 GPT-2 的规模增量只是倍一是规模化数据使用难以纳入合理使用范畴的难题；

数级，那么 GPT-3 的诞生则直接将这一规模增量拉升二是拟人化生成内容不具有可版权性的难题。

使用的授权前置要求。我国学界在研究 Google 数字或有限主体资格说普遍认为，生物特征或生理结构从

依然有主体资格要求。无论当前学术界对人工智能明确“版权延及表达，而不延及思想”，1996 年世界知

性施加了艺术审美要求 ⑤ 。这一隐含的价值判断与美国早在 2017 年《人工智能未来法案》中就已表明了

的风口浪尖 ⑨ 。承载该构想的和解协议虽然被司法人版权利益的实现负担，降低使用人的侵权风险[45]。

“AIGC”的商用权利保护现实需要来看，独创性之知识产权, 2021(1): 20-35.

究——兼论《著作权法》第 24 条修订建议[J]. 科技与学, 2010.