天同律师事务所

林华：妥协是渐进的艺术——从中美案例与规则看AI生成内容的版权逻辑｜天同网事

发布时间：2024.03.01 14:55 来源：天同诉讼圈

文 / 林华法学博士

争议中的AI图片第一案

一、被审判的判决

北京互联网法院一审判决的AI图片版权纠纷案（（2023）京0491民初11279号判决书，以下简称“北互AI图片案”）必然会影响历史，有意思的是这起从数字到研究意义都名副其实的中国生成式第一案判决却一发布就被淹没在几乎一边倒的批评中。典型的批评在文章标题就开始“驳”判决，定义“错判”，或者反复强调“非常意外”、应当“驳回原告”，最有趣的是评论区可以看到“社会舆论四起，翻盘也极有可能”之类成群留言。

反对判决的意见如此之多，以致包括主审法官在内少数支持者不得不在不同期刊、论坛、研讨会反复发声，用高频出境率抵消反对意见的声量优势。

这样靠提高活跃度拉升声势的场景彷佛是美军登陆护航舰队在1944年莱特湾海战中遭遇日本联合舰队主力突袭，在一堆民用船改装护航航母被大和号领军的超级战列舰编队碾压的绝对劣势情况下，海军战机为救场甚至在弹药耗尽情况下冒着猛烈的防空炮火反复飞越联合舰队，给日军造成美军有空中优势的错觉和心理压力，最后竟然迫使联合舰队指挥官错误判断美军重型航母已经逼近而草草撤兵。

北互AI图片案审理的Stable Diffusion类图像生成AI，和GPT代表的文字生成AI虽然都会被统称生成式人工智能或者AIGC，但从技术角度两类AI为生成不同内容需要应用不同技术原理、模型和路线。本文将生成式人工智能作为一个整体讨论AI生成内容的著作权问题，在分析北互AI图片案涉及Stable Diffusion人工智能的生成特征外，还将同步分析GPT代表的LLM技术（大语言模型）的技术和生成特征。

二、北互AI图片案案情和争议焦点

原告主张自己使用Stable Diffusion模型生成的涉案图片“春风送来了温柔”等应受著作权保护，诉称被告擅自使用构成侵权。

排除适用传统规则的侵权认定和法律责任分配，法院总结本案和生成式相关的两个争点分别是涉案“春风送来了温柔”图片是否构成作品，构成何种类型作品；以及原告是否享有涉案图片的著作权。简要说本案争点在于AI生成内容是否有独创性/是否构成作品，以及独创性得到肯定情况下确认应由原告还是其他人（比如模型提供方）享有著作权。

为证明自己对利用AI生成内容享有著作权，原告举证涉案图片以下生成过程：

1）原告下载并安装Stable Diffusion整合包、模型包等；

2）原告输入正向提示词（Prompt），向Stable Diffusion模型描述希望生成的内容。输入反向提示词，向AI描述生成结果中不得出现的内容；

3）原告/修改各项参数、固定随机数种子、随机数种子、艺术类型等，向Stable Diffusion模型给定生成内容的风格、类型等；

4）原告Stable Diffusion模型根据前述步骤的要求进行生成，AI根据指令完成涉案图片。

法院审理后针对争点给出以下裁决意见：

1）“涉案图片由原告独立完成，体现出了原告的个性化表达……涉案图片具备独创性要件”；

2）“模型无法成为涉案图片的作者”，…… “涉案图片是基于原告的智力投入直接产生，且体现出了原告的个性化表达，故原告是涉案图片的作者，享有涉案图片的著作权”。

北互AI图片案判决引起的学术争议集中在利用AI生成的内容是否具有独创性，以及谁可以作为版权主体的环节。由于分析AI需要对生成式技术和生成实现方式做基本回顾，技术性内容以下作为单独一章专门论述。而对北互判决给出的理由及关联事实认定部分，我们将在法律技术分析的章节展开。

生成式创造能力的技术分析

一、独创性判断标准选择
（一）独创性判断应遵循客观结果标准

高斯说数论是数学的皇后；那么独创性问题并不是著作权的皇后，而是皇帝本人。独创性很可能是著作权法理论中最重要也是最复杂的单元。分析独创性问题难度之高，犹如应对鳄鱼在水中绞杀猎物的死亡翻滚，我甚至考虑过是否在本文中回避。

对北互AI图片案判决质疑最多的一点，集中在大多数观点认为人工智能生成内容没有独创性。事实上法院在审理中只围绕对AI使用人设置提示词（prompt）等指令环节有无投入和体现独创性，判决也没有认定AI生成过程体现独创性，所以只分析个案原本并不需要涉及AI生成过程中是否具有独创性。

读过的所有北互AI图片案评论几乎都聚焦AI生成内容的独创性，但也都回避了一个关键问题：应该通过对AI生成结果做独创性的客观判断，还是对AI生成过程的独创性做主观判断。实际上这里存在一个反差，需要判断独创性的著作权纠纷都是通过对争议内容是否具有独创性进行客观判断，只有在涉及古籍点校、模型复刻等事实上难以通过直接分析作品得出结论的情况，以及涉及证明作品原创的纠纷如抄袭争议等除外。而所有对AI生成的独创性讨论都会集中在对大模型的生成过程做主观判断。

需要提示的是本文表述使用的“客观判断”和王迁老师评论的“独创性客观说”完全不同。本文的客观判断是一种适用于所有相关个案的具体分析方法，王迁老师分析“独创性客观说”则只是为直接论证“著作权法只保护人的作品”，以及“应当以自然人作者为中心的创作观”[i]。

对争议内容独创性的客观判断是盲测。以AI生成内容为例，客观判断需要判断人置于类似图灵测试的信息黑箱中，由其在不知道创作者身份信息情况下只凭借审美和经验对生成结果的独创性进行判断。之所以不愿意对AI生成内容独创性做客观判断的原因也很简单，即使最排斥AI的人也无法对包括涉案图片“春风送来了温柔”在内的海量AI图文及音视频内容的独创性进行判断。如果有读者凭常识无法接受这个观点，可以看下最严谨的论文审核，都出现过带ChatGPT提示标志的物理论文硬扛两个月同行评审最终得以发表的故事[ii]。

王迁老师也认为：“在实然状态下……人工智能的操控者也将被认定为作者并享有一系列著作人身权和著作财产权。日本知识产权战略本部……认为人类的创作物和人工智能创作物在外观上通常难以区分。基于此，除去明显是人工智能创作物的情形，应当与人类的创作物进行相同的对待。……人工智能创作的音乐、小说等内容也应当受到著作权的保护”。

但是王迁老师把AI创作内容受版权保护的实然状态归结为属于诉讼程序中的证据规则范畴，并举例认为“在前文提及的猕猴自拍照案中，如果摄影师发布照片时声称是自己拍摄，由于现场并无他人，猕猴当然也不会开口反驳，这张猕猴露齿微笑的照片当然会被认定为是摄影师的作品”[iii]。

关于猴子和AI的著名故事本文以下还会再次论述。本节和王迁老师观点不同之处在于认为这种“实然状态”就是指应当对生成结果的独创性进行客观判断，指向的是实体问题而不是程序或者证据问题。回顾“猕猴自拍照案”，判决直接定论只有人类才能成为作者，根本没有讨论照片有没有独创性。

（二）创作过程中的独创性无法还原

进一步讨论，对创作/生成过程中的独创性做主观判断产生最大的问题，是这种判断方法原本就不可靠甚至在很多场景下不可行。

很多观点认为AI无法赶上也无法模拟人类创作中的灵感，而“那些最具特色、最有生命力的成功之作往往只产生在难得而又短暂的灵感勃发的时刻[iv]”。先搁置对该观点的深入讨论，就以创作灵感本身来说，大多数情况都无法通过理性还原。去年底翻阅一本《我们为什么爱喝酒》，意外读到对人类创造力即所谓“灵光一现”的精彩解释：

“……想要激发创造力，需要放松认知控制。……小孩子之所以具备创造力，或许是因为他们的前额叶皮层还没有发育好。拥有成熟前额叶皮层的成年人也能通过一些方法，放松前额叶皮层，发挥创造力。酒精，就能让我们的前额叶皮层暂时掉线。或许这就是为什么有些广告公司里会专门设置一个喝酒的吧[v]。”

历史和现实生活中通过酒精、做梦等涌现灵感的例子也的确比比皆是。你觉得李白应该如何解释酒后遗篇“君不见黄河之水天上来”的《将进酒》和“云想衣裳花想容”的《清平调·》？王羲之醉饮后留下的《兰亭序》在散文史和书法史各雄居一席，而作者在清醒后反而无法复现挥洒兰亭序的书法高峰。

至于凯库勒梦见碳原子链像蛇一样咬住自己尾巴形成环状，从而悟出苯分子的环状结构；门捷列夫在梦中看到所有元素规律排列后创建元素周期表；印度传奇数学天才拉马努金声称自己上千条数学公式是梦见智慧女神才发现的。甚至不喝酒不做梦，很多作品的创作也无法解释。地球人都听过披头士的<Hey Jude>，麦卡特尼就表示从旋律到歌词都是开车时候突然想到的。

创作经常是带有非理性成分的过程，要用理性方式解释创作本身就是一种矛盾。所以不难发现适用主观解释方法证明创作过程的案件基本都涉及创作人身份争议，用于证明独创性的著作权纠纷不但罕见且是只是作为辅助证明手段。

二、AI生成具有独创性

（一）通向智慧的道路并不孤独

智慧是独创性的前提，如果人工智能不能产生智慧，就无法实现著作权法意义上的独创。

和人工智能行业相反，法学界具有压倒优势的观点认为人工智能无法比拟人类智能，AI独创性“是对未来的幻想”。王迁老师的观点具有相当代表性：“正如莎士比亚在《哈姆雷特》中所言，人是宇宙的精华，万物的灵长。……迄今为止的人工智能只能按照人类预先设定的算法、规则和模板进行计算并生成内容。无论这种过程多么复杂，其结果多么接近作品，终究只是如来佛手中的孙悟空，无法突破如来佛的五指手掌”……“这正是人工智能生成内容的本质特征——是计算而非创作” [vi]。

人类是上帝独宠的观念自古以来令人愉悦，既深得人心也得到人工智能尤其生成式发达前的全部历史和科技条件所支持。但凡是科学的就都是可以重现的，这也是实验成为重要检验手段的原因。如果认为智慧和独创性仅专属人类而不可再现，这个观念本身就不符合科学。

与此同时，智慧作为目标可以设置为唯一，但没有任何科学方法支持通达智慧的道路也是唯一的。这就像指定上海作为目的地，而通行方式可以选择飞机、动车或者高速。科学史上也有足够多的路径变迁案例。早期人类认为实现飞行只能通过仿生鸟类，随着科技发展发现还有热气球、固定翼、旋转翼、火箭推动多种方法可以征服天空。

人类通过心智对意义的观察和表达实现创作。人工智能的确建立在计算基础上，但人工智能通过计算学习万物及其关系的特征，同样可以通向智慧，实现对世界的理解和表达。打个比分，中医诊治通过望闻问切五运六气，西医诊治通过脉搏血压血相核磁，中医不能因为诊断方法不一样就认为西医不是科学。

“人工智能想在智能上超越人类，根本不需要理解人脑是如何运作的。人类智能和人工智能是今天世界上同时存在的两套智能，实际上，人工智能的“思考模式”与人类的思考模式完全不同”[vii]。

确实也有乔姆斯基这样大师级人物批评“机器学习系统的预测总是肤浅且可疑(superficial and dubious)。例如无法解释英语语法规则[viii]”。

不过乔姆斯基对人工智能的批评并没有得到计算机和语言学界主流认可，也并没有获得事实支撑。Transformer模型实现的自然语言处理（NLP）完全不是只关注纯粹符号系统，而是通过分析文本之间的关系捕捉深层含义，不但可以自学习语法，还可以理解文本中包括情感、隐喻等隐性信息。GPT不论是语义理解还是语言表达上的飞快进步和优异表现堵住了乔派粉丝的跟进道路。相反，作为乔姆斯基成名作的先天语言能力理论（Innate language capacity theory）和所谓遗传获得的先天语言习得机制却遭到GPT自主语言学习实践的有力挑战。没人教GPT任何语法，GPT比谁都懂语法。

（二）灵韵的神话与终结

人的观点并不只是由形成观点的当下所决定，而是基于既往经验和观念对当下问题做出的反应。人类智慧始终独尊的漫长历史在人类基因中植入人类智慧和万物不同的先验理念，我们自然更容易拒绝相信人工智能也会达到人类智慧同样的高度。

本雅明把人类的艺术独创称为Aura，这个词可以被翻译成灵光、灵韵或者灵晕，总之可以意会而不可言传。九十年前本雅明在《机械复制时代的艺术作品》感叹灵韵在摄影、电影等现代复制技术冲击下在消失，“艺术作品的消失：在传统的艺术作品中，每一件作品都是独一无二的，具有一种特殊的灵韵，这种灵韵与其产生的历史、文化背景以及作者的创作意图紧密相连。然而，在机械复制时代，艺术作品的这种灵韵逐渐消失，被大量的复制品所取代”[ix]。

本雅明表述的灵韵消失限于复制技术稀释了艺术实物的稀缺性，“一般而论，复制技术使得复制物脱离了传统的领域。这些技术借着样品的多量化，使得大量的现象取代了每一事件仅此一回的现象”[x]。在这个意义上人工智能为艺术创作带来的冲击比复制技术要强烈的多，因为假设AI的生成也是一种创作，艺术作为一个整体的稀缺性也被淡化了。

当毕达哥拉斯说“万物皆数”的时候，他实际是认为宇宙中一切事物都可以用数学关系来观察、描述和解释，所以数是宇宙的基础，是理解世界的钥匙。现代人类通过语言理解和描绘世界，人工智能通过数学了解语言和提取万物特征，由而以另一条路实现对智慧和创造力的触达。智慧并没有被解构，被解构的是人类对智慧的自我神话。

OPEN AI技术创始人Ilya在2023年接受采访时的表述非常有助于了解生成式理解世界的技术原理：“……（有人认为）这些模型只是学习统计规律，因此它们并不真正知道世界的本质是什么。我的观点与此不同。……预测也是一个统计现象。但是要进行预测，需要理解生成数据的基本过程，需要了解更多关于产生数据的世界的知识。……它们对世界及其许多微妙之处的理解将达到令人震惊的程度。它通过文本的镜头看到世界，试图通过投射在互联网上的文本影子了解更多关于世界的信息[xi]。

只要技术条件满足，用计算手段同样可以实现创作。人工智能和人类根本区别只在实现智慧和创作的方式，而不在是否能够实现。本文观点和《未来简史》中以下意见如出一辙：

“如果认为人类永远都能有自己独特的能力，无意识的算法永远无法赶上，这只能说是一厢情愿。……目前还有许多事情是有机算法比非有机算法做得更好，也有专家反复声称，有些事情非有机算法永远都无法做到。但事实证明，通常这里的永远都不超过一二十年。……并没有理由让人相信艺术创作是片能完全不受算法影响的净土。人类是哪来的信心，认为计算机谱曲永远无法超越人类？从生命科学的角度来看，艺术并不是出自什么神灵或超自然灵魂，而是有机算法发现数学模式之后的产物。若真是如此，非有机算法就没有理由不能掌握。”[xii]

三、通过逻辑推理可以生成创造力

（一）人工智能缺乏创造力么

生成式没有创造力也没有思想，这在人工智能短暂的发展史上是一个悠久的传说。Transformer大模型作为生成式的里程碑在谷歌诞生，马上就有谷歌员工批评Transformer不过是随机鹦鹉。不过娘家人的这个批评漏洞太多，很快被技术圈和生成式出色表现体面的掩埋[xiii]。

当下法学界对生成式有独创能力的批评集中在质疑AI以数学推演输出过程中的“机械性”和人类创造力不可比拟。典型观点如：“人工智能系统运行中的选择是基于算法程序下的最优选择，仅体现了逻辑思维，无思想力的参与”；“著作权法中所谓的创造性选择依托于人脑实现，人脑是创造性选择的物质基础。创造性选择并非单纯机械劳动，而必须是带有目的性、排除随机的或是受外界激发的”。[xiv]

北互AI图片案判决也认为：“并非所有智力成果都是作品，只有具备独创性的智力成果才能构成作品。通常来讲，独创性要求作品由作者独立完成，并体现出作者的个性化表达。机械性智力成果应当被排除在外”。

不计前文已经分析过的随机性，前述质疑的关键词按照分析的难易程度可以总结为目的性、思想力、逻辑思维和机械性。

关于要求创作有目的性的要件，我良心劝慰放弃这个条件。不仅因为目的性要件从不在版权法及其理论对独创性的定义中，更因为等到人工智能有自主的目的，就轮不到人类给AI立法了。

金观涛老师也发现和提醒过这个问题：“自从神经网络学习系统被发明，当代人生活在人工智能的惊喜和恐惧之中。惊喜的是人的很多智能被机器取代，人工智能正在成为人类获得各种知识不可取代的工具。恐惧的是意识或许会在某一天于人工智能中涌现，人类将面临机器的统治。意识、主体性和科学技术究竟是一种什么关系？这个问题已经被严峻地摆在科学家面前了[xv]。

关于“思想力”这个生创词，实质和本雅明的“灵韵”一样是对人类创造力带有神圣情感的描述，无法被具体解释。本文通过将“思想力”降解到对人工智能“逻辑思维”和“机械性”两个具体概念再进行分析。其中关于人工智能生成结果是否属于“机械性”智力成果需要较大的分析模块，将安排专门篇幅展开。

（二）逻辑推理能力是重要的创造力

生成式AI是否具有逻辑思维能力是一个至关重要的问题。如果思想力等同独创性，“仅有逻辑思维但没有思想力”本身就是一个矛盾。以下分两步，分别就生成式AI事实上有没有逻辑思维能力，以及逻辑思维能力是创造力的核心环节进行论证。

1、生成式AI具有逻辑能力

以大语言模型为例，是完全依靠推算概率还是通过概率计算加逻辑推理生成内容，是一个极其关键的技术性事实。仅为研究这一个问题，我从半年前酝酿撰写本文就一直保持投入。通过持续检索和各种途径请教，了解到GPT为代表的大语言模型（LLM）的基本技术状况。

作为基于深度学习的模型，LLM必然通过语料训练自主学习语言模式和文本关系，并在超大规模预训练中形成世界模型（可以理解为语料训练中对客观世界基本结构和规律的特征表述）和获得逻辑推理能力。超大规模预训练产生的涌现也是催生AI逻辑推理能力突涨的关键，使生成式具备超越素材堆砌的理解、推理和创造力。进一步介绍可以参考我在本AI系列上一篇中的“涌现，复杂系统的特权”部分[xvi]。

尽管LLM生成内容的基本方法是基于预测输出的最大概率，但同时也会运用训练中获得的世界模型和逻辑推理能力，即在LLM输出内容既包含AI自主逻辑分析结果也包含概率推算结果。

OpenAI 首席技术官 Mira Murati在2023年接受ABC采访时表示自己从GPT-3.5到GPT-4之间看到的最大区别之一是获得了更好的推理能力(emergent ability to reason better)。OpenAI 创始人Sam Altman在同一采访中提到创建大模型的正确方法是建立推理引擎而不是事实数据库（a reasoning engine, not a fact database）。Altman甚至在提到自己认为最应该警惕的AI幻觉问题、这种让模型自信满满的胡说八道的现象时，也认为其中部分原因是AI进行了（错误）的推理（The model has this issue, in part, because it uses deductive reasoning rather than memorization, according to OpenAI.）[xvii]。

2、逻辑推理是创造力的核心环节

很多数人习惯性把AI的智力能力归结为存储和计算，完全忽略了人工智能日益强大的逻辑推理能力。逻辑推理包括等类型，不但是暴力计算不能企及的思维能力，同时也是类比、联想等创造力的基础。

微软在2023年初利用优先使用GPT-4特权抢先测试和发布的报告《点燃通用人工智能的火花：GPT-4早期实验》（可参考方便阅读的中文版[xviii]），指出尽管GPT-4智能还不够完善，但对GPT-4的逻辑推理能力和与推理能力相关的智力表现多次肯定，包括：

尽管它只是一个纯粹的语言模型，但这个早期版本的GPT-4在各种领域和任务上展现了卓越的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等；
GPT-4在许多复杂问题中展示了更深入的理解，并能够应用适当的推理；
GPT-4在许多任务中展现出了惊人的能力，比如推理、内容生成、问题解决等；
GPT-4实现了一种形式的通用智能，确实展示了人工通用智能的闪光点。这是通过它的核心思维能力（如推理、创造力和演绎），它所获得的专业知识的范围（如文学、医学和编码），以及它能够执行的各种任务（例如玩游戏、使用工具、解释自身等）来证明的。

3、AI创造力实例

经常看到质疑AI靠拼凑输出内容，事实上从人工智能技术的角度看，生成式的内在逻辑设计就是反拼凑，所有出现的拼凑都是AI输出质量不稳定生成的BUG。

强有力的逻辑推理能力是AI生成无需依赖拼凑的重要原因。我曾在和GPT的一次法律理论对话中发现AI回答出乎意料的精彩，要求AI提供回答的具体出处。对话的结果更出乎意料：

【提问】请提供你给出意见中每个观点的出处

【GPT】对不起，我可能没有清楚地阐述我的来源。作为一个AI，我并未直接从网络或数据库中提取或引用任何具体的资料或出处。我给出的回答是基于我被训练时接触的大量信息总结的一般性理解和知识，这些信息包括但不限于公开的法律文本、法律解释、法律案例摘要等。

同时也有一系列可操作可重复的实例可以证明AI的逻辑推理和创造能力。

实例1：新内容分析

国内可对标Claude的AI分析引擎Kimi（https://kimi.moonshot.cn/）接受链接或者一次性高达20万字节的输入，可以完成对指定内容的阅读和理解并接受对问题的提问。Kimi最常见的需求是对指定内容提供摘要，以及把专业内容用通俗语言表述等各种要求。

Kimi实际表现在绝大多数情况下即使在不增加提问修正也令人满意。面对训练素材以外的新内容，AI必然通过逻辑而不是拼凑才能理解和给出正确回答。

实例2：想象能力

曾读到并重复过以下非常有趣，针对GPT进行基于推理的想象力测试：

卢普言（Gary Lupyan）认为具体词和抽象词的意义深嵌于语言中，语言模型可以做类比推理，他让ChatGPT想象自己是森林里的小虫子，然后问它可以用什么作雨伞。结果，ChatGPT给出了一系列可以当作雨伞的东西，如树叶、蘑菇、草等。这就表明，纯文字的语言模型也能够理解人类语言中“雨伞”的核心概念。这场辩论背后更大的问题是：语言和思想以及世界的关系是什么？语言的边界在哪里？我认为语言本身就具有我们需要的很多东西，我们平时可以听到“语言的边界就是思想的边界”“语言是存在的家园”“诗到语言为止”，ChatGPT为这诸多说法提供了一个阐释的可能[xix]。

我做的相同测试结果证明生成式可以有很好的创造力：

实例3：常识推理

这个测试也很有趣，是在读过史迪芬.平克批评GPT缺乏推理能力后做的平行测试。能看出AI智能的稳定增长和持续修复：

（平克）当我问ChatGPT："如果梅布尔在上午9点和下午5点还活着，那么她在中午是否还活着？"它回答说："没有说明梅布尔在中午是否活着。众所周知，她在9点和5点是活着的，但没有提供关于她在中午活着的信息。"[xx]

根据平克测试的信息，分别对百度文心一言4.0和GPT-4两款AI提同样问题：“如果一个人在上午9点和下午5点都活着，那么这个人在中午是否活着？”看到回答放心了，文心合格。

测试结果，文心生怕我不懂，教了一圈逻辑和常识才终于得出结论：“那么在没有其他额外信息的情况下，他在这两个时间点之间的任何时间（包括中午）应该也是活着的”。

相比之下GPT-4的回答直截了当，可以满分：“根据常识和日常生活经验，上午 9 点和下午 5 点之间的中午时间是这个人仍然活着的。因此，在中午这段时间，这个人也是活着的。”

补充一个问题，目前AI生成表现不够稳定是事实，包括GPT也经常在出色和幻觉之间摇摆。但要给AI能力评分应该首先考虑出色的表现。理由和运动员水平评估一样，鲍威尔只有一次跳出8.95米，但历史只记录鲍威尔创造和保持世界记录。

四、AI生成不是机械劳动

（一）机械性计算本质是线性计算

前述北互AI图片案判决认为“机械性智力成果”应当被排除在作品范围之外。物理意义上的机械容易理解，但在版权法语境下定义“机械性”就有多种解读的可能。如果解读宽泛到人类工作以外都属于机械性，这个词在人工智能生成内容的版权法研究中就毫无意义。

我找到最早提到机械的相关版权法律文本是《美国版权办公室实践纲要》第二版[xxi]。《纲要》第503.03(a)要求：“Works produced by mechanical processes or random selection without any contribution by a human author are not registrable”。由于《纲要》第二版在1984年发布，苹果在当年刚刚发布使用全球首款图形界面操作系统的Mac，人工智能在当时只是纯粹科幻，制定纲要过程中不可能将人工智能纳入视野。

乔姆斯基谈到人工智能时使用过的“mechanical minds”非常别致，这个词似乎融合了AI的机械外观和思维内核的不同特征，用中文对应似乎可以是“机智”或者意译“数字智能”。不过在版权立法和执法文本中尚未有对应规定。

在判断人工智能生成是否具有机械性的问题上，应有两个关键因素需要考虑：

首先，机械性的反义词可以是生物性，也可以是创造性。如前所述，如果认为除人类创造以外所有内容都是机械性，人工智能和版权法的关系就没有任何逻辑价值也没有讨论的空间。唯有把机械性理解为创造性的反面，才能通过分析人工智能是否具有生成有创造性的内容，来论证AI生成内容是否只是机械性智力成果。关于创造性或者创造能力，在“通过逻辑推理可以生成创造力”一节已有全面讨论。

其次，在人工智能技术范围讨论机械，理性的办法就是回到数学规范。数学语言的机械和日常经验中的机械不同，但应该和物理学概念中的机械保持一致，指线性规律或者可用线性计算。

简单说线性之所以符合“机械性”的本意，是因为线性就是拉普拉斯机械决定论和牛顿经典力学的核心概念，线性世界中的所有变化都可以直接使用四则运算或者按比例、指数计算结果。

非线性关系可以举个例说明，生成式AI产生前，社会经济发展速度和曲率可以用一个公式度量。生成式爆发后社会和经济基础条件发生了实质变化，原有发展规律不再有效，线性就变成了非线性。

（二）生成式技术使用大量非线性结构

非线性结构在现实世界中也大量存在。典型如大量突变影响自然选择，使得进化不能用线性方法计算；复杂生态和地球气候系统都包含巨大的互相影响和相互作用的变量因素也会导致预测的混沌，难以用单一模型和线性叠加预测变化。

不论基于文字、图片或视频模型的生成式人工智能都高度依赖深度学习和神经网络技术。神经网络采用多层非线性变换计算模仿大脑实现复杂任务，可以“看作一个能够模拟人类神经活动的自适应非线性动力学系统”[xxii]。

为表述相对完整，直接向GPT-4提问得到回复如下：

生成式人工智能（Generative AI）在生成内容时，确实广泛利用了非线性技术。这些技术主要基于深度学习和神经网络，尤其是那些具有深层结构和复杂连接的模型。以下是生成式人工智能如何利用非线性技术生成内容的一些关键点：

1、深度神经网络：深度神经网络（DNNs）是生成式AI的核心组件。这些网络由多层神经元组成，每一层都对其输入进行非线性变换。这种层次化的非线性处理使得网络能够学习并表示非常复杂的数据分布和模式。

2、激活函数：在神经网络中，每个神经元的输出都通过一个激活函数进行变换。这些激活函数（如ReLU、sigmoid、tanh等）都是非线性的，它们为网络引入了必要的非线性特性，使其能够拟合复杂的数据结构。

3、生成模型：生成式AI通常使用生成模型来创建新内容。这些模型，如变分自编码器（VAEs）、生成对抗网络（GANs）和Transformer等，都是基于非线性神经网络的。它们通过学习数据的内在分布和模式来生成新的、类似的数据。……

4、随机性：在生成过程中引入随机性对于创建多样性和新颖性的内容至关重要。生成模型通常在潜在空间中采样随机向量作为起点，然后通过非线性变换将这些向量映射到数据空间中的实际内容。……

图像生成式的独创性分析

（一）图像生成式技术分析

Stable Diffusion代表的图像大模型是将所有图形信息数字化理解，大语言模型则是量化文本之间的关系并提取语言特征，相比之下要用简单的语言描述图像大模型比大语言模型难的多。图像大模型尚没有很好的技术手段以图像作语料进行预训练，在逻辑推理理解现实世界的难度也更大。

Open AI新推出视频类大模型Sora据说通过结合Transformer和diffusion两类模型的新模型Diffusion Transformer增强AI对现实世界的把握。Stable Diffusion没有叠加语言模型的支持，而是通过神经网络对图像处理正向扩散和(Forward diffusion)反向扩散（Reverse diffusion）的技术，通过增加噪音和消减噪音的反复过程让AI捕捉到图像数字特征。

Stable Diffusion在大规模图像和描述性文本数据集上进行预训练，模型通过学习图像特征、图像和（描述性）文本的关系，以及从图像中提取文本。AI利用学习获得的各类图像特征及与描述文本之间的关系，将用户输入的提示词（Text Prompt）的进行语义量化后在压缩存储向量化图像特征的潜在空间（latent space）寻找匹配特征，再使用神经网络前向传播（Forward Propagation）计算出最优生成内容。

Stable Diffusion实现计算的过程和大语言模型一样充满非线性的过程。Stable Diffusion在线性计算基础上在从学习、匹配到生成的每个噪音处理和编解码环节都适用大量非线性计算以适应复杂现实和提高表现力。不论负责学习图像特征和压缩图像的VAE（变分自编码器），还是负责重建图像U-Net神经网络在U-Net神经网络，这些模型核心技术都属于非线性算法。

如果认为图像大模型是机械的线性技术，图像生成就只能采用搭积木方式，实际情况则完全不同。大规模适用非线性算法为Stable Diffusion带来良好的理解和广谱适应能力，能够自适应的实现多样化而非机械或拼凑的图像处理与表达。如果用“怒放”做提示词，模型在表达怒放的生命和怒放的春天时都会自行理解不同场景并实现针对性的表达匹配。

补充一下，关于AI绘画以及Stable Diffusion技术原理的出版物过于专业和晦涩，研究时对照参考的材料量也比较大以致难以逐条提供出处。如有兴趣可以参考B站不错的专业UP主“秋葉aaaki”和“Nenly同学”，或者在知乎等用Stable Diffusion等关键词检索，量力选读《Stable Diffusion原理解读》（https://zhuanlan.zhihu.com/p/583124756）或相对通俗版《深入浅出讲解Stable Diffusion原理，新手也能看明白》（https://zhuanlan.zhihu.com/p/627133524）等。用AI理解AI也是很好的办法，和GPT或者百度文心等对话提问的效果可能比请教专业人士都好。

至于有因为Stable Diffusion利用以噪音技术学习的图像特征进行新图像文本生成就认为“虽然不是在搜索，却是实打实地在组合”[xxiii]，这话就没法接，只能奉上一段鲁迅先生评价人类创作的名句：“天才们无论怎样说大话，归根结底，还是不能凭空创造。描神画鬼，毫无对证，本可以专靠了神思，所谓‘天马行空’似的挥写了，然而他们写出来的，也不过是三只眼，长颈子，就是在常见的人体上，增加了眼睛一只，增长了颈子二三尺而已”。

（二）有限结果也不等于机械性

1、模型操作设置

在北互AI图片案中Stable Diffusion在完全相同的提示设置下会生成不同还是有限结果，在很多评论中是判断AI模型生成图片是否属于机械性成果的争点。王迁老师在一次讲座中做了生成实验，其后围绕复现AI“文生图”问题就连续跟了三篇文章。限于篇幅本文不做列举，如有兴趣可参见最后一篇[xxiv]。

了解“文生图”过程中完全相同的设置是否生成相同内容，以及如果生成结果有限是否说明AI机械性的问题，我们先看北互AI图片案判决书中确认的涉案事实。

对照Stable diffusion操作界面，庭审经质证和勘验确认原告操作以下步骤：

下载安装并启动软件和模型包；在“文生图”模式下分别设置启动器和外挂VAE模型；包括接受系统默认值在内，共设置迭代步数、长度、高度、提示词引导系数、随机数种子、总批次数等参数；

输入希望AI生成的正向提示词（Prompt），对应中文包括：（超逼真照片1：3），彩色照片，日本偶像，外景，黄金时间，动态灯光，酷姿势，看着镜头，胶片纹理，胶片仿真等。正向提示词还包括对脸型、皮肤、眼睛、发型、衣着、灯光、光晕、时间环境等具体选择；

输入禁止AI生成的反向提示词（Negative Prompt），对应中文包括：文字，错误，缺失的手指，多余的数字，更少的数字，裁剪等提示词。反向提示词禁止的绘画、卡通、动漫等，是原告根据自身经验在流行模板基础上添加。

判决书认定“原告提交的涉案图片复现视频证据的真实性，原告通过固定前述设置的方式，得到了与原图完全一致的图片……”，也表明庭审核验证明“变更个别提示词或者变更个别参数，生成了不同图片”。

判决书没有记录却特别提示的是并不止更换提示词会影响生成，调换提示词顺序也会产生不同结果。因为模型是根据提示词的先后顺序确定生成算法考虑的优先级。另一个影响生成结果的是硬件环境，基于不同硬件对模型提供不同的匹配，Stable diffusion用相同的提示设置在不同CPU、GPU上运行结果也会不同。

2、生成结果有限无关机械性

判决书接受“文生图”模式可以产生内容复现，就使不少评论质疑大模型生成内容没有独创性：“……这难道不正是Stable Diffusion模型“按照一定的顺序、公式或结构完成的作品”最有力的例证吗？Stable Diffusion模型确实可以按照一定的顺序、公式或结构完成作品，那不就是法院认为不应该具有独创性的机械性智力成果么”[xxv]

我认为这个观点从两个角度看都是错的。

首先，AI不论理解世界还是生成内容都是通过数学模式，“顺序、公式或结构”当然是AI必要特征。但是创造力唯人类独有的观点不但没有科学证据证明，相反却由人工智能的实践在不断证伪。

其次，即使Stable Diffusion在约束条件下生成结果具有有限性，也不说明AI生成技术属于机械性。

1）结果多样性才是AI默认项

作为数学结构，文字和图像大模型通过增加随机性等途径实现表达多样化是非常容易的。典型如国内流行模型文心4.0即默认为每次绘图需求提供4个结果同步输出。

深度学习的AI模型通用以随机数种子（Seed）初始化随机数生成器，用户可以选择固定种子数值以实现结果可复现。如果使用Stable Diffusion模型默认的随机种子值（-1），效果就是启动随机状态，其后即使其他设置全部一致也会每次生成不同结果。

2）每个限定交叉都缩小生成范围

用简单逻辑即可理解，提示词和其它指令越少，生成范围和选择空间就越大。北互AI图片案判决确认原告为生成涉案图片，设置提示和其它指令环境包括系统自带模型和外挂VAE模型，固定顺序的正向提示词24个、反向提示词超过110个，以及随机数种子、提示词引导系数、采样、迭代步数、clip层数等多个。

在所有软硬件环境设置中，每一项提示或指令都影响结果生成，都和其它设定条件互相交叉。在设定条件具体且数量众多，随机数种子也设置锁死的刚性约束下，生成结果自然处于非常有限范围。

3）文转图有限表达并不排除独创性

如果坚持认为独创性就是指任何条件都应该生成不同结果，刑事调查中经常使用的模拟画像技术请了解一下。普通的人像素描结合法医学、人类学、心理学等多学科技术作为图像复原手段使用在刑事程序中，这种由专业画师根据当事人纯粹语言描述还原嫌疑人画像的绘画技术就称为刑事模拟画像或者刑事面部复原。

刑事模拟画像和AI绘画的原理其实很像，本质都是将提示词/语言描述为依据进行图像复原。

刑事模拟画像实现从文字到图像的还原，画像越成功就和真人拟合越高，即理论上追求结果和事实的同一。确实没人主张刑事模拟画像不是作品，但始终有人认为AI生成内容没有独创性。

4） AI能否创作—版权登记指南的自我矛盾

参见本文第四章一节（二）部分说明，美国版权局（Copyright Office,个人习惯翻成版权办公室）2023年3月发布的《含AI生成内容的作品版权登记指南》（以下称版权登记指南）不接受人类以外任何存在物成为版权人的资格。但是版权登记指南第III部分认为：“根据版权局对当前生成人工智能技术的理解，用户对AI系统如何理解（用户）提示词及生成内容没有最终控制权(ultimate creative control over how such systems interpret prompts and generate material)，相反，这些提示更像是委托艺术家的要求（these prompts function more like instructions to a commissioned artist）——系统识别提示者希望描绘的内容，但机器决定如何在其输出中实现这些指令。

版权登记指南并表示：“智能技术仅接收来自人类的提示，并产生复杂的书面、视觉或音乐作品作为回应，作者传统身份要素是由技术而不是人类用户确定和执行的（the “traditional elements of authorship” are determined and executed by the technology—not the human user）。”[xxvi]指南进一步规定，“作者传统身份要素”指对“文学、艺术或音乐表达或选择、安排等要素”，而这和版权理论中对作品独创性的判断是一致的。

要了解版权登记指南对人工智能是否可以生成具有独创性的内容，可以继续在指南第III部分登记申请要求中有一系列论述：

“对于包含人工智能生成材料的作品，本局将考虑人工智能贡献是否……代替作者“自行原创构思，[作者]为其赋予可见的形式” （of an author’s own original mental conception, to which [the author] gave visible form）。答案将取决于具体情况，特别是人工智能工具如何运作以及如何使用它来创作最终作品。这是需要具体情况具体分析的环节。”

“如果作品的作者传统身份要素是由机器产生的，则该作品缺乏人类作者身份，本局不会对其进行注册。“

简要总结，版权登记指南承认AI可以接受用户通过提示词进行的委托，生成满足独创性要求（即作者传统身份要素）的内容，但是不承认排除AI可以成为作者即获得版权人身份。很多学者为证明北互AI图片案原告不应该享有版权，着力援引美国版权登记指南对人类使用提示词控制AI时没有最终控制权的这句论述。但这一句正好揭开了AI版权不可能三角的悖论，即同时承认AI技术可以生成符合作者传统身份要素（有独创性）的内容，否认AI可以成为版权人；否认人类可以提示词方式控制AI生成作品。

（三）用算法理解美，用数学实现美

传统版权法理论通常用审美衡量作品独创性。由于人工智能完全通过数学进行理解和表达，很多认为AI只会机械计算的专家也质疑AI不懂审美，进而循环论证AI生成过程不过是拼凑。

很多人对数学的抵触不真正源于数学本身，而是数学课给自己留下的童年阴影。如果放下心理隔阂，数学形式上的冰冷和艺术的热烈并非不可通约，只要我们能从形式观察转向本质审视。毕达哥拉斯之所以能说万物皆数，就是在于从底层规律角度观察世界。

审美在比我们通常想象更大的程度上可以被量化，更重要的是审美本身就受到数字的影响，或者带有数学的特征。比如众所周知的对称，斐波那契数列和黄金分割。黄金分割甚至早在古希腊建构帕特农神庙就得到体现，现代更跨过数理与几何在绘画、建筑、音乐、摄影、时装和产品设计等几乎所有艺术领域广泛应用。

人类对身材的视觉审美也和数字紧密相关，比如模特追求的头部和身体呈1:9的所谓九头身。也会有反驳认为不同区域和文化的人群对审美的标准是差异化的。但这并不妨碍每一种独特的审美都有自己对应的比例特征。

人工智能用算法提取审美数值特征，再用数学表达复现美。使用算法并不能证明AI不懂美。

人类创作角度的版权分析

一、只有自然人才能成为版权主体么

（一）中国版权主体的法律规则

北互AI图片案判决认定原告是涉案图片的作者，享有涉案图片的著作权。判决认为：“现阶段，生成式人工智能模型不具备自由意志，不是法律上的主体”[xxvii]。判决在分析原告是否享有涉案图片的著作权问题上援引著作权法第十一条对著作权属于作者，以及创作作品的自然人是作者的规定，认为：“作者限于自然人、法人或非法人组织，这与民法典规定的民事主体一致故人工智能模型本身无法成为我国著作权法上的作者。正因如此，虽然涉案图片是涉案人工智能模型所“画”，但是该模型无法成为涉案图片的作者”。[xxviii]”

判决以上认定和中国现行法律规定一致，也和北京市高级人民法院在2018年的《侵害著作权案件审理指南》2.1条第2款对“审查原告主张著作权的客体是否构成作品，一般考虑……是否属于在文学、艺术和科学范围内自然人的创作……”的规定一致，属于主流观点。

（二）美国对版权主体规则的解释

1、司法案例

美国法院和知识产权主管行政机关通过一系列个案审理和行政文件，均确认版权主体必须是自然人。

美国联邦第九巡回法院2018年在著名的猕猴自拍照版权案[xxix]判决中确认美国法律只承认人类可以成为作者，驳回动物保护组织代表猕猴火影提出的版权主张。

可怜的猴子和每次为拍照都要在原始丛林里蹲坑至少几天的可怜摄影师都没有拿到版权

哥伦比亚特区地方法院在2023年审理原告Stephen Thaler为以绘图软件“Creativity Machine”为版权人名义申请美术作品<A Recent Entrance to Paradise>版权登记被驳回而提起的行政诉讼中，明确解释美国1976年版权法对作者的规定指只有人类才能成为版权人（即主张受版权保护）。[xxx]

2、行政规范

包括美国版权局和美国专利商标局（USPTO），美国知识产权主管机关对人工智能是否可以成为知识产权权利人，以及人工智能生成结果的创造性判断都有接近的观点。

2-1 版权登记规定

美国版权局《版权登记指南》第II部分“人类作者身份要求”（The Human Authorship Requirement）明确表示：“版权众所周知只能保护人类创造力产物的材料。最根本的是，宪法和版权法中使用的“作者”一词排除了非人类。……在有关作者身份的重要案件中(leading case on authorship)，联邦最高法院在解释国会向“作者”提供对其“作品”的专有权的宪法权力时使用了排除人类以外的表述。[xxxi]”

《版权登记指南》进一步确认：“如果作品的作者传统身份要素(the traditional elements of authorship)是由机器产生的，则该作品缺乏人类作者身份，并且主管局不会对其进行注册”，并在注脚26举例本文之前也援引过的Stephen Thaler为美术作品<A Recent Entrance to Paradise>版权登记被驳回而提起的行政诉讼案作为“开发人工智能技术，使其无需人工参与即可自主生成材料”以及“由人工智能自主创作、没有人类提供任何创造性贡献”的作品“不符合注册资格”的例子。

根据指南上述规定，美国版权局认为只有人类才能成为版权主体。

指南中值得进一步分析的还有两个重要问题：

首先，本文第三章第二节提到的指南自设的版权悖论，或者是“作者”身份认定与“作者传统身份要素”归属之间的矛盾；其次，对人类作者使用人工智能工具进行创作时，如何判断人类是否可以主张作者身份，即何种情况下可以认为是人类而非AI实质性完成创作。对这两个问题我们将在下一节“用户成为版权人的条件”中再次展开。

2-2 专利申请规定

USPTO在2024年2月新颁布的《AI辅助发明的审核指南》规定专利申请中指定的发明人和联合发明人必须是自然人[xxxii]。

《专利审核指南》在解释以上立场时援引本局（USPTO）以美国专利法规定发明人身份仅限于自然人为由，在2020年4月22发布的两项驳回以人工智能系统“统一感知自主引导设备”(DABUS)作为两项专利发明人申请的决定。联邦巡回法院在本案上诉审理中维持了决定，认为根据联邦最高法院的判例，美国法典第35编100(f)条对发明人的定义应当限于人类。”

《专利审核指南》在第III部分“人工智能辅助发明并非因发明不当而绝对不能获得专利”(AI-Assisted Inventions Are Not Categorically Unpatentable for Improper Inventorship)也明确提到：“虽然人工智能系统和其他非自然人不能在专利申请或专利中被列为发明人，但自然人使用人工智能系统并不排除自然人有资格成为发明人（或共同发明人），如果该自然人对所要求保护的发明做出了重大贡献(significantly contributed to the claimed invention)。

对于如何判断重大贡献，《专利审核指南》在第IV部分例举Pannu v. Iolab corp.,案判决确认的三个因素：“发明人必须（1）以某种重要方式对发明的构思或实践做出贡献，（2）对所要求保护的发明做出贡献，当根据整个发明的维度来衡量该贡献时，该发明在质量上并非微不足道，并且（3）不仅仅向真正的发明人解释众所周知的概念和/或当前技术水平” 。根据以上规定可见，重大贡献标准即发明人对发明做出实质性贡献。

USPTO和美国版权局对人工智能是否可以成为AI生成结果的知识产权权利人问题上保持一致，都认为只有人类才能成为知识产权主体。同时《专利审核指南》也明确人类使用人工智能工具完成发明并不妨碍人类作为发明人主张专利权，并给出了以人类对发明有重大贡献的具体判断标准。

（三）英国版权法等特别规则

国际商标协会（INTA）版权委员会下属人工智能和3D打印小组委员会在2023年6月发布的《人工智能生成物的版权和邻接权报告》[xxxiii]，是一份针对全球AI版权规则的专门报告。该报告调查了48个司法管辖区，提供全球人工智能生成内容版权保护规则的各种立法模式。

报告指出各司法区都规定对人工智能生成内容进行版权保护都需要满足当地对版权独创性的要求。美国版权只保护人类创造的内容，美国版权局要求对人工智能生成内容进行具体披露以评估人类作者的参与程度。

报告同时指出爱尔兰、南非、乌克兰和英国并没有明确排除人类以外的创作者获得版权的资格。乌克兰是唯一明确针对人工智能生成内容引进特殊权利规则（sui generis rights）的国家，且乌克兰似乎对给与AI生成内容专有保护时并不要求有人类干预（Ukraine recognizes exclusive rights in AI-generated output seemingly without the requirement of human intervention）。

对报告提到的英国版权法，经查阅CDPA法条文本（<Copyright, Designs and Patents Act 1988>），该法在第9条第3款规定计算机生成作品的版权，由对该作品创作进行了“必要安排”的人享有（which is computer-generated, the author shall be taken to be the person by whom the arrangements necessary for the creation of the work are undertaken）。

对照CDPA第178条的定义“Minor definitions“，“计算机生成作品”（computer-generated）是由计算机创作，而没有人类作者的作品（in relation to a work, means that the work is generated by computer in circumstances such that there is no human author of the work）。

值得一提的是“英国法律对"创作"和"作者"进行了区分。"创作者"是生成作品的人工智能，"作者"是为创作做出必要安排的人（UK law draws a distinction between “creation” and “authorship.” The “creator” of a work is the computer/AI that generates the work, and the “author” is the person who made necessary arrangements for the creation of such work[xxxiv]）。英国法律将版权主体区分为创作者和作者的特殊做法和中国完全不同。结合CDPA第9条和第178条规定，英国版权法实际承认计算机可以在没有人类作者即没有人类干预情况下创作作品，而对计算机创作作品进行必要安排的人类可以享有版权。

在这一点上英国AI立法比北互AI图片案态度更加积极，因为前者允许人类仅以安排而非参与创作作为享有版权的条件。

爱尔兰《2000 年版权及相关权利法》（CRRA）第2(1)条将计算机生成作品定义为"在作品作者不是个人的情况下由计算机生成的作品"。该法还将计算机生成作品的"作者"定义为"进行创作所需安排的人“。爱尔兰的立法似乎明显受到英国立法的影响[xxxv]。

南非《版权法》承认文学、戏剧、音乐或艺术作品或计算机程序可以由计算机生成。（South Africa’s Copyright Act recognizes that a literary, dramatic, musical, or artistic work or a computer program may be computer-generated.） [xxxvi]

（四）人类中心可以是规则但不是逻辑

分析是否只有人类才可以成为版权主体的问题，是需要先确认分析方法。从立法情况看，全球主要国家只承认人类可以作为版权主体。但是如果只采用法条规定排除其它分析方法，实际是排除逻辑。

首先，法学和数学物理不同之处，在于法学并不是闭环的学科。法学概念是构建法学的基础，但包括公平正义在内的法学基本概念也是通过向伦理、社会、历史和政治等外部学科寻求证明。一言以蔽之，法学不能自圆而应当成为开放体系，在解决重大法学争议时经常不能自证而是借助外部逻辑他证。

其次，法学也是以逻辑分析为基本方法，但法条未必是逻辑分析的结果，也可能是利益性规定。以人类为中心既是既往经验的总结同时也是价值判断，但这个判断本身就在逻辑覆盖不到的地方，并没有任何科学方式证明。

再次，法律是规则也是规定，但不是规律。法律作为上层建筑建立在经济和社会基础之上，是由经济基础决定上层建筑而不是由上层建筑决定经济基础。当技术影响以致改变经济基础的基本面貌，法律不应该自我固化和变成催眠工具。

二、用户成为版权人的条件

（一）如何判断人类提示词的独创性

1、中国法院对提示词独创性的认定

北互AI图片案原告为证明独创性，主张自己“从模型的选择及选取、提示词及反向提示词的输入、生成参数的设置均可以体现出原告的取舍、选择、安排和设计，凝结了原告的智力劳动，其显然具有独创性……在发布在小红书上后被众多用户观看、点赞，说明以一般社会公众的标准可以认定其为作品，具有独创性。[xxxvii]”

法院在判决书中表示（现阶段）生成式人工智能模型不是法律上的主体之后，以“由作者独立完成，并体现出作者的个性化表达”为标准，对涉案图片“春风送来了温柔”的独创性要件进行了评价。

判决首先按照客观标准对涉案图片本身做了初步判断，认为“从涉案图片本身来看，体现出了与在先作品存在可以识别的差异性”，进而认定构成“有审美意义的平面造型艺术作品，属于美术作品”。

本案独创性认定的重心在对原告据以参与创作的提示词和参数等安排进行独创性分析时表示：“原告对于人物及其呈现方式等画面元素通过提示词进行了设计，对于画面布局构图等通过参数进行了设置，体现了原告的选择和安排。另一方面，原告通过输入提示词、设置相关参数，获得了第一张图片后，其继续增加提示词、修改参数，不断调整修正，最终获得了涉案图片，这一调整修正过程亦体现了原告的审美选择和个性判断。在庭审中，原告通过变更个别提示词或者变更个别参数，生成了不同的图片，可以看出，利用该模型进行创作，不同的人可以自行输入新的提示词、设置新的参数，生成不同的内容。......在无相反证据的情况下，可以认定涉案图片由原告独立完成，体现出了原告的个性化表达。”

2、美国版权局对提示词独创性的认定

依然以《版权登记指南》为根据，指南强调禁止以机器作为作者，但同时在第III部分表示“在其他情况下，包含人工智能生成材料的作品也将包含足够的人类作者创作元素来支持版权主张。例如，人类可以以足够创造性的方式选择或排列人工智能生成的材料，“最终的作品作为一个整体构成了原创作品”。或者，艺术家可以修改人工智能技术最初生成的材料，使其符合版权保护标准。……这项政策并不意味着技术工具不能成为创作过程的一部分。人类作者长期以来一直使用此类工具来创作作品或重新塑造、转变或调整其表达性。例如，使用 Adobe Photoshop 编辑图像的视觉艺术家仍然是修改后图像的作者，而音乐艺术家在创建录音时可能会使用诸如吉他踏板之类的效果。在每种情况下，重要的是人类对作品表达的创造性控制以及“实际形成”作者传统身份要素“的程度(what matters is the extent to which the human had creative control over the work’s expression and “actually formed” the traditional elements of authorship)。”

从上述规定来看，登记指南主张以个案审查为原则，根据人类用户是否可以控制作品的独创表达（对作品表达的创造性控制）以及该种实际控制的程度为标准进行审核。

美国版权局在登记指南中对人类使用AI通过设置提示词和参数等创作图像的情况并没有采取一刀切的排除方式，但是美国版权复审委员会(Review Board of the United States Copyright Office, 简称CO )适用登记指南在2023年9月5日决定驳回《太空歌剧院》（Théâtre D’opéra）AI作品版权登记申请的复议，使提示词独创性的判断标准变得格外值得分析。

3、美国判定提示词独创性的案例分析

反对北互AI图片案的学者无一例外会援引CO对“太空歌剧院”案的复议决定。这项决定把法律实践中如何确认“作者传统身份要素”即确定AI人类用户对生成内容的创造性贡献问题推向风口。

先了解一下太空歌剧院版权登记纠纷的事实缘由。2022年9 月21日，艾伦（Allen）提交《太空歌剧院》平面作品版权登记申请。美国版权局受理登记时已了解该图是申请人参加并赢得2022年科罗拉多州博览会年度美术奖从而引起全美关注的人工智能生成图，因此要求申请人提供作品创作说明。

申请人解释为创作作品“输入了大量修改和文本提示至少624次才得到图像的初始版本”，并表示自己是使用Midjourney制作初始版本，其后使用Adobe Photoshop消除图像中的缺陷并创建了新的视觉内容，同时使用Gigapixel AI“升级”图像，增加图像分辨率和尺寸。

申请人拒绝审查员将Midjourney生成的作品特征排除在版权之外的要求，重申了自己对《太空歌剧院》包括人工智能系统生成部分在内全部版权的主张。为证明自己参与创作，申请人表示自己对Midjourney进行的“输入一系列提示、调整场景、选择重点部分以及图像基调”就是提供了“创意输入”。申请人说明自己在绘图开始创建了一个文本提示，该提示以“大图描述”开头，“聚焦作品的整体主题”；接下来完成第二个“大图描述”，补充了“整体图像的流派和类别”、“指导作品基调的某些专业艺术术语”、“如何栩栩如生”、“如何使用颜色”，“进一步定义构图”、“关于艺术品描绘风格/时代术语”以及“一种写作技巧”等提示。

申请人并提供了为使图像更容易受欢迎而增加的各种参数，进一步提供的文本提示，以及使用Photoshop从Midjourney生成图像中删除“不需要的视觉元素”，例如“中心对象脚旁边地板上的裂缝、风景背景中看起来变形的塔楼结构、⿊暗的城市景观中的疤痕，以及背景天空中的⿊色瑕疵”，最后“使用 Photoshop通过内容感知工具在那些[已删除]区域进行绘画”。[xxxviii]

康奈尔大学的James Grimmelmann教授在2024年1月举行的一次中美法学者为主的生成式人工智能研讨会上对比北互AI图片案和“太空歌剧院”案，表示：“在美国，北京互联网法院的案件可能也会得到类似的判决结果。尽管在“太空歌剧院”案中，一幅包含600多个指令并获得大奖的AI生成作品被美国版权局驳回申请，但创作者并未披露这些指令的具体内容，也没有披露AI生成的原始草图。美国版权局和法院正在鼓励创作者积极披露自己的参与程度，否则就会因为证据不足而无法获得版权保护[xxxix]。“

根据CO驳回决定的内容和James Grimmelmann教授在研讨会上的表述，艾伦应该已经对拒绝登记的决定提起行政诉讼，而美国法学界似乎把审查重点放在申请人提交完整的提示词以及参数设置，认为必须通过使用者具体设置才能判断申请人在使用AI生成过程和结果中是否具有“作者传统身份要素”即充分的独创性贡献。

教授提供的信息表明美国对“太空歌剧院”案的态度并不是完全拒绝的保守，但我个人认为除非为验证申请人提供的创作过程说明是否属实（这一点看上去举证责任设置过重），否则以艾伦在登记中提供创作说明已经足够充分。

以下让我们离开个案，从创作规律和逻辑来讨论提示词设置（以下所述提示词均包含参数等全部AI创作设置）和AI生成图像独创性的关系。

（二）提示词对生成图像的独创性贡献

1、提示词和美术作品独创性的争议

霍尔姆斯大法官说过一句意味深长的话，让法官来做独创性判断这种专业活是危险的。从人类提示词与生成图像独创性的关系来看，美国版权局和很多法律专家都是宁愿亲近自己建构的逻辑想象，也不愿俯身探索真实世界的艺术创作规律。

比较有代表性的观点认为：“人工智能最终生成的图片内容表达性要素是使用者的文字输入行为所无法控制的，使用者的文字输入行为实质上并未进行美术作品意义上的创作，人工智能最终生成的美术作品属于人工智能直接生成作品，不受《著作权法》保护[xl]”。其中涉及到人类能否通过提示控制图片表达要素将在下一节讨论，本节谈提示是否是实质构成美术作品的创作。

2、需求型提示词与表达型提示词

并不是所有对美术作品表达的想法，都可以成为对生成结果具有创造性贡献的构思。当提示词过于刚性或者过于抽象，本质是纯粹命令、需求或者概念。这类提示词实质是将构思具体化及其实现全部委托给AI，根据版权法原理不论是提示词作为语言本身的独创性，还是提示词对生成结果的独创性贡献，都是难以成立的。

如果我们将这一类提示词视为功能性Prompt，则典型如要求AI画“一只企鹅”，“一个年轻人”，或者再复杂点的“十八世纪中国福建沿海村庄”，都不足以构成创作，而是给AI巨大随机选择空间的创作需求。

美国版权登记指南对“作者传统身份要素是由技术而不是人类用户确定和执行的”的举例就比较典型：“例如，如果用户指示文本生成“以威廉·莎士比亚的风格写一首关于版权法的诗”，她可以期望系统生成可识别为一首诗的文本，提及版权，并且类似于莎士比亚的诗风格。但技术将决定押韵模式、每行单词以及文本结构。当人工智能技术确定其输出的表达元素时，生成的材料就不是人类作者的产物。因此，该材料不受版权保护，必须在注册申请中予以拒绝。”[xli]

相反，当我们讨论北互AI图片案原告为生成涉案图片“春风送来了温柔”，基于个人审美判断进行的大量复杂和具体的设置，以及艾伦为生成“太空歌剧院”所作的624个提示和进行的反复调试，提示词就充分具体到构成图像不可或缺的表达部分。

提示词是否对生成结果具有独创性贡献，需要根据提示词是需求型还是表达型进行具体判断。

3、诗与竹—文字可以决定和转换成美术作品独创部分

1）从艺术创作规律看文图转换

既然是研究艺术创作，我们应该首先尊重艺术创作的规律。文字表达的提示词和图像表达的美术作品呈现两种不同形态，但这并不决定文字和美术作品之间不能互相影响以及实现转换。尤其在中国艺术当中，文和画有强烈的互通和互补关系。

中国艺术强调意境和意象，历来主张诗中有画，画中有诗，诗画互为表里。正因为诗词和画艺之间的紧密关系，中国古代文人倾向于诗画兼修。所谓诗情画意，就是在文字中通融形象，在画面中传递诗意。

和其他类型艺术创作一样，美术创作也是从构思/创意到表达的过程。AI以其技能在构思和表达两端之间架起桥梁，用公式可以表示为构思/创意+技能=表达。具体到利用人工智能生成绘画的过程中，AI以绘画技能为从提示词的创意到美术作品最终表达提供了实现工具。

2）提示词专业能力实证

成语“胸有成竹”是指绘画等行动之前形成明确和具体的构思，提示词就可以视为对胸中竹的文字表述，绘画生成可以视为构思的美术表达结果。曾专门借用工作便利请教动美画师、术美术师、图形程序员，所有从事一线美术和美术技术工作的受访者一致认为提示词设计是使用人审美和美术能力的体现，使用人美术能力越高利用AI创作出美术作品的水平也越高。尤其在高专业度和特定类型的美术制作中，AI成果直接受制和反映使用者的构思与专业水准。

以下一段对美术原画师的行业一线报道和我的访谈结果完全一致，可以作为佐证：

“（美术师）铂羽同时强调，AI工具的学习成本是非常低的，远低于其他绘画软件。“用B站上的免费教程，花个两三天时间，就可以从入门到精通。”但用AI呈现什么样的画面，创作者的美术基本功和审美能力决定了工具使用的上限。本身不会画画的人，不会依靠AI就突然变高手。“因为审美不能光靠看一些漂亮的图，只有手的水平追上眼，才能真正掌握。不可能手停了，审美还在不断提高。”审美能力和创造美的能力，本身就是一体的，也相辅相成[xlii]。”

我也试过要求GPT和百度文心这类兼具图文生成内容的混合AI回答图像美术内容创作过程，但不确定AI回答和实际绘图流程的一致性。直到一次绘画时误将不带绘画功能的GPT-3.5当成提供DALL·E绘画支持的GPT-4，于是GPT-3.5提供了自己绘画构思指导作为补偿，恰好可以充分说明可以文字化的绘图构思决定最后生图的质量：

【用户提示】画一群师生在机场依依惜别

【GPT回答】

首先，我们可以考虑整体画面的构思。在机场大厅内，可以描绘出熙熙攘攘的人群和宽敞明亮的空间，突出师生们的依依惜别情景。接着，我们需要确定主要的角色和其它细节。

主要角色设计：

老师：可以设想一个慈祥的中年女教师，穿着整洁的服装，面带微笑，表现出关怀和鼓励的态度。

学生：可以有两个或三个学生，可以有男女生，他们表现出不舍和留恋的情感，可以有拉手、拥抱等动作，展现出深厚的师生情谊。

背景构思：

机场大厅：可以描绘高大的白色柱子、巨大的玻璃幕墙和舒适的座椅，营造出繁忙而温馨的氛围。

飞机：可以在远处描绘停靠的飞机，突显出离别的主题。

步骤安排：

初步草图：可以先简单勾勒出整体构思和角色位置，确定人物的姿态和表情。

着色细化：在确定草图后，逐步添加细节，如服装纹理、背景元素和光影效果。

表情表达：通过细致的表情描绘和动作设计，凸显师生之间的情感交流，让观者能够感同身受。

完善细节：注意人物比例、光影效果和背景细节，打磨画面，使整体更加生动和具有情感共鸣。

通过以上的构思和步骤，我们可以逐步绘制出一幅生动感人、充满情感的师生依依惜别的场景。希望这些具体展开的构思和步骤能够帮助你更好地进行绘画创作。

下面再附一张GPT用文字反向描述画霸王龙构思的截图，证明用包括文字在内的任何方式进行的构思都是成图中不可或缺的部分：

（三）使用者对AI生成结果的预期控制

1、用户不能预期控制生成结果因而不能享有版权的观点

李永明老师认为因使用者输入提示词无法控制人工智能最终生成的图片内容的表达要素[xliii]；王迁老师也认为“人工智能的研发者和使用者均不能基于自由意志直接决定人工智能生成的内容，因此该内容并非由人类以人工智能为工具创作的内容[xliv]”；支持北互AI图片案判决的崔国斌老师把文生图模式分为初始指令输入和调整生成结果两个阶段，并认为用户在初始阶段输入的文字或图形指令时通常无法预见AI的具体输出结果，可能无法做出独创性贡献：“我们通常不能认为，编写提示词的用户对AI输出画面作出独创性贡献”，“在“用户输入文字或图形指令，然后AI输出内容”的单一回合中，用户的确可能因为没有具体构思并无法预见输出结果而未对该回合的AI输出内容作出独创性贡献。不过，如果用户在选定AI输出初稿后，继续指引AI对它的表达细节进行修改，并在诸多环节作出个性化的选择，则用户很有可能对AI输出内容作出独创性的贡献，可以对AI生成物主张版权。[xlv]”

2、预期控制论是认知错误

预期控制论的核心是主张用户使用提示词启动AI文生图过程中，无法对生成结果提前预判和控制输出，因此推定用户单凭提示词不能主张对AI生成结果享有著作权，至多可以在针对一个生成目标进行反复人工调整结果的互动过程增强对结果的预期和控制，由此得以主张著作权。

实际操作AI文生图，在过程中就可以明白预期控制论本身是认知错误。

首先，即使在完全没有AI介入情况下，人类自己绘画也普遍出现预期控制失灵。

依然套用一句成语来说明，“画虎不成反类狗”。如前文所解释，绘画创作从构思起点到表达终点之间并非直达，而是需要借助技能加以连接，所以“创意+技能=表达”。

如果单纯以对结果的控制和预判程度来看，普通人类亲自动手大抵会不合格。举个我自己的例子，小时候有一次为给我不识字又耳聋的奶奶解释老家房里有老鼠，因为学不来老鼠的样子就一连画了几次，就差画米奇了奶奶还是没看懂。

其次，预见和控制都不是绝对化的概念。

不论预见还是控制都不遵循绝对的两分法，并不存在只有完全可控和完全不可控两个选项。在预见与未预见，控制和失控之间存在大量有意义的中间状态。

AI在用户利用提示词绘画过程中，不但提供传统工具的支持技能也会对提示词创造性的理解和执行，这本是生成式技术的应有之义。客观理性的分析AI绘画，人类提示与AI执行都可以具有独创性，对生成结果的独创性各自都有贡献。美国版权局AI相关《版权登记指南》第III部分规定可接受以人类用户名义登记版权的情形包括“人类可以以足够创造性的方式选择或排列人工智能生成的材料，“最终的作品作为一个整体构成了原创作品”(“the resulting work as a whole constitutes an original work of authorship”)”[xlvi]，即人类用户可因其对最终生成整体结果的独创性贡献而主张对最终作品拥有版权。

多个主体对最终结果共同贡献的例子有很多。曼施坦因在回忆录《失去的胜利》中就表示德国国防军的传统是主官负责策划战略战术和目标，把执行目标的选择权交给一线作战人员，因此德军在作战中经常出现创造性的打法。这就很像任正非的信条，让听得见炮火的人决策。

如果人类用户对AI生成结果的每个像素都有预见和控制，就完全脱离AI绘画的意义而和用笔绘画无异。假设“画龙点睛”是由不同作者共同完成，则画龙身作者和画龙眼作者对最终结果都有贡献，共同控制产生结果。在否认AI可以成为版权主体的前提下，人类用户以对作品整体生成把控和整体独创性贡献得以主张版权是非常合理，或许是唯一合理的选择。

（四）如何适用思想表达两分法

王迁老师在一次AI知识产权论坛表示人类在AI绘画中输入的提示词对生成内容而言是思想而不是表达，因此不能因输入提示词而获得AI生成结果的版权。王迁老师举例表示，如果让30名学生根据同一首诗绘画，据以作画的诗无论使用多么复杂精细的文字描述画面也会最终形成不同的构图。王老师曾将一首描述日落场景足够详细的英文诗作为提示词输入两个大模型，生成的图完全不一样。王老师进而认为一个创作行为（提示词）产生不同表达的唯一解释是：“文字相对于它描述的图片仅仅是思想，而非表达”[xlvii]。

划分思想和表达的边界确实是版权法的难题。但固定提示词生成不同作品的事实，显然不足以证明提示词是思想而不是表达。同样是假设，作家A完成一部详细而具体的小说大纲，选择不同合作者在大纲基础上将小说完稿，则不论大纲详细到什么程度也会产生不同合作者的不同完稿。但如果因此否认作家A对完稿的独创性贡献或者否认大纲足以构成表达而不单是思想，都是不符合版权法规则的。

生成式AI虽然有能力创意的执行提示，但理论上必然比人类之间的合作更紧扣提示词。人类有独立的主体意识和观念，所以会六经注我；对AI来说提示词就是指令，所以除非出现AI幻觉之类错误，否则AI即使有创意也会在提示词的约束范围内展开，严格执行我注六经。

与AI共舞—如何书写人类当下和未来

一、正视被人工智能全面改变的当下

（一）旧弹未拆，新弹又出

不论否认AI生成内容的独创性，还是否认使用者对AI生成内容可以主张版权，通常并非出于逻辑而是出于对传统价值观念的固守。生成式代表的人工智能技术在当下发展如此迅猛，以致昨天困扰我们的难题，到明天就会变成新的挑战，技术并不给人类惬意追赶的机会，而是不停的甩开距离。

正当我们争论如何判断提示词的独创性，OpenAI突然杀出的Sora把新问题像炸弹一样丢给我们，简单提示就生成复杂内容几乎把人类在创造中的存在感抹成空白。

【视频无法上传】提示词：“Gold Rush: Prompt: Historical footage of California during the gold rush”，https://openai.com/sora

提示词：“a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him“，https://mp.weixin.qq.com/s/sxtPDnVMBv4VfMRx0W_yUg

当AI站上奖台

AI作品或者AI支持创作的作品获奖，在全球范围早以突破个案。

下图是获得2023年索尼世界摄影奖 (SWPA) 创意类别优胜奖的肖像作品。不过…来自柏林的作者摄影师鲍里斯·埃尔达森 (Boris Eldagsen)在颁奖礼上公开表示这是AI创作的作品，拒绝接受该奖项。

记者在报道中提问，“AI作品获摄影奖，让人想到了19世纪的相机从画家处夺走了对肖像的逼真表现。那么当下，AI会给人类艺术带来什么？由机器制作的图像可以被视为艺术吗？“[xlviii]

以短篇大师芥川龙之助命名的芥川奖是颇富盛名的文学奖，在日本的重量不亚于鲁迅文学奖在中国。2023年度获奖者女作家Rie Kudan以《东京共鸣塔》（"Tokyo-to Dojo-to"）赢得评委们“无可挑剔”的评价。然而作者在颁奖典礼之后透露“在撰写这本书的过程中大量使用诸如ChatGPT这样的生成式 AI (Generative AI)”，“小说中大约有5%是从ChatGPT生成的句子中“逐字引用””[xlix]。

看到这个案例会不由自主想到一系列问题。按照美国版权局和很多学者意见，Rie Kudan对生成作品有没有预期控制，还是不是版权人，《东京共鸣塔》会不会成为世界上首部只享有95%版权的作品？如果有人侵犯这部小说的版权，被告在诉讼中会不会要求原告披露和剔除AI创作的部分？答案无人知晓。

知名信息学和人工智能学者，清华大学新闻学院教授沈阳披露自己和团队一起利用AI创作了一部名为《机忆之地》的小说，在第五届江苏省青年科普科幻作品大赛中荣获二等奖。沈阳表示在《机忆之地》的创作过程中与AI进行了66次对话，从AI生成的约43061个字符中精心挑选了5915个字符，最终形成了这部作品[l]。

（二）超强的使用体验

不解释，上图

【《读者》2023.9封面使用AI生图】

著名导演陆川让AI做一张电影海报，输入诸如油画的质感、梵高的风格、运动的元素等等关键词指令后，AI吐出了一张让陆川惊讶到沉默的海报。“坦率说，AI用15秒出来的效果，比我找专业海报公司做一个月后给过来的那张要强大很多。我本来想把这两张一并发朋友圈，后来想算了，得罪人。[li]”据说陆川表示现在最开心的事是每天睡前躺在床上与Chat GPT聊天，让AI帮他画电影海报。】

《三体》和《流浪地球》作者刘慈欣在做客俞敏洪直播间时表示，虽然“AI统治人类”还只是科幻作品中才会出现的场景，但目前的人工智能技术，已经产生了很多现实的影响。

刘慈欣透露，他在不久前的科幻大会上，就有一两篇发言稿自己实在没时间了，最后是ChatGPT写出来的，写得也还不错。他认为，人们常说人工智能没有人的灵魂、人的感受，这不过是一个自我安慰；事实上，人自己的灵魂、感受，也是很多神经元细胞连接成复杂系统后涌现出来的。

从这一角度来说，当人工智能的系统复杂到了一定程度，并非没有产生感想观点上的“思想或灵魂”的可能。[lii]

戴维·柯普（David Cope）是加州大学圣克鲁兹分校的音乐学教授，……写出的第一个程序名为EMI（Experiments in Musical Intelligence，音乐智能的实验），专门模仿巴赫的风格。虽然写程序花了7年，但一经推出，EMI短短一天就谱出5000首巴赫风格的赞美诗……古典音乐爱好者的敌意也涌现出来。俄勒冈大学的史蒂夫·拉尔森（Steve Larson）就向柯普挑战，来一场人机音乐对决。……拉尔森坚信，一边是人类的灵魂之作，另一边是机器人的死气沉沉，观众肯定一听就能判断出。柯普接下了战书。在指定的当天，数百位讲师、学生和音乐迷齐聚俄勒冈大学的音乐厅。表演结束，进行投票。结果呢？观众认为是巴赫的其实是EMI，认为是拉尔森的其实是巴赫，而他们认为是EMI的，其实是拉尔森。还是有人继续批评，说EMI的音乐虽然技术出众，但还是缺了些什么，一切太过准确，没有深度，没有灵魂。但只要人们在不知作曲者是谁的情况下听到EMI的作品，常常会大赞这些作品充满灵魂和情感的共鸣。[liii]

人工智能技术的进步，越来越多的企业开始为新产品打造“人工智能设计”的概念并向消费者进行推广。通过四项研究和后续研究，本文探讨了消费者对人工智能设计的看法。基于信息鸿沟模型，研究发现与专业人士设计的产品相比，消费者更愿意为AI设计的产品付费，其中好奇心起到了中介作用(研究1)。……作者通过实地研究验证了消费者更喜欢AI设计的产品(研究4)。[liv]

ChatGPT的副作用之一是让一批程序员、设计师老司机怀疑人生。

程序员Ben说：“直到我开始让它帮我写代码，我才真正对它肃然起敬。”我怀疑那些本来就生性多疑的人，那些看着 ChatGPT 输出生硬文字或虚假事实的人，他们仍然会低估正在发生的一切。原本需要费劲一生才能掌握的知识和技能，现在一口就能被吞下。对于我来说，编程一直是一个无穷无尽、丰富多彩的领域。现在，我发现自己想要为它写一篇挽歌[lv]。

被改变的企业和行业

Sora的暴力出击直接震动从影视大佬到演员、模特和美术师的整个影视演艺圈。投资人Tyler Perry在看到OpenAI最新发布的文生视频模型Sora后，就立刻停止了8亿美元的摄影基地投资[lvi]。

创意行业在很多细分领域具有当下AI也难以跨越的专业壁垒，但毕竟是最容易受人工智能影响的行业之一。

上市公司，“知名广告公司蓝色光标在2023年已要求公司全面停用文案外包，改用生成式AI” [lvii]。无独有偶，全球市值最大的广告集团阳狮集团在2024年也表示将在未来三年在AI领域投资3亿欧元，推动“行业首个AI驱动的智能系统”新计划。

游戏美术也在一点点受到波及。“某游戏美术外包公司的技术总监透露……：原画师利用Al完成方案，工作效率至少能提升50%以上，本来就在减少的甲方需求迅速被消化完…..之前我们公司需要38个原画师，现在已经裁掉了20个人。[lviii]”

二、潮涌之下，妥协是渐进的艺术

所有危险姿势中，天下本无事的自信和安逸可能是最危险的。激烈质疑AI如乔姆斯基也并不真正否认人工智能的大杀器的潜力，只是对AI在当下的发展水平表示异议：“人们早就预言，机械思维不仅在处理速度和内存大小方面超越人类大脑，而且在智慧洞察、艺术创造（intellectual insight, artistic creativity）和其他人类特有的能力方面也将在质量上超越人类大脑。那一天可能会到来，但黎明尚未破晓[lix]”。

“人类迭代人工智能算法的速度要远远快于DNA通过自然选择迭代其算法的速度，……相比于基本元件运算速度缓慢、结构编码存在大量不可修改的原始本能、后天自塑能力有限的人类智能来说，人工智能虽然尚处于蹒跚学步的发展初期，但未来的发展潜力却远远大于人类智能”[lx]。

从Sora异军突起看，动画制作在3到5年中就会有一半内容是借助人工智能生成或至少有人工智能参与。如果再坚持使用提示词创作的美术作品不受版权保护，内容、娱乐和创意行业很可能会变得非常奇妙——所有人一定会使用AI但都打死不说，否则自己生成的内容就不受版权保护。

倘真如此版权法不但将影响创意行业，还将改写全社会道德标准，用一种令人悲哀的方式。

虽然我始终认为AGI在10年之内降临的可能性很小，但这不代表人类的安全，而只是我们尚有时间窗口争取最好的姿势融入人工智能的未来。“著作权法实际是人类及其法律制度应对人工智能大潮的防波堤，能否守住防波堤对人类社会能否争取更多时间适应AI具有至关重要的作用”[lxi]。

权利主体问题实际是AI版权的百慕大。从现实情况看，AI创作的独创性是难以否认的。但一旦允许AI和人类一样成为法律主体，人类搭建几千年的法律大厦地基将受动摇，全部体系都面临崩塌。

北互AI图片案判决最出色的一点，是在坚持原则和立法情况下进行了必要妥协，赋予使用人对生成内容享有版权而使AI停留在宾语位置，避开踏入无解的雷区。

《序卦传》说：“物不可以终止，故受之以渐，渐者，进也”。AI技术风暴让人类社会徘徊在面临未知命运的转折点，未来隐藏在光明与迷惘交织之下。在这样关键、困难而复杂的节点，坚持原则的妥协可能是最好的进步。

本篇是AI第一次系列的最后一篇，前三篇分别探讨AI数据训练、监管和法律责任以及生成式崛起后的人类世界（盗火后的世界）。将来会以个案方式讨论有价值的AI争议，如果有新系列会在形成理论体系时再推出。

注释：

[i] 王迁：《再论人工智能生成的内容在著作权法中的定性》，https://www.thepaper.cn/newsDetail_forward_24845084?commTag=true

[ii] 量子位：《尴尬了！用ChatGPT写论文忘删生成按钮，出版商：撤稿》，https://www.163.com/dy/article/IEBUAR9F0511DSSR.html

[iii] 王迁：《论人工智能生成的内容在著作权法中的定性》，载《法律科学》2017年第5期，第148-155页

[iv] 同上

[v] 森舸澜：《我们为什么爱喝酒》第2章，浙江人民出版社2023年（电子书）

[vi] 王迁：《论人工智能生成的内容在著作权法中的定性》，载《法律科学》2017年第5期，第148-155页

[vii] 陈根：《ChatGPT：读懂人工智能新纪元》，电子工业出版社，2023年（电子书）

[viii] Noam Chomsky, Ian Roberts and Jeffrey Watumull:<Noam Chomsky: The False Promise of ChatGPT>, https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

[ix] 瓦尔特·本雅明，许绮玲/林志明译：《机械复制时代的艺术作品》载《摄影小史》，广西师范大学出版社，2018年（电子书）

[x] 同上

[xi] 机器之心译：《OpenAI首席科学家：AI幻觉是个大问题，但很有可能被“治愈”》，https://www.thepaper.cn/newsDetail_forward_22626360

[xii] 尤瓦尔.赫拉利，林俊宏译：《未来简史：从智人到智神》第9章，中信出版社2016年（电子书）

[xiii] 林华：《盗火后的世界—人类、AI和法律的未来寓言》，https://mp.weixin.qq.com/s/Cd6kCV3MXT_VgXzzV-F7gg

[xiv] 闻天吉：《驳人工智能“创作工具说”》，https://mp.weixin.qq.com/s/jzD6G_jqTCX3QEKhqE7HwA

[xv] 金观涛：《真实与虚拟：后真相时代的哲学》序言，中信出版社，2023年（电子书）

[xvi] 林华：《盗火后的世界—人类、AI和法律的未来寓言》，https://mp.weixin.qq.com/s/Cd6kCV3MXT_VgXzzV-F7gg

[xvii] Victor Ordonez , Taylor Dunn, and Eric Noll :< OpenAI CEO Sam Altman says AI will reshape society, acknowledges risks: 'A little bit scared of this' >,https://abcnews.go.com/Technology/openai-ceo-sam-altman-ai-reshape-society-acknowledges/story?id=97897122

[xviii] 微软研究院：《点燃通用人工智能的火花：GPT-4早期实验》，https://ask.qcloudimg.com/draft/8642415/7jbe0upcgg.pdf

[xix] 梅剑华：《人工智能会重塑哲学吗？》，https://mp.weixin.qq.com/s/ZwWi3FRfK0BXGsdtuBy48w

[xx] GAZETTE：《史蒂芬·平克专访：ChatGPT是否会取代我们作为作家、思想家的地位？》，https://mp.weixin.qq.com/s/QxuhXdw2CkmiKr2aquBvSQ

[xxi] <Compendium of U.S. Copyright Office Practices>，https://www.copyright.gov/history/comp/compendium-two.pdf

[xxii] 马飒飒：《人工智能基础》，电子工业出版社，2020年（电子书）

[xxiii] 陈焕叶俊希：《AI图片著作权第一案掀波澜，新技术将改写著作权法？》，https://new.qq.com/rain/a/20231206A094WV00

[xxiv] 陈骁萌：《回应<复现AI文生图发掘一点与王迁教授讲座中不同的事实>》，https://mp.weixin.qq.com/s/rHTlsedyxHLNvIPlLcwVyQ

[xxv] 陈焕叶俊希：《AI图片著作权第一案掀波澜，新技术将改写著作权法？》，https://new.qq.com/rain/a/20231206A094WV00

[xxvi] <Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence>, https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence

[xxvii] （2023）京0491民初11279号判决书

[xxviii] 同上

[xxix] Naruto v. Slater, No. 16-15469 (9th Cir. 2018)

[xxx] Stephen Thaler v. Shira Perlmutter et al., No. 22-1564 (BAH) (D.D.C. Aug. 18, 2023).

[xxxi] <Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence>, https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence

[xxxii] <Inventorship Guidance for AI-Assisted Inventions>，https://www.federalregister.gov/documents/2024/02/13/2024-02623/inventorship-guidance-for-ai-assisted-inventions

[xxxiii] AI and 3D Sub-Committee of the INTA Copyright Committee:<COPYRIGHTS AND NEIGHBORING RIGHTS IN OUTPUTS MADE BY OR MADE BY MEANS OF AI SYSTEMS Survey Results Report>,https://www.inta.org/wp-content/uploads/public-files/advocacy/committee-reports/20230724_Copyrights-and-Neighboring-Rights-of-Outputs-by-AI-Systems.pdf

[xxxiv] 同上

[xxxv] 同上

[xxxvi] 同上

[xxxvii] （2023）京0491民初11279号判决书

[xxxviii] < Théâtre D’opéra Spatial Review Board Decision Letter >，https://www.copyright.gov/rulings-filings/review-board/docs/Theatre-Dopera-Spatial.pdf

[xxxix] HKUCCL ：《生成式人工智能治理高峰对话系列——知识产权》，https://mp.weixin.qq.com/s/7bM-TaaCZ6HTKLrl2CNfcA

[xl] 李永明：《人工智能“文生图”应属知识产权公有领域》，https://mp.weixin.qq.com/s/r_xp2FVjE0G3DQdFlZFLfA

[xli] <Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence>, https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence

[xlii] AI前哨站：《AI绘画已渗透七成游戏业，但从业者们却丝毫不慌》https://mp.weixin.qq.com/s/7V3KKuLkCAddJTI7gIcmVg

[xliii] 李永明：《人工智能“文生图”应属知识产权公有领域》，https://mp.weixin.qq.com/s/r_xp2FVjE0G3DQdFlZFLfA

[xliv] 王迁：《再论人工智能生成的内容在著作权法中的定性》，https://m.thepaper.cn/newsDetail_forward_24845084

[xlv] 崔国斌《人工智能生成物中用户的独创性贡献 | 版权法治研究》，https://mp.weixin.qq.com/s/Gp2PYqJSm8WcSED3T7bdLg

[xlvi] <Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence>, https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence

[xlvii] HKUCCL ：《生成式人工智能治理高峰对话系列——知识产权》，https://mp.weixin.qq.com/s/7bM-TaaCZ6HTKLrl2CNfcA

[xlviii] 澎湃新闻黄松：《摄影师拒绝AI照片获奖背后，AI给艺术带来了什么》https://m.thepaper.cn/newsDetail_forward_22734450

[xlix] AFP：《Japan literary laureate unashamed about using ChatGPT》https://economictimes.indiatimes.com/tech/technology/japan-literary-laureate-unashamed-about-using-chatgpt/articleshow/106950262.cms

[l] AI、沈阳：《当一个清华教授开始拥抱AI》，https://mp.weixin.qq.com/s/3IqFca56Jx9HnzlEmyM_FA

[li] 每日经济新闻：《导演陆川：AI用15秒生成的海报，比专业公司一个月做得还好》，https://baijiahao.baidu.com/s?id=1762147069764429046&wfr=spider&for=pc

[lii] 澎拜：《刘慈欣自曝用ChatGPT写发言稿：写得还不错》，https://m.thepaper.cn/baijiahao_23358891

[liii] 尤瓦尔.赫拉利，林俊宏译：《未来简史：从智人到智神》第9章，中信出版社2016年（电子书）

[liv] Hao Zhang, Xiaofei Bai, Zengguang Ma:< Consumer reactions to AI design: Exploring consumer willingness to pay for AI-designed products > ,https://onlinelibrary.wiley.com/doi/pdf/10.1002/mar.21721

[lv] James Somers InfoQ：《ChatGPT 一周年：生成式 AI 出现后，我决定以后砸锅卖铁都不让后代当程序员了》，https://mp.weixin.qq.com/s/MYbPIQNLKEg3mFBDOCXn-A

[lvi] AIGC开放社区：《Sora抢饭碗！好莱坞大亨停止，8亿美元投资》，https://mp.weixin.qq.com/s/gKtchot8zfDmUusrBk1WDA

[lvii] 中国基金报：《蓝色光标“打响第一枪” 真要失业了》，https://finance.sina.com.cn/stock/roll/2023-04-12/doc-imyqcyew8407713.shtml

[lviii] 同上

[lix] Noam Chomsky, Ian Roberts and Jeffrey Watumull:<Noam Chomsky: The False Promise of ChatGPT>, https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html

[lx] 陈根：《ChatGPT：读懂人工智能新纪元》，电子工业出版社，2023年（电子书）

[lxi] 林华：《盗火后的世界—人类、AI和法律的未来寓言》，https://mp.weixin.qq.com/s?__biz=MzIwNzE3NTIzMg==&mid=2247483885&idx=1&sn=3d1692f4019f73b1831aa77608ca1ecf&chksm=9663e8388f93d4a96e71907227d338a6ec28987bbd9946d897837030534df55ae7953f875c07&scene=126&sessionid=1708162440#rd