陳永偉/文
3月22日,美國《華爾街日報》刊發了一則新聞:擁有《紐約郵報》、《巴倫周刊》、《華爾街日報》等媒體的美國新聞集團正準備通過法律程序向Ope-nAI、微軟,以及谷歌等應用內容訓練AI的技術制造商尋求賠償。這一則新聞又一次將生成式AI所引發的著作權難題擺到了人們的面前。
從去年下半年開始,包括ChatG-PT、Dall-E2、Midjourney在內的大型生成式AI模型如雨后春筍一樣出現。利用這類AI,人們可以非常容易地通過簡單的提示語(prompt)來生成各種文本、圖片、音頻、視頻,甚至元宇宙中的各種三維模型。
生成式AI的崛起一方面極大地釋放了人們的創造能力,讓人們生產內容的成本大幅度降低了,但另一方面也引發了一系列的問題。在這些問題中,知識產權,尤其是著作權問題就是最為棘手的之一。
從總體上看,生成式AI涉及的著作權問題體現在兩個方面:一個方面是,在訓練的過程中,AI模型需要用到大量的數據,在此過程中就可能造成對一些著作權所有人權利的侵犯;另一個方面則是作為非人主體,AI是否可以享受傳統上只有作為人才能享有的著作權。隨著生成式AI的迅速發展和普及,這兩個問題都已經不再是理論上的難題,而是緊迫需要解決的現實問題了。
AI學習過程中的著作權問題
雖然生成式AI的運作十分復雜,但從根本上看,它就是一個對于概率分布的再抽樣問題:AI會首先通過對樣本數據(數據可以是文本、圖片、視頻等多種類型)進行學習,然后得到一個概率分布。在得到了這個概率分布后,AI就可以基于這個分布進行再抽樣,從而就可以得到不同于樣本數據的新數據。根據訓練算法的不同,這個得到的分布可能是和樣本數據一致的,也可能是和樣本數據不同的(舉例來說,用 “生成式對抗網絡”GenerativeAdversaria.NETs,得到的分布就可能和原分布不同。這也是為什么有的時候要求基于GAN的AI模型來畫人,結果卻會生成一個怪物形象的原因)。但無論是哪種方式,訓練過程中的數據投入都是不可避免的。在這個過程中,就可能對著作權產生侵犯。
具體來說,這個侵犯會發生在數據獲取和數據生成兩個環節:
在對AI模型進行訓練之前,首先需要從數據源獲取數據,然后對數據進行一定的整理和標注。而在抓取或下載數據的過程中,可能并未得到著作權所有人的授權,這種行為就可能會涉及對著作權中“復制權”的侵犯。
在搜集到了數據之后,AI會對數據進行學習,從中提取關鍵信息,然后根據這些特征來生成新的數據。由于新生成的數據是根據訓練數據中提取的某些參數得到的,所以它就必然和訓練數據這個整體在某種程度上具有相似性。這在大多數時候并不會有問題,但在某些生成算法下,AI生成的數據可能會十分類似于某一個具體樣本點。
例如,包括StableDiffusion、Mid-journey在內的很多圖片生成模型都采用了擴散模型作為生成算法。這種生成模型會通過先對圖片加入噪音,然后再用算法去除噪聲(可以將這一過程直觀地理解為在一個清晰的畫面上逐步加入馬賽克,然后再逐步去除馬賽克)的方式來生成圖片。因此在一些時候,生成的圖片就可能和原圖片具有很高的相似性。不久前,馬里蘭大學和紐約大學的研究團隊進行了一項研究,對DALL-E2、StableDiffusion等模型生成的圖片與訓練數據中的圖片進行了對比。結果發現,在生成圖片中,有約1.88%的圖片和訓練集中的某個圖片相似度超過了50%。顯然,如果出現了這種情況,那么就會涉及對原圖片著作權中“改編權”的侵犯。此外,如果將這些生成的圖片在網上進行傳播,還可能還會涉及侵犯著作權中“傳播權”等的問題。
綜合以上分析,我們可以看到,抓取網上的數據來訓練AI確實存在著很多的潛在風險。尤其是批量抓取類似《紐約郵報》、《巴倫周刊》、《華爾街日報》等媒體的數據庫使用,其構成著作權侵權的風險就非常大。
當然,盡管相關的風險非常大,但抓取數據訓練AI是否構成了對著作權的侵犯還需要看這種行為究竟是不是對著作權的合理使用。在各國的法律中,都規定了人們在某些特定的情況下可以在沒有征得權利人許可的情況下自由使用著作權,并且不用對其支付報酬。比如,出于個人的學習、研究、欣賞等需要,對他人已經發表的作品進行使用,一般會被視為合理使用;為了教學研究等目的,少量復制他人的著作,通常也不會被認為是著作權侵權行為。
既然如此,那么出于研究的需要,讓AI來學習各種材料,是否也可以被認定為是一種對著作權的合理利用呢?關于這個問題,目前存在著截然對立的兩種觀點。
一種觀點認為,既然個人學習是合理利用,那么機器學習本質上也是一種學習。我們不會認為個人讀了某本書的章節,然后發表了某些和書上類似的觀點就認為他是一個侵權者,那么又有什么理由認為AI做了類似的事情就是侵權呢?
另一種觀點則與之截然相反。這種觀點認為,合理使用的前提是使用的主體應該是人,AI連人都不是,因而它對數據的學習甚至連使用都無從談起,又怎么能稱得上是合理使用呢?與此同時,法律在判斷是否是合理使用時,通常以使用規模僅是“少量”的為前提。而在現實中,出于訓練AI的需要,技術制造商們恨不得將相關數據來個“連鍋端”,這怎么也算不上是“少量”,因此也就自然難以被認定為是合理使用了。
以上這兩種觀點都有一定的道理。到目前為止,沒有任何一方能夠成功地說服對方。
AI數據生成后的著作權問題
在AI成功地生成了一個作品之后,相關的很多著作權問題也會出現。
1、AI生成物究竟是不是 “作品”?
在著作權法的語境下,所謂“作品”指的是在文學、藝術和科學領域內具有獨創性,并能以一定形式表現的智力成果。這里有幾個要點:第一,它必須是一個智力成果;第二,它必須是以一定的形式表達的;第三,它在形式上應該有一定的獨創性。對于人工智能作品來說,上述的一、三兩個要點似乎都存在著不小的爭議。
先看第一點,即AI生成的作品是不是構成一個智力成果。
一些專家認為,答案是否定的。他們的理由很簡單,人們在使用AI模型生成作品時,自己出的力是很少的。比如,我們讓ChatGPT寫一個命題作文,它二話不說就寫出了一堆長篇大論,在這個過程中,人們唯一需要做的只是耐心等待而已。在這種情況下,怎么可以認為AI生成的作品是一種智力成果呢?
另一些專家則提出了與之完全相反的觀點。這些專家認為,雖然在AI生成作品的過程中,人出的力是很少的,但是他們卻在一些關鍵的環節進行了把控。比如,用ChatGPT生成文檔時,提示語是非常重要的。善于用提示語的人甚至可以讓AI直接生成一整篇優秀的論文,而不善于用提示語的人用同樣的AI卻只能生成出一堆廢話。由此可見,人的因素在作品的生成過程中是相當重要的。這就好像在照相技術發明后,人們都可以用相機來拍照,但要拍出優秀的照片依然需要攝影師的精心構思和高超的拍攝技巧。既然我們認為攝影師用相機自動生成的作品是一個智力成果,那么又有什么理由認為用戶通過提示語讓AI生成的作品不是智力成果呢?即使我們不認可以上的推理,那么AI本身又是由什么創造的?是AI的設計者。因此,AI本身也是人類智力成果的體現。既然如此,那么作為衍生品,AI生成物自然也是智力的結晶,一種智力成果。
再看第三點,即AI作品是否具有獨創性。這里,我們暫時排除前文當中指出的生成作品和訓練集中某個特定作品非常類似的情況,僅把討論局限在生成物只具有訓練集的某些類特征,但并不與其中的任何一個雷同的情形。關于這種情況下的AI生成物是否可以被判定為具有獨創性,也存在著十分對立的觀點。
一些專家認為AI生成物并不具有獨創性。因為所謂“獨創性”,就必須有“獨”和“創”兩方面的特征。所謂“獨”就是作者進行了獨立的構思和創作;“創”則是指作品要具有創造性,能和其他作品具有顯著的不同。在他們看來,對于“獨”的要求,AI是無法滿足的。因為從本質上講,AI的作品只是一系列根據預先編好的程序完成的指令,它們只是對訓練集中各種數據的一種拼接——一些言辭比較激烈的人甚至將AI作品稱為“用其他作品的‘尸體’縫合起來的弗蘭肯斯坦”——很顯然,在他們看來,這種弗蘭肯斯坦式的怪物身上并不是哪個人獨立構思的結果,因而也就很難稱得上是獨創了。
另一些專家的意見則相反。在他們看來,人們用AI工具生成作品的構思中,依然是要進行構思的。事實上,如果想用生成式AI來創作一個好的作品,可能需要用提示語進行幾十、甚至上百輪的交互,這個過程其實就是一種低代碼的編程。沒有人會否認在編程的過程中,人們需要進行獨立的構思。同樣的,對于在這種低代碼編程工作中的獨立構思也就應該被承認。從這個意義上看,用不滿足“獨”的特性來否認AI作品的獨創性是不成立的。至于“創”,也就是AI作品與其他作品之間的相互區別,這在大部分情況下都不是一個問題。基于以上分析,這部分專家主張應該認可AI的作品具有獨創性。
由于在以上的幾個要點上存在著重大的分歧,目前人們對于AI生成物是否可以構成著作權法意義上的作品也依然是存在著爭議的。
2、AI生成物的作者究竟是誰?
隨著生成式AI的爆火,AI生成物的作者問題也成了人們熱議的一個話題。圍繞這個問題,還引發出了不少新聞。
例如,2022年8月,在美國科羅拉多州的藝術博覽會上舉辦了一場美術比賽。在這場比賽中,一副名為《太空歌劇院》的作品獲得了數字藝術組的冠軍。這副作品的“作者”杰森·艾倫聲稱這是一副由AI應用Midjourney生成的作品。于是,很多人對艾倫的做法提出了質疑,既然是一副AI應用生成的作品,他怎么可以宣稱自己是作者,并且拿著它去參賽并獲獎呢?——由此可見,如果簡單地將AI生成物的作者歸為AI的使用者,并不能得到人們的廣泛認同。
那么,將AI生成物的作者歸為AI模型是否可行呢?在實踐當中,這種做法也遭到了很多反對。一個典型的例子在學術界。在ChatGPT問世后,很多科研人員開始借用它來幫助自己生成論文,甚至著書立說。而作為“實誠人”,很多科研人員會在這些由ChatGPT生成的作品上署上ChatGPT的名,或將其作為共同作者。在一些條件下,部分謙遜的作者甚至會把ChatGPT作為單獨的作者(比如,一些作品是通過人來提問,ChatGPT作答的方式完成的。這些人會將ChatGPT列為作者,而自己則僅署上一個“采訪者”或者“整理者”的頭銜)。但這種做法很快遭到了大量的質疑。比如,著名的《科學》雜志就發布了通知,規定不能將ChatGPT作為論文的作者或合作者。由此可見,將AI模型作為AI生成物的作者依然是不能得到人們認同的。
現在問題就來了,既然從直觀上講,無論是將AI的使用者,還是AI模型本身視為AI生成物的作者都會引來很多反對,那么究竟誰才是AI生成物的作者?總不能說,AI生成物都是沒有作者,憑空從石頭縫里蹦出來的吧。
目前在對于AI作品的作者認定方面,確實存在著很多學術觀點分歧。
第一種觀點認為,AI生成物的作者應該是AI的使用者。畢竟無論如何,AI作品都是在使用者的指令之下產生的,沒有他們的指令就沒有這些作品。
第二種觀點認為,AI的生成物的作者應當是AI程序的編寫者。持這種觀點的人的理由是,從本質上看,AI作品只是由其預先編寫好的程序完成了某一個工作。歸根到底,是程序的編寫者決定了作品的最終實現。
第三種觀點則認為,AI生成物的作者應該就是AI模型。持有這種觀點的人認為,隨著AI在作品生成過程中的作用變得越來越重要,將沒有起多大作用的人作為作品的作者是不合適的。他們指出,在實踐當中,人們也經常將單位、組織作為“擬制人”來作為作品的作者,既然如此,也可以仿效這種做法,將AI模型視為“擬制人”,讓它們來充當作品的作者。
除了以上幾種觀點外,還一些觀點認為AI作品的作者應該是AI模型的擁有者,或者AI作品根本不需要有一個作者。到目前為止,并沒有一個觀點能說服多數人,成為主流的觀點。
3、AI作品是否應該有著作權?如果有,它們該歸誰所有?
對于這個問題,依然存在著很大的分歧。
一種觀點認為,AI生成的作品不能享有著作權。主張這種觀點的理由很簡單:著作權是附屬于人的一種權利,AI不是人,當然就不能擁有這種權利。一位非常著名的知識產權學者在論述這一點時舉了一個非常生動的例子:一位攝影師在野外創作時不小心被猴子搶走了相機。當他千辛萬苦從猴子的手中搶回相機時,發現相機里留下了很多張猴子不小心“拍”下的照片。由于猴子照相的角度非常特殊,所以這些照片拍出了人類作者很難拍出的動感和特色。這位攝影師將這些照片公開后,很多人在未經他許可的情況下復制并使用了它們。攝影師認為這些行為侵犯了他的著作權,就向法院請求終止這些人的侵權行為。但法院并沒有支持他的觀點,理由是這些作品并不是由人創作的,本來就沒有著作權的保護。既然如此,那么復制、使用它們就不存在著所謂的侵權問題。這位專家以此作為類比,認為AI作品同樣不是經人類之手創作的,因此無論這些作品多么精妙,它們都不能具有著作權。
但另一些專家則對此提出了異議。他們指出,從法律上看,著作權人并不一定是作者,例如現實中就經常出現由擬制人來充當著作權人的情況。因此,即使我們對AI作為非人主體充當作者有爭議,也不應當就此認為AI生成物就不應該具有著作權。從著作權構成的角度看,它包括人身權和財產權(例如在我國的法律中,著作權就包括四項人身權和十三項財產權)。對于人身權,作為非人主體的AI當然無法真正享受,但像“署名權”等權利,對于清楚界定事后的各種權利義務關系是非常重要的,所以也應該給予AI。至于財產權,則可以視情況由AI的使用者和AI程序的編寫者來進行分享。在這些專家看來,通過承認AI生成物可以擁有著作權,并對著作權中的各項權利進行合理的分配,不僅可以清晰界定權責、有效促進優質AI生成物的供給,還可以促進AI技術的發展。而相比之下,以AI作品不是由人創造的為理由,簡單否認其著作權則是一種過于粗暴的做法。
這里需要說明的是,盡管從學術角度看,是否應該承認AI作品的著作權還存在著很大的爭議,但在實踐當中,人們似乎已經摸索出了一些做法。例如,在2017年時,北京聯合出版社出版了一部題為《陽光失了玻璃窗》的詩集。不同于一般的詩集,它完全是由微軟的AI“微軟小冰”生成的。因此,在這部作品的封面上,就把“小冰”署為了作者。但與此同時,與本書相關的其他著作權則歸屬于開發小冰、并用小冰生成這些詩歌的團隊所有。容易看出,這種做法實際上是類似于上面第二類專家的觀點。
4、兩個現實案例
由于對于上述的各種理論問題人們都很難達成共識,因此關于AI生成物是否可以有著作權,以及其著作權歸屬等問題都一直存在很大的爭議。值得注意的是,隨著AI技術的迅速發展,這種爭議早已超出了理論的范疇,進入了實踐領域。例如,在中國的司法實踐當中,就出現了兩個結果完全相反的判例:
一個判例是“菲林律師事務所(以下簡稱菲林律所)訴北京百度案”。在該案中,菲林律所根據在“威科先行”數據庫設置相應檢索條件后生成的分析報告整理了含有多張數據分析圖和文字的文章并上傳于其微信公眾號上。不久后,菲林律所在百度經營的平臺上發現了該文章,并發現這篇文章刪除了署名和部分內容。據此,菲林律所以百度侵犯著作權為由,將百度告上了法院。在后來的判決中,法院認為數據庫軟件自動生成的相關內容是基于數據差異產生而不是由于創作,因此不具有作品獨創性特征。雖然分析報告具有一定的獨創性,但是根據現行法律規定,作品應該是由自然人創作完成的,因此該報告不是著作權法意義上的作品。不是作品,當然也就沒有著作權。據此,法院對菲林律所的訴求不予支持。
另一個案例是“騰訊訴盈訊案”。在該案中,騰訊用其研發的智能寫作輔助軟件Dreamwriter創作完成了一篇新聞稿,并在騰訊證券網站上首次發表。在文章末尾,注明了“本文由騰訊機器人Dreamwriter自動撰寫”。在文章發布的當天,上海盈訊科技有限公司就直接復制該文,并在旗下的網貸之家網站發布。騰訊方面認為,盈訊的行為侵犯其享有的著作權,由此提起了訴訟。法院在審理該案后認為,涉案文章由原告主創團隊人員運用Dreamwriter軟件生成,其外在表現符合文字作品的形式要求,其表現的內容也具有一定的獨創性,因此涉案文章應該構成著作權法意義上的作品,并享有著作權。由此,被告盈訊在未經許可的情況下直接復制文章并發布,已經構成了對騰訊著作權的侵犯。
對比以上兩個判例,不難發現這兩者的案情類似,但法院做出的判決結果卻正好相反。由此可見,在司法實踐中,不同法官對于同樣問題的理解還存在著非常大的差別。可以想見,隨著生成式AI的興起,類似的案例將有可能出現暴增。在這種情況下,如果不能及時在相關問題上形成一種共識,將有可能在實踐中引發混亂。這不僅會讓企業的合規和法律成本大幅增加,而且也可能阻礙生成式AI的健康發展。
關于生成式AI著作權問題的一些思考
那么,在生成式AI爆發的時代,我們應該如何應對由此產生的各種著作權問題呢?在我看來,面對創作工具、創作方法的如此巨變,固守既有的法律文本,試圖從對法律中字詞的解釋來找出應對的方法可能無異于刻舟求劍。相比之下,回歸著作權的本質,從更為宏觀、更為動態的角度來對其進行思考或許是更為可取的。
著作權存在的意義究竟是什么呢?從根本上講,它是為了維護人們的創作熱情。如果我們不對創作者的相關權利進行一定的保護,那么就沒有人會再進行創作,同時也沒有人可以享受到具有創意的作品。但是,這種保護并不是無限度的,否則這就可能限制作品的傳播。因此,如果我們用一種經濟學的觀點來審時著作權問題的話,那么它的本質就是一種激勵和傳播之間的權衡(trade-off)。
讓我們想象一種理想的情況:假設世界上不存在交易成本,或者交易成本足夠低的時候,所有希望使用作品的人和作品的著作權人之間可以自由議價,那么根據經濟學上著名的科斯定理,讓誰擁有著作權都可以讓這部著作的使用狀況達到社會最優的水平。這一點很容易驗證:比如,假設有作者不希望自己的作品被復制,并認為這會給他帶來價值100元的傷害;而某人則認為復制作品可以給他帶來價值80元的收益。在這種情況下,社會最優的配置就要求作品不被復制。假設我們將權利分配給作者,承認他有權禁止別人復制自己的作品,那么很顯然社會最優配置自然可以實現。但如果我們將權利分配給試圖使用作品的人呢?在這種情況下,作者為了阻擋他復制作品,就會給他80元的費用,讓他打消這個想法。最終,配置狀況依然可以達到社會最優狀態。
但是,在現實中,交易成本經常不為零,有時候甚至非常高。這時,人們就很難通過自由的交易來實現資源配置的最優。比如在上例中,如果交易成本高達50元,那么在后一種情況下,作者就不會付錢去要求使用人不再復制它的作品。在這種情況下,為了實現最優的配置狀況,就需要將這些權利直接配置給能產生更高價值的一方。具體來說,在上例中,如果作者生產的作品價值非常高,那么就應該將權利賦予他,而如果使用人通過這些作品可以產生非常高的價值,則應該將權利賦予他,允許其自由復制作品。
除了初始權利的配置之外,權利的保護形式也是一個重要的問題。為此,我們可以采用法律經濟學家卡拉布雷西提出的觀點。具體來說,卡拉布雷西認為,在交易成本相對較低時,保護權利可以用財產規則(propertyright),即只有當權利人允許時,別人才可以要求讓渡這種權利,并且由此產生的代價由雙方議價決定;在交易成本較高時,保護權利則應該采用責任規則(liabilityright),即人們必要時可以先侵犯權利,事后對權利人進行補償,補場的金額由第三方評估決定;而當涉及的權利具有很大外部性時,則適用不可轉讓規則,不允許雙方進行交易。
利用以上這兩個規則,我們就可以對生成式AI時代的著作權問題進行分析。
先看AI學習過程中的問題,即AI學習的材料的著作權歸屬。容易知道,在這種情況下,作品的作者和使用人進行議價的交易成本是很高的,因為對于作者而言,需要證明在某個AI生成物中有自己作品的元素是十分困難的。顯然,根據前面的討論,我們應該將著作權給那些能產生更高價值的人。那么哪一方可以產生更大的價值呢?應該是作者。因為對于AI而言,失去了一個學習材料,其實對模型的表現并不會有實質影響,但是如果否定了作品作者的權利,就可能讓他們失去創作熱情,從而不再創作。從這個意義上看,應當尊重這些作者的著作權,不允許AI訓練者以合理使用為名無償使用。但是,考慮到AI訓練又切實需要數據,因此可以采用責任規則進行保護。AI企業可以先行獲取相關數據,如果作者認為此舉不妥,可以要求企業停止使用數據,否則就可以要求企業以第三方評估價格進行補償。通過這種做法,就可以較好地兼顧作者的激勵和AI訓練的需要。
再看AI數據生成后的問題,即AI生成物著作權的歸屬。關于這一問題,我們應該將著作權這個權利束拆開來看。對于像署名權等權利,可以根據生成中的貢獻來看,如果在創作過程中AI貢獻足夠大,就應該擁有署名權。至于其他的更為實質性的財產權利,則應該根據上述原則,視權利所能產生的價值大小來劃分。
這里還有一個問題,就是如何界定創作過程中AI使用人的貢獻大小。但在現代技術下,這已經越來越不構成一個問題。因為創作過程中使用人和AI的每一次交互都可以用時間戳等技術記錄,由此,AI使用者在創作過程中的貢獻就可以很容易被識別出來。