你都被ChatGPT白嫖了還得給它數(shù)錢(qián)-魔扣目錄

“谷歌計(jì)劃在旗艦搜索引擎中添加對(duì)話式人工智能功能，這將引導(dǎo)公司應(yīng)對(duì)來(lái)自ChatGPT等聊天機(jī)器人的競(jìng)爭(zhēng)和更廣泛的業(yè)務(wù)壓力。”谷歌首席執(zhí)行官Sundar Pichai在近日的一次采訪中表示，AI并不會(huì)對(duì)谷歌的搜索業(yè)務(wù)構(gòu)成威脅，相反，人工智能的進(jìn)步會(huì)增強(qiáng)谷歌搜索查詢(xún)的能力。

然而，在高調(diào)推動(dòng)研發(fā)的同時(shí)，谷歌的經(jīng)濟(jì)狀況卻并不樂(lè)觀。自2023年1月宣布裁員12000人（占Alphabet總員工6%）之后，近日，谷歌首席財(cái)務(wù)官Ruth Porat又向員工表示，預(yù)計(jì)將從餐飲設(shè)施到公司計(jì)算基礎(chǔ)設(shè)施等領(lǐng)域削減更多支出。有趣的是，谷歌稱(chēng)“這對(duì)開(kāi)發(fā)和運(yùn)行強(qiáng)大的人工智能算法至關(guān)重要”。

就在谷歌“砸鍋賣(mài)鐵”研發(fā)大型語(yǔ)言模型（LLM）的同時(shí)，ChatGPT及類(lèi)似的LLM們，也開(kāi)始“大殺八方”。

近日，美國(guó)就業(yè)服務(wù)平臺(tái)Resume Builder公布的一項(xiàng)調(diào)查統(tǒng)計(jì)顯示，在1000多家受訪美國(guó)企業(yè)中，有48%的企業(yè)已經(jīng)在用ChatGPT取代人類(lèi)員工。

新聞出版業(yè)感受到了這場(chǎng)沖擊波。今天的AI越來(lái)越讓人深刻體到會(huì)什么叫“教會(huì)徒弟餓死師傅”。正在搶走你工作崗位，替代你的ChatGPT們，其實(shí)正是在無(wú)數(shù)遍調(diào)用你的工作數(shù)據(jù)之后，利用你的這些工作成果訓(xùn)練出來(lái)的。

而媒體行業(yè)的老板們也正在思考如何執(zhí)行“打不過(guò)就加入”的策略，他們希望嘗試跟微軟、OpenAI、谷歌這樣的AI研發(fā)公司分分ChatGPT的“錢(qián)”。

3月23日，美國(guó)新聞集團(tuán)旗下媒體華爾街日?qǐng)?bào)報(bào)道，有知情人士透露，最近幾周，美國(guó)出版行業(yè)的高管們對(duì)于ChatGPT的爆火也坐不住了。他們正在研究出版集團(tuán)們的內(nèi)容在多大程度上被用于“培訓(xùn)”ChatGPT等人工智能工具。

一場(chǎng)針對(duì)版權(quán)、法規(guī)的爭(zhēng)論正在展開(kāi)。

每個(gè)碼字工可能都被ChatGPT白嫖了

對(duì)此，美國(guó)新聞媒體聯(lián)盟的高層們討論的核心是人工智能公司是否有合法權(quán)利從互聯(lián)網(wǎng)上抓取內(nèi)容，并將其用于他們的AI大模型訓(xùn)練。而目前，美國(guó)有一項(xiàng)名為“合理使用”的法律條款，似乎允許AI公司在某些情況下，使用未獲授權(quán)的版權(quán)材料。

“我們有有價(jià)值的內(nèi)容，而現(xiàn)在，這些我們花費(fèi)人力、財(cái)力創(chuàng)造的內(nèi)容，正在不斷被用于為其他人創(chuàng)造收入。”美國(guó)新聞媒體聯(lián)盟執(zhí)行副總裁兼總法律顧問(wèn)Danielle Coffey認(rèn)為，在這個(gè)問(wèn)題上，新聞出版公司理應(yīng)得到經(jīng)濟(jì)補(bǔ)償。

OpenAI首席執(zhí)行官Sam Altman在此前接受的采訪中曾表示，“我們?cè)诤侠硎褂脭?shù)據(jù)方面投入很大，我們?cè)敢鉃槟承╊I(lǐng)域的高質(zhì)量數(shù)據(jù)支付大量費(fèi)用。”例如科學(xué)領(lǐng)域。在必要時(shí)，OpenAI已經(jīng)就內(nèi)容達(dá)成了協(xié)議。

事實(shí)上，“版權(quán)”的概念在互聯(lián)網(wǎng)誕生之際就發(fā)生過(guò)一次變革，“分享”的概念隨著互聯(lián)網(wǎng)的高速傳播能力打破了很多版權(quán)商對(duì)內(nèi)容的壟斷。此后，版權(quán)之爭(zhēng)更是成為了內(nèi)容生產(chǎn)者、分發(fā)渠道、廣大用戶(hù)以及利益鏈上的各個(gè)相關(guān)實(shí)體不可避免的爭(zhēng)議話題。

美國(guó)新聞集團(tuán)對(duì)AI主要的擔(dān)憂在于，人工智能工具可能會(huì)耗盡其網(wǎng)站的流量和廣告資金。目前，微軟提供的NewBing，會(huì)在用戶(hù)問(wèn)題的答案中包含鏈接。然而美國(guó)出版商的高管表示，有多少用戶(hù)實(shí)際上會(huì)點(diǎn)擊這些鏈接并訪問(wèn)他們的網(wǎng)站，這是一個(gè)很難確定的問(wèn)題。

事實(shí)上，AI可能確實(shí)會(huì)影響用戶(hù)對(duì)版權(quán)內(nèi)容的閱讀。Bing Chat可以針對(duì)網(wǎng)站內(nèi)容給出全面的總結(jié)分析式回答，從而大幅降低了用戶(hù)點(diǎn)擊原文鏈接的欲望。在對(duì)Bard的測(cè)試過(guò)程中，虎嗅發(fā)現(xiàn)，只要給Bard提供鏈接，它就可以直接為用戶(hù)解讀網(wǎng)頁(yè)內(nèi)容，包括一些需要付費(fèi)瀏覽的內(nèi)容。不過(guò)由于Bard目前只支持美國(guó)和英國(guó)地區(qū)用戶(hù)，所以它目前只能解讀這些國(guó)家的網(wǎng)站。

谷歌的Bard通過(guò)網(wǎng)址解讀美媒The information的付費(fèi)新聞

目前，美國(guó)出版商行業(yè)組織新聞媒體聯(lián)盟已經(jīng)開(kāi)始與微軟和谷歌的代表會(huì)面，并主張自己的權(quán)利，要求AI訓(xùn)練公司為數(shù)據(jù)、內(nèi)容付費(fèi)。如果談判效果不理想，這些出版集團(tuán)也不排除在該問(wèn)題上訴諸法律。

ChatGPT們的學(xué)費(fèi)該怎么交

從OpenAI目前透露的信息來(lái)看，在GPT-3的訓(xùn)練過(guò)程中，很多數(shù)據(jù)是來(lái)自開(kāi)源數(shù)據(jù)組織Common Crawl利用爬蟲(chóng)抓取的數(shù)據(jù)。

Common Crawl是一個(gè)501非營(yíng)利組織，它利用爬蟲(chóng)對(duì)網(wǎng)絡(luò)進(jìn)行抓取，并向公眾免費(fèi)提供其檔案和數(shù)據(jù)集。Common Crawl的網(wǎng)絡(luò)存檔包含自2011年以來(lái)收集的PB級(jí)數(shù)據(jù)。通常每個(gè)月都會(huì)完成爬網(wǎng)。Common Crawl由Gil Elbaz創(chuàng)建。該非營(yíng)利組織的顧問(wèn)包括Peter Norvig和Joi Ito。

Common Crawl的數(shù)據(jù)使用條款中要求不可將數(shù)據(jù)用于非法用途，以及如下事項(xiàng)：從事辱罵、騷擾、仇恨或其他冒犯性活動(dòng)；侵犯他人隱私；危害未成年人；侵犯他人的權(quán)利（IP、專(zhuān)有等）；規(guī)避復(fù)制保護(hù)；干擾或破壞我們的網(wǎng)站、服務(wù)或安全；垃圾郵件的人；跟蹤人；冒充他人或以其他方式偽裝您的身份；偽造標(biāo)題或以其他方式偽裝我們的內(nèi)容；收集個(gè)人身份信息；為商業(yè)招攬而溝通。

雖然未提及不可用于商業(yè)用途，但Common Crawl的使用協(xié)議中，也聲明了要求保護(hù)版權(quán)、商標(biāo)等。所以，對(duì)于版權(quán)所有方提出的付費(fèi)要求，使用了版權(quán)數(shù)據(jù)的AI大模型研發(fā)公司，理應(yīng)回應(yīng)付費(fèi)或是補(bǔ)償需求。

不過(guò)，從長(zhǎng)遠(yuǎn)來(lái)看，這個(gè)付費(fèi)模式，對(duì)于AI大模型來(lái)說(shuō)恐怕還有很大的討論空間。畢竟AI大模型在學(xué)習(xí)了版權(quán)數(shù)據(jù)之后可能創(chuàng)造的價(jià)值，遠(yuǎn)大于一次性版權(quán)付費(fèi)。而出版社或許更關(guān)注他們的版權(quán)內(nèi)容，在AI工具中是否有侵權(quán)性的展示和露出，從而以此與AI工具的研發(fā)者建立長(zhǎng)期分利的分利模式。

“生成式AI通常不會(huì)直接展示學(xué)習(xí)到的內(nèi)容，他都會(huì)進(jìn)行總結(jié)提煉，或是轉(zhuǎn)化成自己的話敘述給你。”西湖心辰COO俞佳告訴虎嗅，AI大模型本身不存儲(chǔ)數(shù)據(jù)，它存儲(chǔ)的是參數(shù)。而參數(shù)代表著在算法、模型框架之下，數(shù)據(jù)之間的關(guān)系。因此AI輸出的內(nèi)容，通常情況下都不會(huì)是原本的數(shù)據(jù)或內(nèi)容的復(fù)刻，也就很難界定是否侵權(quán)了。

此外，俞佳認(rèn)為，深度學(xué)習(xí)的底層邏輯是“學(xué)習(xí)”，對(duì)于版權(quán)內(nèi)容的一次性付費(fèi)是合理的，但長(zhǎng)期付費(fèi)需要更創(chuàng)新的版權(quán)人收益模式。“對(duì)于知識(shí)來(lái)說(shuō)，AI和人有些相似。比如說(shuō)，我看了一本書(shū)，然后我用書(shū)里學(xué)到的知識(shí)賺到了錢(qián)，那么我需不需要或者應(yīng)該用什么方式來(lái)回報(bào)這本書(shū)的作者？這需要?jiǎng)?chuàng)新的解法”

由于國(guó)內(nèi)AI大模型研發(fā)和應(yīng)用相對(duì)于國(guó)外來(lái)說(shuō)起步稍晚了一些，且ChatGPT官方尚不支持中國(guó)地區(qū)的應(yīng)用。所以AI暫時(shí)還沒(méi)有觸碰到國(guó)內(nèi)出版商的利益，國(guó)內(nèi)相關(guān)機(jī)構(gòu)也尚未對(duì)此提出大規(guī)模的公開(kāi)質(zhì)疑。

虎嗅為此詢(xún)問(wèn)了一些出版行業(yè)專(zhuān)業(yè)人士，某國(guó)內(nèi)出版社資深法務(wù)專(zhuān)家表示，“國(guó)內(nèi)版權(quán)保護(hù)意識(shí)基礎(chǔ)較為薄弱，在很多環(huán)節(jié)還跟不上。雖然現(xiàn)在ChatGPT對(duì)中國(guó)出版業(yè)界還沒(méi)有構(gòu)成明顯的威脅，但對(duì)AI的版權(quán)問(wèn)題和生成式內(nèi)容的權(quán)屬界定問(wèn)題，已經(jīng)被行業(yè)廣泛關(guān)注了。”

“新聞報(bào)道在國(guó)內(nèi)的相關(guān)的法律當(dāng)中，特別是著作權(quán)法，是享有著作權(quán)的。”觀韜中茂律師事務(wù)所合伙人王渝偉向虎嗅介紹說(shuō)，AI大模型利用享有著作權(quán)的內(nèi)容去進(jìn)行非營(yíng)利性的科學(xué)研究問(wèn)題不大，但是一旦商用，就需要為這部分內(nèi)容支付相應(yīng)的許可費(fèi)用。

不過(guò)，王渝偉也表示，目前AI大模型訓(xùn)練對(duì)于版權(quán)內(nèi)容的使用與否，用了多少，都很難界定。因此，很難在法律上對(duì)著作權(quán)人提供有效的保護(hù)。但這顯然不能成為侵權(quán)，或者說(shuō)不付費(fèi)、不許可的前提條件。不過(guò)具體到出版商或著作權(quán)人，如何與AI研發(fā)者分成，可能還需要雙方接觸，談判確定。在這方面短期來(lái)看，法律也不會(huì)直接給出規(guī)定的數(shù)額。

吃我飯，還砸我碗？

在討論該如何向ChatGPT收學(xué)費(fèi)的同時(shí)，出版商或許更加擔(dān)憂ChatGPT的生成能力可能會(huì)威脅到新聞出版集團(tuán)的主業(yè)。這也使得AI在出版集團(tuán)面前的形象成了——“吃我飯，還砸我碗”。

最新發(fā)布的GPT-4眾多亮點(diǎn)中，就包括在大量專(zhuān)業(yè)技能考試中取得超越人類(lèi)平均水平的成績(jī)，在很多執(zhí)業(yè)資格考試中，甚至超過(guò)90%的人類(lèi)考生。由此，人們自己會(huì)否被AI取代的擔(dān)憂日益加深。

2023年1月，還處在輿論升溫階段的ChatGPT，已經(jīng)被美國(guó)版今日頭條Buzzfeed注意到，并第一個(gè)聲稱(chēng)將在未來(lái)一年中把ChatGPT能力全面應(yīng)用到內(nèi)容生產(chǎn)中。此后，Buzzfeed股價(jià)連日大漲，資本對(duì)AI替代人類(lèi)編輯記者的想法，可謂是非常看好。

此后不久，在3月初，Buzzfeed就開(kāi)始利用ChatGPT進(jìn)行內(nèi)容生產(chǎn)了。用一個(gè)名為“Buzzy the Robot”的名字發(fā)布了40多份旅游指南，目的地包括斯德哥爾摩、布拉格和大阪等。

不過(guò)，有細(xì)心的網(wǎng)友在閱讀之后發(fā)現(xiàn)，Buzzy機(jī)器人撰寫(xiě)的文章中，有五分之一的都采用了幾乎相同的開(kāi)頭。這些文章通常以“Now, I know what you are thinking（現(xiàn)在，我知道你在想什么）”這句話開(kāi)頭，然后是關(guān)于該特定目的地的反問(wèn)句。例如：“I know what you’re thinking: isn’t Stockholm that freezing, gloomy city up in the north that nobody cares about?”（我知道你在想什么：斯德哥爾摩不是那個(gè)寒冷、陰暗的北部城市，沒(méi)有人關(guān)心嗎？）

對(duì)此，有人認(rèn)為，AI作者在寫(xiě)文章方面，要比人類(lèi)“懶”得多。不過(guò)，從AI目前在內(nèi)容生產(chǎn)領(lǐng)域的表現(xiàn)來(lái)看，這項(xiàng)專(zhuān)業(yè)技能或許尚不足以直接威脅到相關(guān)從業(yè)者。

在ChatGPT以及類(lèi)似的LLM生產(chǎn)內(nèi)容的過(guò)程中，還有一個(gè)很難跨越的問(wèn)題，那就是準(zhǔn)確率的問(wèn)題。雖然GPT-4在這方面已經(jīng)有很大改進(jìn)，但仍然無(wú)法擺脫GPT模型生成內(nèi)容的固有模式。

GPT模型的內(nèi)容都是根據(jù)上下文一個(gè)字一個(gè)字地生成的，因此面對(duì)人類(lèi)的提問(wèn)，AI模型的目的就是回答，寫(xiě)完這段話，而它不會(huì)對(duì)內(nèi)容負(fù)責(zé)。在很多他不是很清楚的問(wèn)題上，AI還不能做到對(duì)每個(gè)問(wèn)題停下來(lái)，問(wèn)問(wèn)人類(lèi)這是什么？這是怎么回事？或是質(zhì)疑人類(lèi)的觀點(diǎn)。

除此以外，現(xiàn)階段人類(lèi)大腦對(duì)于AI最大的優(yōu)勢(shì)可能還是“廉價(jià)”。目前ChatGPT的API價(jià)格是$0.03/1000個(gè)prompt tokens，$0.06/1000個(gè)completion tokens。GPT-4的API報(bào)價(jià)是$0.03/1000個(gè)prompt tokens，$0.06/1000 個(gè)completion tokens。相比之下，人類(lèi)員工坐在電腦前時(shí)，只要你夠卷，他可以為你提供低價(jià)的無(wú)限token算力。

同時(shí)，這位人類(lèi)員工還具備AI很難實(shí)現(xiàn)的理解和學(xué)習(xí)的能力，在面對(duì)新事物時(shí)人類(lèi)擁有創(chuàng)造力和主觀判斷力。而AI在這方面的能力顯然還很不夠，畢竟GPT-4只是發(fā)布了一個(gè)識(shí)別梗圖的功能，就已經(jīng)讓全世界興奮到恐懼了。

【來(lái)源：虎嗅網(wǎng)】