出品 | 搜狐科技
作者 | 梁昌均
隨著越來越多的AI大模型產品陸續向公眾開放,全民進入AI新時代。
目前,已有百度文心一言、字節云雀、百川大模型、智譜清言、商湯商量、訊飛星火、360智腦等十多款大模型產品獲批通過,并開放服務;其中文心一言、訊飛星火等在開放不到24小時就突破百萬用戶。
這勢必也會將帶來更大范圍內的信息收集、使用等數據流動,甚至不排除更大規模的侵權情況。早前火爆的妙鴨相機就因“霸王條款”,被外界質疑涉嫌侵害用戶個人信息。
然而,不少用戶出于對大模型產品的嘗鮮或好奇心理,在注冊使用前并不會特別仔細去閱讀用戶協議或隱私政策等相關規定,往往都是直接點擊同意。這意味著,如果發生侵權事件,用戶很可能就會處于不利局面。
中國科學院院士何積豐近日在外灘大會上就提到,大模型的安全問題主要是在未經同意的情況下,收集、使用和泄露個人信息。“這既可能發生在訓練過程中,也可能發生在使用過程中,而大模型的生成能力則讓隱私泄露的方式變得多樣化。”
搜狐科技就此查看了多款開放大模型產品的用戶協議、個人信息或隱私政策,并采訪了法律專家,對平臺關于用戶信息收集、使用等,以及知識產權等問題進行了解讀。
用戶信息會被用來訓練模型,部分仍存“霸王條款”
在互聯網世界,為了便利,交出數據、換取服務成為很多時候的常態。如今當使用這些開放的AI大模型應用時,用戶依然被要求交出數據使用權。
目前這些大模型產品的用戶協議中全都提到,會利用用戶輸入或輸出內容、互動反饋信息等去訓練優化模型,提高產品的內容質量、響應速度等。
由于用戶輸入或輸出內容往往會涉及到多個層面,除一般信息,還會有個人信息甚至是敏感信息。但不少規定都把信息保護問題甩給了用戶,比如百川智能、智譜清言、訊飛星火均提到,建議用戶不要或謹慎輸入個人信息,因此可能會影響正常使用部分或全部功能。
上海大邦律師事務所高級合伙人、知識產權律師游云庭對搜狐科技表示,平臺在用戶上傳信息階段應當設計自動的過濾機制,過濾掉個人信息。“現在很多規定是讓用戶盡量不去上傳個人信息,但平臺應該有責任和法定義務去過濾,從而真正地保護好用戶個人信息。”
目前,提出過濾機制的企業并不多。MiniMax在隱私政策中稱,會提升服務的過濾機制,對可能是用戶的個人信息,尤其是個人敏感信息的對話內容進行過濾、刪除并不予保存。
MiniMax隱私政策
其它平臺對個人信息的使用,則均提到會采取去標識化、匿名化等技術手段,處理后的信息無法識別到特定個人主體,不再屬于個人信息范疇,對此類信息的使用無需另行征得用戶的同意,包括用于模型優化、商業化分析等。
中國政法大學傳播法研究中心副主任朱巍強調稱,個人信息絕對不是說不能用,而是企業要依法依規收集使用。《個人信息保護法》規定,只要用戶知情同意、允許授權,收集使用過程中不能有欺詐,符合合法性、正當性、必要性等原則,企業就可以用。
同時,朱巍提到,《個人信息保護法》規定,個人信息不包括匿名化處理后的信息,企業使用脫敏后的個人信息可以不再征求用戶同意。“脫敏之后的信息屬于大數據,但處理者在使用過程中也要符合《數據安全法》等法律規定。”
但在實際情況中,用戶很難確認企業是否合法合規地使用了自己的信息。游云庭就提到,要訓練AI大模型,需要大規模輸入數據來訓練,但現在它是個黑箱,用戶可能不知道被侵權,就算知道也很難有辦法去舉證。
他認為,要想確認企業是否侵害了用戶個人信息,可能還是要靠法院或行政監管去推動企業更加透明,即AI技術提供方或運營方應當公示自己訓練使用了哪些數據。
目前,我國尚未對此作出具體規定。歐盟在今年6月通過的《人工智能法案》要求,生成式人工智能需要披露訓練模型時用了哪些有版權的數據。
但這往往被視為企業的商業機密,在算法同質化情況下,訓練數據很大程度上決定了模型的質量。OpenAI此前發布GPT-4時便以競爭更為激烈為由,不再披露具體的訓練數據。
此外,字節豆包、百川智能、智譜清言、訊飛星火、360智腦等還規定,使用其平臺服務,即代表同意將輸入、上傳、發布等有關信息全世界范圍內、永久性的、不可撤銷且免費地授權給平臺企業,進行存儲、使用、復制、修改、展示、商業化研究等。但用戶如果想要復制、傳播等則需要經過企業書面授權,且不得用平臺應用進行商業化開發等。
朱巍對搜狐科技表示,這些規定看起來像“霸王條款”,平臺和用戶應該起碼要權利對等,但考慮到現在用戶是免費使用,可能一定程度上有豁免,允許提供服務的一方有更多權利。
“這樣的規定原則上不違法,但對用戶權利來講的話不公平。”朱巍還表示,嚴格按照《個人信息保護法》規定來看,如果以用戶個人信息生成的內容還涉及到個人信息,企業要做其它使用或商業化使用,還需要征求用戶的二次同意,不能一攬子授權。
生成內容版權到底歸誰?業內尚未達成共識
除了個人信息保護,生成式AI的知識產權問題也頗受關注。在輸入內容上,所有開放大模型產品都要求用戶上傳的內容不能侵權,上傳的第三方內容則要獲得授權。
游云庭表示,這個規定合理。“但現在用戶能輸入的東西比較有限,還不會產生很大的問題。但如果C端能通過API上傳海量文件,平臺應該有篩選機制,且要用版權作品來訓練的話,還應當取著作權人許可,否則就涉嫌侵權。”
真正引發爭議的則是對生成內容的版權,目前尚未達成共識。商湯商量明確稱,用戶對其生成的內容享有合法權利。豆包隱私政策也表示,公司不主張輸出內容的所有權,但如果輸入或輸出內容含有公司知識產權等,則相應權利仍歸公司所有。
豆包隱私政策
智譜清言協議規定,生成內容的版權由用戶自行維護并對其獨立判斷后使用,由此產生的任何知識產權問題由用戶自行處理。但稍顯矛盾的是,用戶若要對生成內容進行復制、傳播、或商業化使用等,則需獲得智譜華章等書面同意,似乎又限制了用戶對生成內容的權益。
智譜清言用戶協議
同時,也有企業主張對生成內容的權利。比如百度文心一言用戶協議規定,百度擁有對開發和運營過程中產生的所有數據、信息、輸出等法律規定范圍內的全部權利,相關權利人依法享有的權利的除外。
百度文心一言用戶協議
科大訊飛星火服務協議則明確規定,未經書面同意,用戶無權復制、傳播……或以任何商業化方式使用服務生成的內容(輸出內容),并規定輸出的相關所有信息內容(包括但不限于文字、圖片、音頻、視頻、圖表等)由科大訊飛及其關聯方享有完整的知識產權等。
科大訊飛星火服務協議
其它平臺態度則相對曖昧,比如360智腦的規定就比較圓滑,稱用戶產生的內容的知識產權歸360公司或相關權利人所有,用戶通過平臺發布的內容經審核通過,一經發布即向公眾傳播和共享,沒有明確生成內容到底歸屬于誰。
這反映出當下對AI生成內容版權歸屬的爭議。游云庭認為,著作權法規定人創作才有版權,用戶輸入內容受版權保護,AI生成的內容則不受版權保護。“現在AI生成內容太簡單,可能質量不高,這就能獲得著作權法保護,我覺得太輕率。”
“這里面涉及兩個法律問題,第一是AI生成的內容不受版權保護,第二AI生成的內容被小規模使用也不受法律保護,達不到觸發法律介入的標準。如果是大規模使用,比如成千上萬篇,可以用反不正當競爭法來保護。”游云庭表示,AI生成的內容怎樣商業化才構成侵權或不正當競爭,這塊法律邊界還需明確。
朱巍對此則有不同理解。他認為,在弱人工智能時代,AI相當于工具,人依然是創造的主體。按照現在的著作權法來理解,AI生成的作品也有版權,這個版權屬于誰使用就歸誰。如果到了強人工智能時代,這可能會存在爭議。
“對于AI生成內容版權的認定,企業協議怎么寫其實都無所謂,它更多是站在自己角度來考慮這些問題,但對法院裁判沒有影響。”朱巍提到,最早微博規定在其平臺上創造的內容版權歸微博所有,但很多案例法院并未這樣認定。
朱巍認為,現在離強人工智能還很遠,對它的專門立法還太早,現在更多是強調使用規范、科技倫理等方面。“生成式人工智能算是有點入門,但應用、商業場景等現在還看不到,更何況版權問題。”
近日,全國人大常委會發布的未來5年立法規劃顯示,列入今年國務院立法工作計劃的人工智能法并沒有出現,顯示我國人工智能法距提請立法機關審議仍為時尚早。
“版權是工業時代的產物,互聯網時代本來早就應該擺脫版權問題。版權不應該成為AI時代的阻礙,人的創作或創造力會被機器加持,最終產生出的作品可能不再強調是某一個人所有,而是共同完成。”朱巍認為,如果區塊鏈技術通過智能合約普及,讓參與主體都有分成,版權就不再是一個法律問題,而是個技術問題。
不過,朱巍認為,隨著越來越多的大模型提供公眾服務,虛假信息、侵權等問題會更加突出。“借助開源,所有企業都能提供AI服務,入門門檻很低,很多企業也并不是完全合規,這就會產生大量的問題,因此下一步還是要做好底線監管。”