ChatGPT是什么
ChatGPT是由美國公司AI target=_blank class=infotextkey>OpenAI基于GPT—3.5架構開發的大型語言模型,能夠生成各種不同的文本類型,可以針對對話場景進行特別優化,根據上下文自動生成跟人類一樣的對話文本。OpenAI在公司官網對ChatGPT產生方法進行介紹時說,該模型是使用人類反饋強化學習訓練而來,方法與Instruct GPT(OpenAI開發的一種“指令生成預訓練”語言模型)一致,但在數據收集設置上略有不同。
ChatGPT工作的原理及技術架構包括四方面內容:
第一,生成基于GPT的模型(AI在海量數據下學習基于前后文生成后續文本能力),由于GPT模型會產生多個不同的輸出結果,例如:告訴GPT“世界上最大的平原是____”,可以給出“綠色的”“是無邊無盡的”“亞馬孫平原”等多個合理答案。
第二,引導方向,并監督微調初始模型,通過前述問題,不難看出“亞馬孫平原”是最符合人類期望的答案,因此,開發者通過人工給出一些問題答案,進而訓練AI學習,從而形成一個初始的ChatGPT模型。
第三,提升能力的獎勵模型。研究人員會讓GPT對特定問題給出多個答案,由人類進行好壞排序,基于比較數據從而生成符合人類標準的回答模型。
第四,AI指導AI,強化學習。由于以上三步形成較為成熟AI,因此使用AI指導AI進行強化學習,不斷訓練迭代,形成完整ChatGPT模型。
ChatGPT具有廣泛的知識儲備和強大的語言理解能力,讓翻譯、生成文案、分析文本等工作變得簡單,極大提升了工作效率。它還具有較強的自我學習及推理能力,也讓應用場景變得多樣,不僅能夠從事文字工作,還能夠從事AI建模、語音交流、圖像生成等復雜工作。
聽到這里是不是很心動
chatgpt能幫我們做這么多事
但需要注意了
ChatGPT應用可能產生安全風險。
使用ChatGPT時可能
導致的安全風險
使用ChatGPT面臨著較為嚴重的版權風險。從ChatGPT生成框架來看,ChatGPT運用大量不同的數據集訓練形成大型語言模型,它的數據集可能來自受著作權保護的材料,若沒有經過授權,則可能存在侵犯他人作品復制權的問題。
從ChatGPT生成內容來看,ChatGPT具有強大的語言重組和整理能力,當用戶輸入特定命令時,若ChatGPT生成的內容主旨與他人在先前作品獨創性表達存在部分或完全一致時,基于ChatGPT通過計算機傳播,且用戶可以在自己選定時間及地點獲取內容,符合信息網絡傳播權構成要件,因此存在作品信息網絡傳播權侵權風險。
此外,ChatGPT作為典型的語言模型,它的模型訓練需要海量的文本數據集,若開發公司為訓練ChatGPT引入特定作者的作品進行訓練,在未經相關著作權人許可情況下,當用戶輸入特定命令時,ChatGPT生成的內容若具有一定獨創性,且存在與在先作品的相似表達,即便其可能會構成演繹作品,但其生成內容也為侵權作品;若開發公司訓練ChatGPT時,從未引入特定作者的作品,只是由于用戶的特定問題使算法“預測”生成內容時剛好與在先作品相同,則不構成侵權。
因此,如何規制ChatGPT帶來的侵權風險,大家還需要持續性的關注和思考。
來源:融媒體中心 深圳文化產權交易所