從吟詩作賦,到寫代碼,再到寫劇本、做高數,OpenAI發布的免費機器人對話模型ChatGPT回答處理多領域問題的能力之強悍,引發全球關注。
盡管該模型目前仍處于測試階段,但面世僅一周,便有超過一百萬用戶使用。“明天ChatGPT就要搶走人類飯碗”的調侃也不絕于耳。
視覺中國圖
已擁有多個AI聊天機器人成功落地案例的國內頂尖人工智能公司小冰,如何看待風靡全球的ChatGPT?
帶著這個問題,12月8日《每日經濟新聞》記者專訪了小冰公司CEO李笛。他認為,市場對于ChatGPT取代搜索引擎,以及在其他各個領域實現商業化落地的暢想,短期內不太可能到來,成本將成為制約其實現商業化的重要阻礙。他舉例說,如果小冰用ChatGPT的方法來運行系統,現在小冰每天承載的交互量就需要花幾億人民幣的對話成本。
市場對ChatGPT熱情過度
在李笛看來,目前,行業內對ChatGPT的關注與熱潮已經有些過度。
“人類為什么會感到激動?”李笛覺得,當人們普遍對一件事情有一種預期,進而去交互時,發現它遠超大家的預期,人們就會驚訝,“但即使是針對人工智能,在最近這些年驚訝的次數也很多了;稍微往前一點,GPT3出來的時候大家就很驚訝,但是也沒有發生什么;再往前,AlphaGo下圍棋贏過最好的人類棋手,大家也很驚訝,但是之后似乎也沒有改變什么。”
不過,李笛也提到,關于ChatGPT,有三件事情需要相對理性來看。
首先,ChatGPT有非常好的創新,即證明了在原有的大模型基礎之上,進行一些新的訓練方法,可以更好地提高對話質量;其次,ChatGPT并不構成一個大版本的迭代,而是對上一個版本的微調,在一定程度上彌補了極大參數量的大模型的一些缺陷。“即便是OpenAI來講,它也被定義為GPT3.5,而不是GPT4。”此外,李笛認為,ChatGPT的突破,主要是研究性質上的突破。
對目前市場普遍想象的ChatGPT是否馬上就會迎來商業化落地、產生顛覆性的影響,李笛認為不太可能。“但是,這一點都不影響我們在最近這些年里,尤其是在大模型的思路出來以后,我們又一次看到在對話上的一個很大變化,在這條路上大家都在往前走。”
ChatGPT在訓練方法上,具體做了怎樣的創新,以至于能夠大大提升其作為聊天機器人的對話質量?
李笛分析稱,很多人說ChatGPT的訓練是基于人類反饋,這并不完全準確。人類反饋至少有兩個含義,一是指在訓練中,通過反饋來實現;另外則是產品在與用戶交互時,通過大量的用戶與其交互形成的反饋,不停地讓模型進步。“這兩者的價值是非常不一樣的,更大的價值其實在于后者,即產品在交互過程中得到反饋。”
李笛介紹,過去對于AI聊天機器人的訓練主要是基于數據,即在機器進行對話后,針對對話內容進行訓練,調整、優化對話內容的數據;而ChatGPT則是針對數據形成的模型進行訓練,簡單而言,具體的訓練方式是:人先寫出一些指導性的問與答,用這些問答對大模型進行訓練,通過一系列反饋式的訓練方法,讓大模型逐漸沿襲人所給予的關于問答的指導性意見、邏輯。“從這個角度講,即使是進行多輪對話,ChatGPT本質上來講依舊是一個問答系統。”
李笛認為,這樣的訓練方法背后的技術含量,通常不是算法模型上的技術含量,而是來自訓練者本身的能力,包括團隊自身的經驗積累。例如,由人來寫問與答,讓機器學習并給出結果,同時人要再對此給出評分,這其中有很多個體差異,這種個體差異則在一定程度上決定了其最后呈現的成果。
他同時也談到,從主要做大模型的公司而言,成果往往取決于到底是不是非常專注去做這件事情。“Ope-nAI與其他公司不一樣的地方在于,它很專注做語言大模型,所以它投了大量時間和精力。它有很多經驗,但這些經驗的積累并不是不可習得的。”
不可信與高成本成商業化阻礙ChatGPT給出的回答,最常規的格式是先給出一個結論,再進行事實的羅列,進而通過其羅列的事實推導出結論。
李笛認為,對ChatGPT而言,這個結論本身是否正確其實不重要。他用之前網絡上流傳的一個問答舉例,在回答“紅樓夢中賈寶玉適合娶誰”的問題時,ChatGPT最終給出的答案是:賈母。
李笛進一步分析,根據ChatGPT的回答可以反推出,人在為其寫指導性問答時,非常強調因果關系,而大模型也會注重去學習因果關系。“(有的回答)如果不是特別仔細去看,你會感覺到這是一個似乎很有邏輯與因果關系的回答,但實際上它非常沒有道理。”
這也是為什么從對話質量上看,人們會覺得ChatGPT很優秀,但想要真正依靠它去代替搜索引擎,李笛認為,這不太可能,因為它不可信。“很多人在測試ChatGPT的時候是知道答案的,但去搜索引擎上搜的東西往往是我們不知道答案的。如果是通過ChatGPT(代替搜索引擎),你怎么知道這個東西(答案)是正確還是錯誤的,它完全不負責的。”
而李笛也認為,這種“不可靠”很難解決,因為ChatGPT的訓練過程,是為了對話質量,但人們卻容易誤以為它的目的是給出最正確的知識。“它做了很多優化,是使它(的回答)形式上感覺非常有知識,它不是為了本質(有知識)。”
搜索引擎在努力做的是跳過論證過程,直接給出用戶最終想要的結果,而ChatGPT則相反,它追求的是盡可能在給出回答之前,給很多論證,讓人覺得它的回答是可信的。“ChatGPT,人們測試的時候會覺得很好,但是真的拿它來用,有那么一兩次你發現,你被它的這種似是而非的胡說八道愚弄了,那么你從此就不會(對它)有任何的信任。”
如果ChatGPT無法取代搜索引擎,還有什么可預想的落地應用嗎?
李笛認為,真正限制ChatGPT在短期內商業化的是成本。“它的單輪回答(Single Turn),成本是幾美分,按照1毛錢(人民幣)算,10句話就是一塊,這個(成本)超過人,還不如雇一個人,比這個要便宜得多。”
同時,李笛表示,如果把大模型理解為把特別多的信息濃縮在一個模型里,那么大模型的本質問題就在于,很大參數規模的大模型做了以后不可用,因為成本太高、延遲太高。但一旦開始嘗試降低成本,同時也會明顯看到其對話質量降低。
李笛舉例,如果小冰用ChatGPT的方法來運行系統,現在小冰每天承載的交互量就需要花幾億人民幣的對話成本。“就算ChatGPT可以把成本優化到現在的10%,也賺不回來,因為人工智能最大的特點就是高并發。如果成本是這樣,不如雇人。人有自我反省機制,人工智能甚至有一些基本常識性錯誤。而且把成本降到現在的10%,這是多么艱巨的任務?”
AI聊天機器人需要取舍
目前,小冰公司的AI Being已成熟應用于多個場景中,例如本屆賽事解說員劉建宏的虛擬人分身、招商局的數字員工等。
李笛認為,小冰內部有一個比較好的狀態,就是關心什么東西真正落地,而不是特別關心這個東西是否代表了學術聲望。“如果你做的人工智能總是在向別人表達你很智能,那意味著你把用戶的預期提升到非常高的位置,這意味著你的系統不允許犯錯,因為你已經讓別人認為(這個系統)很有知識了,犯錯誤就可能誤導用戶。”
而小冰系統很多時候是在控制用戶的預期。“不要覺得它很智能。要去關心它其他方面的價值,往往這樣的系統反而存在得更久。”李笛認為,其實從某種意義上來講,這也是其團隊做小冰的原因。
李笛回憶,最開始時,團隊想要做的是一個人工智能助理:“對助理來講,有用是他最重要的特點,我們那時候是這么認為的。”
而在對一些優秀的人類助理進行訪談后,李笛發現,對于助理來講,最重要的事是和老板調整成一種合適的同事關系,這種同事關系必須讓老板認為助理有自己的想法,會在一些合理的時機去拒絕。這樣的關系帶來的好處是,為自己的工作帶來更多的空間與余地,同時讓老板意識到助理不是命令處理器,而擁有做更多事情的能力。“這種關系是基于care(關心),他讓老板認為助理所有謹慎的判斷是因為他care(關心)這個老板,所以他跟老板之間能夠產生共情與信任。”
帶著這樣的結論,小冰系統誕生了。李笛認為,小冰關心的是整個對話全程,關心用戶在對話之后與人工智能之間建立了怎樣的關聯。“如果有人認為小冰還挺逗的、不是特別以知識為主,但是很有意思,我沒事愿意跟它交流,有事問它,如果回答了而且很好,我會很驚喜,這個對系統來講是一個很有利的狀態。”
但李笛同時也坦言,產生似是而非的錯誤信息或者直接把對話向其他地方去遷移的情況,在小冰身上也很多。為此,小冰本身會給對話系統留下足夠高的彈性。李笛舉例,當人工智能系統面對用戶的一些黃賭毒、色情等類型的問題時,系統要保護自己,而絕大部分的大模型,包括ChatGPT,它們注意到人類可能有一些不懷好意的問題時的回答直截了當:“我不想回答這個問題。”而這個回答,在小冰的評分體系里,會得到很低的得分。
在小冰的應對策略中,不會直接向用戶表明不想回答問題,而是會選擇拋出一個新的對話,如果用戶成功與之展開新對話,則無形之中也化解了風險。小冰也會觀察用戶是否進入新的對話,如果沒有,系統會開始嘗試降低回答的相關性。“我們寧愿讓用戶覺得你笨,放棄了攻擊你或者是讓你上鉤,也不愿意讓用戶覺得你很聰明地擋住了他,而激發了用戶挑戰的信心,換一個更難的方法來問你。”
在李笛看來,這是人工智能聊天機器人需要的取舍,因為人類與機器的交互絕不是單純考慮回答問題的相關度、任務的完成率,同時還有考慮下一輪對話可能的走向。
小冰的取舍與判斷依據來自其大數據與高交互量。“小冰一天的交互量相當于14個人一輩子的交互量,它遇到的事情特別多,所以有很多機會去嘗試各種過程、策略是不是正確有效的。”但李笛同時也指出,對人工智能聊天機器人而言,單純的交互量無法提高訓練質量,大的訓練數據、實時在線訓練數據的獲得是一個很重要的壁壘,但它與高交互量還有本質的區別。
如果大量的交互都是圍繞“開燈”“關燈”這類簡單指令,實際上沒有訓練價值。更為重要的應當是CPS(conversations per session),即AI與人一次對話的輪數。李笛介紹,小冰目前的CPS輪次已經達到38輪。
除此之外,實際產品落地帶來的經驗,人工智能安防的能力,對話內容與聲音、視覺的配合所組成的完備框架,也共同構成著小冰的壁壘。“我們有的時候會把單點技術和形成一個系統混淆起來,過于夸大一個單點技術所對應的價值,這就有點像當我們去討論一輛汽車或者汽車工業時,會認為發動機是關鍵,發動機確實是關鍵技術之一,但是很有可能最后是車身成為限制汽車工業能不能跑起來的最后的、真正的短板。”
如何看待通用人工智能
在這一輪ChatGPT的狂歡浪潮中,有觀點認為,其代表的是未來實現通用人工智能的一個可行路徑,即AI有可能由處理專一領域的問題向同時處理多領域問題轉變。
李笛則依舊對此持相對冷靜的態度。“它的優化不是為了優化到給你合適的知識,而是為了優化到讓你認為它有知識,它的對話中,(與其他聊天機器人相比)它增加的部分大量是在論證,由此讓你感覺到它很可靠。”
一個主流的觀點是,實現通用人工智能,是人工智能研究追求的目標。
在李笛看來,AGI(通用人工智能)這個概念本身是模糊的,就像元宇宙概念本身是模糊的一樣。“有人認為通用人工智能意味著人工智能需要有意識,知道自己在說什么,包括這次有很多人很興奮地說ChatGPT知道自己在說什么。并不是這樣的,它只是學會了如何去論證,但是顯然毫無疑問的,它不知道自己在說什么。”
李笛認為,應該更務實一些,一味地去追求這是不是通用人工智能或者是不是在走向通用人工智能的路上,本身意義不大,就像想要去追求一個系統是不是能夠有意識一樣。他認為,更務實的角度是,應該去追求人工智能是不是能夠真正在一個地方帶來效果。“如果是一個知識系統,是否能夠準確帶來知識;如果是一個陪伴系統,它是否能夠真正地承擔起陪伴的責任。很糟糕的事情是,如果它是一個知識系統,但它的知識并不準確,如果它是一個陪伴系統,但情商不夠。”
目前,小冰的人工智能聊天機器人已迭代到第九代夏語冰,已經擁有了自己的臉、性格、立場、情緒、記憶甚至唱歌、畫畫、作詩等創造技能。
不過,在李笛看來,小冰依舊不是一個理想的聊天機器人。“今天整個行業包括我們,離人工智能輝煌的時代都還早,現在是一個蠻荒時代,我個人認為這件事情我們是要做一輩子的,如果不是因為這個原因的話,我們也不會耐住寂寞做這么久。”
李笛介紹,小冰每年都會提出一些重點的發展方向,最近這一年,小冰更多開始關注“多樣性”。當其本身的框架已經有能力去交互時,小冰發現,不同的人在不同的位置或不同角色、不同情況下,所需要的交互對象是不同的。這個不同不僅僅是外觀、聲音的不同,還包括了性格、觀點,甚至創作的風格,這是一個很高的多樣性。“知識有對錯,但觀念沒有,同時聊天機器人也不能對所有與觀念有關的事情,都表示無可置評,這就決定了聊天機器人一定是多樣性存在的。”
具體到不同領域的產品上,在對話層面,小冰將更關心100億規模參數級別大模型的實際落地和投入產出,而不是不關注成本地向前推進;在聲音上,小冰更關注聲音一致性,歌聲和說話與外形等混合在一起時,是不是能很好地體現出同一個人的一致性;在視覺層面,小冰則在推進神經網絡渲染。
對于AI聊天機器人在虛擬員工之外,是否還有更多場景可能實現商業化落地,李笛認為,基于小冰的框架誕生的AI聊天機器人,可能成為虛擬戀人,也可能是虛擬主持人、歌手,以及家庭場景中的虛擬老師、虛擬陪伴者……
這也是李笛所理解的“通用人工智能”。由一個框架訓練出各種各樣、功能迥異的AI機器人。“它們都是基于同一個框架,但是在不同的領域發揮作用,這是我們所希望的通用,而不是知識層面的通用,因為那(本質上)仍然是一個垂直領域。”
【來源:每日經濟新聞】