人工智能
重塑搜索
短短幾日,OpenAI 的聊天機器人ChatGPT 席卷了互聯網,用戶數輕而易舉突破百萬。
答疑解惑、編寫代碼、撰寫論文、創作詩歌和鋼琴曲,當人類絞盡腦汁設下「九九八十一難」,ChatGPT 基本問什么答什么,就算不會也能編得像模像樣。
到目前為止,在推向大眾的文本生成 AI 里,ChatGPT 是最好的那一個,更何況還免費使用。
當 ChatGPT 春風得意馬蹄疾,也有人看到它光環下的失意,程序員和文字工作者的飯碗可能不保,連 google 等傳統搜索引擎也可能被它革了命。
有了搜索引擎,我們依然需要花大量時間翻網頁找答案,如果 AI 能直接把答案遞到你眼前,還能保證正確率,那豈不是更好?
但問題就在于「如果」。
ChatGPT:我無法與 Google 相比
12 月 1 日,開發人員 Josh Kelly 曬出同一個代碼問題在 Google 和 ChatGPT 的不同結果,ChatGPT的答案看起來質量更高,讓他感嘆「Google is done」(Google 完蛋了)。
初出茅廬的 ChatGPT,真的把刀架在 Google 搜索的脖子上了嗎?
先看看兩者在定義上的區別。
搜索引擎的核心是海量信息集合,而非信息創造。你在搜索框輸入關鍵字,搜索引擎根據算法,抓取、索引、排序與你的查詢匹配的結果,然后你看到了大量的鏈接,再從中尋找自己需要的信息。
而 ChatGPT 屬于 AIGC(人工智能生產內容),是一種新的內容創作方式。它已經被數據集訓練完畢,通過一對一的對話和類似人類的口吻,給出單一、即時的答案,還能結合上下文,實現多輪對話,幫你解決更為復雜的、連續性的問題。
你可以一步步引導規則,讓它設計游戲等產品,或者給它一段程序,讓它檢查 bug,還可以給它演示案例,讓它舉一反三。互動越復雜,ChatGPT 的能力也會越豐富,只當一個回合的搜索引擎用,倒有些「屈才」。
比傳統的聊天機器人更聰明,比人類的問答網站更快捷,ChatGPT 讓查找信息的過程更加直觀和簡單。
一個是生成式搜索,一個是大規模搜索,目前的 ChatGPT 還遠遠取代不了 Google。
在 ChatGPT 的基礎設定里,信息的時效性已經落后了。ChatGPT 基于互聯網的數十億個文本示例訓練,學習生涯停留在了 2021 年,它也沒有聯網,不實時調用外部網絡資源,無法像 Google 地圖般根據位置為你推薦餐館,不能幫你打開 Twitter、Facebook。
相比之下,Google 既有龐大的索引網站數據庫,也提供圖像、地圖等功能和工具,讓你快速訪問其他網站更是它的「基本素養」。事實上,Google 最受歡迎的搜索就是「Facebook」「亞馬遜」等關鍵詞。
不過,ChatGPT 被吐槽最多的還是它的準確性,列對了雞兔同籠方程卻解錯,硬說豆瓣的創始人不是阿北,腦洞大開胡編亂造西游記結局,一本正經地胡說八道就罷了,偏偏語氣十分自信,也不提供資料來源。你使用搜索引擎時,至少可以憑借多個信源交叉驗證。
12 月 4 日,馬斯克透露 ChatGPT 可以訪問 Twitter 數據庫,這意味著 ChatGPT 必然學習了許多缺少事實核查的數據。正因為垃圾答案泛濫,程序員問答網站 Stack Overflow 從 12 月 5 日開始,暫時禁止用戶分享 ChatGPT 生成的內容。
另外,ChatGPT 的回答混入了不少片湯話,被調侃為「水文神器」。OpenAI 解釋,這主要是因為訓練數據偏差(訓練者更喜歡看起來更全面的、更長的答案)和過度優化。
種種不足擺在臺面上,ChatGPT 暫時不會威脅到搜索引擎。
《2001 太空漫游》的 AI 殺人事件.
雖然 ChatGPT 比其他 AI 更像人了,本質上還是「隨機鸚鵡」,離不開大模型、大數據、大算力,它的知識來自訓練數據中的統計規律,并不理解自己所說的話。12 月 5 日,《時代》雜志「專訪」了 ChatGPT,在被問到「大型語言模型有哪些限制」時,ChatGPT 回答道:
大型語言模型的一個限制是,我們無法理解我們生成的單詞的上下文或含義。我們只能根據給定的訓練數據,根據某些單詞或單詞序列一起出現的概率來生成文本。
這意味著我們無法為我們的回答提供解釋或推理,并且我們可能不會總是生成完全連貫或在對話上下文中有意義的回答。
但 ChatGPT 回避了一個問題:什么是理解?「理解」是屬于人類的概念,它能否用在 ChatGPT?如果能用,它的理解是否約等于「生成有意義的回答」這個結果,論跡不論心?
至少在未來一段時間內,我們或許更需要擔心,當越來越多的網絡內容由類似的模型生成,搜索引擎給出的結果,質量是會提高還是降低。
我還問了問 ChatGPT 本尊,它的態度十分謙虛,不覺得應該拿它和 Google 比較:
我是一個大型語言模型,無法與 Google 或任何其他搜索引擎進行比較。我的目的是通過回答用戶的提問來幫助用戶獲得信息,而不是提供搜索功能。與搜索引擎相比,我的優勢在于能夠回答復雜的問題,并且可以提供更加個性化和詳細的信息。相比之下,我的劣勢在于無法提供搜索功能,也無法提供最新的信息。
AI 可能是搜索引擎的未來
雖然 ChatGPT 仍在起步,沒有在搜索上比 Google 做得更好,但它可能改變我們在線搜索信息的方式,讓搜索技術更上一層樓。
眼下就有一個簡單的例子,現在已經有大量將 ChatGPT 嵌入 Google 的插件出現,其中有些插件將 ChatGPT 的結果顯示在網頁右側,一次搜索兼顧兩種體驗。
再參照 ChatGPT 和圖像生成模型 Stable Diffusion 的聯動(可能是因為 AI 更懂 AI,ChatGPT 的描述更容易被 Stable Diffusion 提取,最終的圖片質量更高),ChatGPT 或許也可以用于解釋、指導關鍵詞,幫助我們更好地用搜索引擎查找信息。
此外,ChatGPT 的時效性、準確性不足,也并非是無解的。
一方面,知乎答主、自然語言處理專家@張俊林指出,近乎實時地將新知識融入大規模語言模型,非常有挑戰性,一種解決辦法是,把它存到傳統搜索引擎的索引里,ChatGPT 如果回答不了時效性的問題,可以轉向搜索引擎抽取對應的答案。
另一方面,彭博社報道,OpenAI 正在開發一個名為 WebGPT 的 AI 系統,WebGPT 將能夠更準確地回答問題,甚至還能說明引用的來源。
以上這些還是 AI 和搜索引擎的結合體。如果我們更大膽地設想一番,不考慮技術限制,拋去搜索引擎,存在一個無所不知的 AI,以易于理解的問答形式,提供與問題相關且準確的信息,這是未來搜索的理想模樣嗎?
不少 AI 專家認為愿景本身就有問題。德國魏瑪包豪斯大學研究員 Benno Stein 表示,它可能隱藏現實世界的復雜性:
問題不在于現有技術的局限性。即使擁有完美的技術,我們也無法得到完美的答案。我們不知道什么是好的答案,因為世界很復雜,但當我們看到這些直接的答案時,我們會停止思考。
那么如何讓答案顯得更「復雜」?有人覺得,簡單地提供一份文件清單,會比直接給出答案更有用;有人則建議,可以解釋答案并給出不同觀點的利弊,讓人既知其然也知其所以然。
圖片來自:Getty Images
但是大多數時候,本不存在真正的完美的答案,準確、詳細這些衡量標準,也更針對事實類、知識類問題,而非那些天馬行空的開放式命題。
以答案的準確或者詳細與否框定 AI,反而有些「著相」。不妨讓我們回到上文提到的定位問題,ChatGPT 是生成式搜索,Google 是大規模搜索,前者是 chat,后者是 search,它們在本質上就是不同的。
ChatGPT 火了一段時間了,我們對它有了一個大概的共識:它的錯誤答案不少,特別在知識類和事實類問題上,但如果把它放在創作的一個環節,可以用來激發靈感、提高生產力。
它不是搜索引擎,也不像聊天機器人,更像一個隨時供你咨詢的「超級大腦」。換句話說,ChatGPT 不一定會顛覆 Google,但它從根本上改變了我們和知識的相處形式,你可以和它談星星談月亮,從詩詞歌賦說到人生哲學。
ChatGPT 對創造力、開闊思維的激發,可能比事實類信息的準確性更加重要,它完全可以和搜索引擎、人類勞動互相補充,不必你死我活,各自完成通向未知的一塊拼圖,這也是我們對「搜索」的根本需要。
搜索引擎不僅僅是個問答機器
自 ChatGPT 橫空出世,不乏 Google 搜索將被取代的聲音。
其實 Google 并沒有掉隊,它在 DeepMind 的大型語言模型 Chinchilla 上訓練 AI 聊天機器人 Sparrow,也開發了對話神經語言模型 LaMDA。
去年 5 月,Google 研究人員發了一篇題為「重新思考搜索」的論文,描述了一種新型搜索引擎:大型語言模型借助算法提供簡潔的專業答案,用戶無需在大量網頁列表中搜索信息,聽起來就是 ChatGPT 的模樣。
為什么 Google 沒有像 OpenAI 一樣,直接向大眾推出類似 ChatGPT 的產品,或者將它集成在自己的搜索之中?Alphabet 工程師@hncel認為,問題主要在于成本和延遲:
像 GPT 這樣的大型語言模型是 Google 主要研究的領域之一,Google 有大量預算與人員來處理這些模型,但在最大的 Google 產品(例如搜索、Gmail)中實際使用這些語言模型的經濟性還不完全存在。
發布有趣的測試版是一回事,但將它深入集成到一個每天服務數十億個請求的系統中,考慮到服務的成本、增加的延遲,則是另一回事。將成本降低至少 10 倍,才能將這樣的模型集成到搜索等產品中。
與此同時,大型語言模型也會影響 Google 搜索當前的商業模式——Google 母公司 Alphabet 2021 年收入 2576 億美元,約有 81% 來自廣告,其中大部分是 Google 的按點擊付費廣告。
像 ChatGPT 這樣的 AI 大大減少了頁面數量,阻礙了人們瀏覽和點擊更多廣告,那么廣告收入也會隨之下降。
話說回來,ChatGPT 的爆火,也讓我們或多或少地意識到,搜索引擎「索引、檢索和排序」的固有模式已經統治了 20 多年,Google 每年都會對搜索引擎進行數千次更改,其中大多數都很微小,并沒有發生根本性的變化。
1998 年,一對斯坦福大學的研究生發表了一篇關于新型搜索引擎的論文:
在這篇論文中,我們介紹了 Google,這是一種大規模搜索引擎的原型,它大量使用了超文本中的結構。Google 有效地抓取和索引網絡,并產生比現有系統更令人滿意的搜索結果。
過去的創新變成了現在的傳統,Google 等傳統搜索引擎面臨的對手不止是未來的 AI。
比如,已經有人將 TikTok 稱作「新的 Google」,國外網友使用 TikTok 搜索,有點像我們在小紅書查找攻略,在美食、片單等領域確實好用。這背后隱藏著一個趨勢:在 TikTok 和抖音「稱霸」的世界里,互聯網比以前更直觀、更視覺化、更具交互性,搜索也不例外。
但 TikTok 不至于真的動搖 Google。如果查找更多信息、訪問更多網站,你依然要回到 Google。
既然變化已經發生,Google 也需要通過更自然、更直觀的方式,帶來更好的搜索體驗。
近幾年來,因為人工智能、機器學習和計算機視覺等方面的進步,Google 一直向這個方向轉變,包括引入相機和麥克風搜索、圖片和文本的多重搜索、地圖中的沉浸式視圖等等。
簡單來說,Google搜索的輸入和輸出,都變得更加「多感官」,也變得更加主動,更能猜中用戶的心思。
機器學習模型 MUM 讓 Google 搜索引擎更「聰明」.
許多 Google 與搜索有關的項目仍在探索和測試階段,今年 9 月的年度 Search On 活動上,負責 Google 搜索產品的副總裁 Liz Reid 舉了一個未來可能的例子:
如果 Google 知道你對木工感興趣,它在回答你搜索的某個問題之外,還會向你展示你不知道的新工具、你從未聽說過的 YouTube 博主,以及你可以去哪里學習新技能等等。
Liz Reid 相信,Google 搜索不僅僅是一個反應快速的問答機器,而是一個用于探索、發現、學習你還沒有明確答案的事物的系統。
某種程度上,迭代的搜索引擎也好,進擊的通用 AI 模型也罷,一個是固有框架的微調,一個是另起爐灶的改革,它們都在讓知識更容易被獲取,讓信息篩選更加智能,降低你的學習門檻,縮短你的學習過程。
Google 高級副總裁 Prabhakar Raghavan 提出了一個很有意思的觀點,搜索還是一個遠沒有解決的問題,「如果你把所有的機器都給我,我仍然會被人類的好奇心和認知所束縛」。
搜索得到更好的答案之前,我們要先知道如何提出問題。未來,組織資料的能力可能不再稀缺,基于個體經驗和情感的提問能力和原創觀點更為珍貴。當你被引到知識的大門前,人之為人的思辨性和創造力,則以前所未有的地位被凸顯出來。