譯者 | 李睿
審校 | 重樓
近幾個月來,生成式人工智能憑借其創造獨特的文本、聲音和圖像的能力引起了人們的極大興趣。但生成式人工智能的力量并不局限于創造新的數據。
生成式人工智能的底層技術(例如Transformer和擴散模型)可以為許多其他應用提供動力,其中包括信息的搜索和發現。特別是,生成式人工智能可以徹底改變圖像搜索,使人們能夠以以前不可能的方式瀏覽視覺信息。
以下是人們需要知道的關于生成式人工智能如何重新定義圖像搜索體驗的內容。
圖像和文本嵌入
傳統的圖像搜索依賴于圖像附帶的文本描述、標記和其他元數據,這將用戶的搜索選項限制為已經明確附加到圖像中的信息。上傳圖像的人必須認真考慮輸入的搜索查詢類型,以確保他們的圖像被他人發現。而在搜索圖像時,查詢信息的用戶必須嘗試想象圖像上傳者可能在圖像中添加了什么樣的描述。俗話說,“一圖勝千言”。然而對于圖像的描述來說,可以編寫的內容是有限的。當然,根據人們查看圖像的方式,可以采用很多方式進行描述。而人們有時根據圖中的物體進行搜索,有時根據風格、光線、位置等特征搜索圖像。不幸的是,圖像很少伴隨著如此豐富的信息。很多人上傳的許多圖像幾乎沒有附帶任何信息,這使得它們很難在搜索中被發現。
這就是人工智能圖像搜索發揮重要作用的地方。人工智能圖像搜索有不同的方法,不同的公司有自己的專有技術。然而,有些技術是這些公司所共有的。
人工智能圖像搜索以及許多其他深度學習系統的核心是嵌入,嵌入是不同數據類型的數值表示。例如,512×512分辨率的圖像包含大約26萬個像素(或特征)。嵌入模型試圖通過對數百萬張圖像進行訓練來學習視覺數據的低維表示。圖像嵌入可以有許多有用的應用,包括壓縮圖像、生成新圖像或比較不同圖像的視覺屬性。
同樣的機制適用于文本等其他形式。文本嵌入模型是文本摘錄內容的低維表示。文本嵌入有許多應用,包括用于大型語言模型(LLM)的相似性搜索和檢索增強。
人工智能圖像搜索的工作原理
但是,當圖像和文本嵌入一起訓練時,事情變得更加有趣。像LAION這樣的開源數據集包含數以百萬計的圖像及其相應的文本描述。當文本和圖像嵌入在這些圖像/標題對進行聯合訓練或微調時,它們會學習視覺和文本信息之間的關聯。這就是深度學習技術背后的思想,例如對比圖像語言預訓練(CLIP)。對比圖像語言預訓練(CLIP)模型學習文本和圖像的聯合嵌入
現在,有了可以從文本轉換為視覺嵌入的工具。當為這個聯合模型提供文本描述時,它將創建文本嵌入及其相應的圖像嵌入。然后,可以將圖像嵌入與數據庫中的圖像進行比較,并檢索與它最密切相關的圖像。這基本上就是人工智能圖像搜索的工作原理。
這種機制的美妙之處在于,用戶將能夠基于圖像視覺特征的文本描述檢索圖像,即使這一描述沒有在其元數據中注冊。你可以使用豐富的搜索詞,這在以前是不可能實現的,例如“郁郁蔥蔥的森林籠罩著晨霧,燦爛的陽光透過高大的松林,草地上生長著一些蘑菇。”
在上面的例子中,人工智能搜索返回了一組圖像,其視覺特征與這個查詢相匹配。其中很多的文字描述都沒有包含查詢的關鍵詞。但它們的嵌入與查詢的嵌入相似。如果沒有人工智能圖像搜索,要找到合適的圖像就會困難得多。
從發現到創造
有時,人們尋找的圖像并不存在,甚至通過人工智能搜索也無法找到它。在這種情況下,生成式人工智能可以通過兩種方式之一幫助用戶實現預期的結果。第一種方法是根據用戶的查詢從頭創建一個新圖像。在這種情況下,文本到圖像生成模型(例如Stable Diffusion或DALL-E)為用戶的查詢創建嵌入,并使用它創建圖像。生成模型利用對比圖像語言預訓練(CLIP)等聯合嵌入模型和其他架構(例如Transformer或擴散模型)將嵌入的數值轉換為令人驚嘆的圖像。
DALL-E使用對比圖像語言預訓練(CLIP)和擴散從文本生成圖像
第二種方法是采用現有的圖像,并使用生成模型根據自己的喜好進行編輯。例如,在返回松林的圖片中,草地上的蘑菇是缺失的。用戶可以使用其中一張認為合適的圖像作為起點,并使用生成模型將蘑菇添加到其中。
生成式人工智能創造了一個全新的范例,模糊了發現和創造力之間的界限。而在單一界面中,用戶可以查找圖像、編輯圖像或創建全新的圖像。
原文標題:How generative AI is redefining image search,作者:Ben Dickson