谷歌的自動(dòng)補(bǔ)全功能那么快，后臺(tái)是如何工作的？

google 搜索自動(dòng)補(bǔ)全功能的強(qiáng)大，相信不少朋友都能感受到，它幫助我們更快地“補(bǔ)全”我們所要輸入的搜索關(guān)鍵字。那么，它怎么知道我們要輸入什么內(nèi)容？它又是如何工作的？在這篇文章里，我?guī)阋黄鹂纯础?

使用自動(dòng)補(bǔ)全

Google 搜索的自動(dòng)補(bǔ)全功能可以在 Google 搜索應(yīng)用的大多數(shù)位置使用，包括 Google^[1] 主頁(yè)、適用于 IOS 和 Android 的 Google 應(yīng)用，我們只需要在 Google 搜索框上開(kāi)始鍵入關(guān)鍵字，就可以看到聯(lián)想詞了。

在上圖示例中，我們可以看到，輸入關(guān)鍵字 juej，Google 搜索會(huì)聯(lián)想到“掘金”、“掘金小冊(cè)”、“絕句”等等，好處就是，我們無(wú)須輸入完整的關(guān)鍵字即可輕松完成針對(duì)這些 topics 的搜索。

谷歌搜索的自動(dòng)補(bǔ)全功能對(duì)于使用移動(dòng)設(shè)備的用戶(hù)來(lái)說(shuō)特別有用，用戶(hù)可以輕松在難以鍵入的小屏幕上完成搜索。當(dāng)然，對(duì)于移動(dòng)設(shè)備用戶(hù)和臺(tái)式機(jī)用戶(hù)而言，這都節(jié)省了大量的時(shí)間。根據(jù) Google 官方報(bào)告，自動(dòng)補(bǔ)全功能可以減少大約 25% 的打字，累積起來(lái)，預(yù)計(jì)每天可以節(jié)省 200 多年的打字時(shí)間。是的，每天！

注意，本文所提到的“聯(lián)想詞”與“預(yù)測(cè)”，是同一個(gè)意思。

基于“預(yù)測(cè)”而非“建議”

Google 官方將自動(dòng)補(bǔ)全功能稱(chēng)之為“預(yù)測(cè)”，而不是“建議”，為什么呢？其實(shí)是有充分理由的。自動(dòng)補(bǔ)全功能是為了幫助用戶(hù)完成他們打算進(jìn)行的搜索，而不是建議用戶(hù)要執(zhí)行什么搜索。

那么，Google 是如何確定這些“預(yù)測(cè)”的？其實(shí)，Google 會(huì)根據(jù)趨勢(shì)搜索 trends^[2] 給到我們這些“預(yù)測(cè)”。簡(jiǎn)單來(lái)說(shuō)，哪個(gè)熱門(mén)、哪個(gè)搜索頻率高，就更可能推給我們。當(dāng)然，這也與我們當(dāng)前所處的位置以及我們的搜索歷史相關(guān)。

另外，這些“預(yù)測(cè)”也會(huì)隨著我們鍵入的關(guān)鍵字的變更而更改。例如，當(dāng)我們把鍵入的關(guān)鍵字從 juej 更改為 juex 時(shí)，與“掘金”相關(guān)的預(yù)測(cè)會(huì)“消失”，同時(shí)，與“覺(jué)醒”、“決心”相關(guān)聯(lián)的詞會(huì)出現(xiàn)。

為什么我們看不到某些聯(lián)想詞？

如果我們?cè)谳斎肽硞€(gè)關(guān)鍵字時(shí)看不到聯(lián)想詞，那么表明 Google 的算法可能檢測(cè)到：

•這個(gè)關(guān)鍵字不是熱門(mén)字詞；

•搜索的字詞太新了，我們可能需要等待幾天或幾周才能看到聯(lián)想詞；

•這是一個(gè)侮辱性或敏感字詞，這個(gè)搜索字詞違反了 Google 的相關(guān)政策。更加詳細(xì)的情況，可以了解 Google 搜索自動(dòng)補(bǔ)全政策^[3]。

為什么我們會(huì)看到某些不當(dāng)?shù)穆?lián)想詞？

Google 擁有專(zhuān)門(mén)設(shè)計(jì)的系統(tǒng)，可以自動(dòng)捕獲不適當(dāng)?shù)念A(yù)測(cè)結(jié)果而不顯示出來(lái)。然而，Google 每天需要處理數(shù)十億次搜索，這意味著 Google 每天會(huì)顯示數(shù)十億甚至上百億條預(yù)測(cè)。再好的系統(tǒng)，也可能存在缺陷，不正確的預(yù)測(cè)也可能隨時(shí)會(huì)出現(xiàn)。

我們作為 Google 搜索的用戶(hù)，如果認(rèn)定某條預(yù)測(cè)違反了相關(guān)的搜索自動(dòng)補(bǔ)全政策，可以進(jìn)行舉報(bào)反饋，點(diǎn)擊右下角“舉報(bào)不當(dāng)?shù)穆?lián)想查詢(xún)”并勾選相關(guān)選項(xiàng)即可。

如何實(shí)現(xiàn)自動(dòng)補(bǔ)全算法？

目前，Google 官方似乎并沒(méi)有公開(kāi)搜索自動(dòng)補(bǔ)全的算法實(shí)現(xiàn)，但是業(yè)界在這方面已經(jīng)有了不少研究。

一個(gè)好的自動(dòng)補(bǔ)全器必須是快速的，并且在用戶(hù)鍵入下一個(gè)字符后立即更新聯(lián)想詞列表。自動(dòng)補(bǔ)全器的核心是一個(gè)函數(shù)，它接受輸入的前綴，并搜索以給定前綴開(kāi)頭的詞匯或語(yǔ)句列表。通常來(lái)說(shuō)，只需要返回少量的數(shù)目即可。

接下來(lái)，我們先從一個(gè)簡(jiǎn)單且低效的實(shí)現(xiàn)開(kāi)始，并在此基礎(chǔ)上逐步構(gòu)建更高效的方法。

詞匯表實(shí)現(xiàn)

一個(gè)簡(jiǎn)單粗暴的實(shí)現(xiàn)方式是：順序查找詞匯表，依次檢查每個(gè)詞匯，看它是否以給定的前綴開(kāi)頭。

但是，此方法需要將前綴與每個(gè)詞匯進(jìn)行匹配檢查，若詞匯量較少，這種方式可能勉強(qiáng)行得通。但是，如果詞匯量規(guī)模較大，效率就太低了。

一個(gè)更好的實(shí)現(xiàn)方式是：讓詞匯按字典順序排序。借助二分搜索算法，可以快速搜索有序詞匯表中的前綴。由于二分搜索的每一步都會(huì)將搜索的范圍減半，因此，總的搜索時(shí)間與詞匯表中單詞數(shù)量的對(duì)數(shù)成正比，即時(shí)間復(fù)雜度是 O(log N)。二分搜索的性能很好，但有沒(méi)有更好的實(shí)現(xiàn)呢？當(dāng)然有，往下看。

前綴樹(shù)實(shí)現(xiàn)

通常來(lái)說(shuō)，許多詞匯都以相同的前綴開(kāi)頭，比如 need、nested 都以 ne 開(kāi)頭，seed、speed 都以 s 開(kāi)頭。要是為每個(gè)單詞分別存儲(chǔ)公共前綴似乎很浪費(fèi)。

前綴樹(shù)是一種利用公共前綴來(lái)加速補(bǔ)全速度的數(shù)據(jù)結(jié)構(gòu)。前綴樹(shù)在節(jié)點(diǎn)樹(shù)中排列一組單詞，單詞沿著從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑存儲(chǔ)，樹(shù)的層次對(duì)應(yīng)于前綴的字母位置。

前綴的補(bǔ)全是順著前綴定義的路徑來(lái)查找的。例如，在上圖的前綴樹(shù)中，前綴 ne 對(duì)應(yīng)于從子節(jié)點(diǎn)取左邊緣 N 和唯一邊緣 E 的路徑。然后可以通過(guò)繼續(xù)遍歷從 E 節(jié)點(diǎn)可以達(dá)到的所有葉節(jié)點(diǎn)來(lái)生成補(bǔ)全列表。在圖中，ne 的補(bǔ)全可以是兩個(gè)分支：-ed 和 -sted。如果在數(shù)中找不到由前綴定義的路徑，則說(shuō)明詞匯表中不包含以該前綴開(kāi)頭的單詞。

有限狀態(tài)自動(dòng)機(jī)(DFA)實(shí)現(xiàn)

前綴樹(shù)可以有效處理公共前綴，但是，對(duì)于其他共享詞部分，仍會(huì)分別存儲(chǔ)在每個(gè)分支中。比如，后綴 ed、ing、tion 在英文單詞中特別常見(jiàn)。在上一個(gè)例子中，e、d 分別存放在了每一個(gè)分支上。

有沒(méi)有一種方法可以更加節(jié)省存儲(chǔ)空間呢？有的，那就是 DFA。

在上面的例子中，單詞 need、nested、seed 和 speed 僅由 9 個(gè)節(jié)點(diǎn)組成，而上一張圖中的前綴樹(shù)包含了 17 個(gè)節(jié)點(diǎn)。

可以看出，最小化前綴樹(shù) DFA 可以在很大程度上減少數(shù)據(jù)結(jié)構(gòu)的大小。即使詞匯量很大，最小化 DFA 通常也適合在內(nèi)存中存儲(chǔ)，避免昂貴的磁盤(pán)訪(fǎng)問(wèn)是實(shí)現(xiàn)快速自動(dòng)補(bǔ)全的關(guān)鍵。

一些擴(kuò)展

上面介紹了如何利用合理的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)基本的自動(dòng)補(bǔ)全功能。這些數(shù)據(jù)結(jié)構(gòu)可以通過(guò)多種方式進(jìn)行擴(kuò)展，從而改善用戶(hù)體驗(yàn)。

通常，滿(mǎn)足特定前綴的詞匯可能很多，而用戶(hù)界面上能夠顯示的卻不多，我們更希望能顯示最常搜索或者最有價(jià)值的詞匯。這通常可以通過(guò)為詞匯表中的每個(gè)單詞增加一個(gè)代表單詞值的權(quán)重 weight，并且按照權(quán)重高低來(lái)排序自動(dòng)補(bǔ)全列表。

•對(duì)于排序后的詞匯表來(lái)說(shuō)，在詞匯表每個(gè)元素上增加 weight 屬性并不難；

•對(duì)于前綴樹(shù)來(lái)說(shuō)，將 weight 存儲(chǔ)在葉子節(jié)點(diǎn)中，也是很簡(jiǎn)單的一個(gè)實(shí)現(xiàn)；

•對(duì)于 DFA 來(lái)說(shuō)，則較為復(fù)雜。因?yàn)橐粋€(gè)葉子節(jié)點(diǎn)可以通過(guò)多條路徑到達(dá)。一種解決方案是將權(quán)重關(guān)聯(lián)到路徑而不是葉子節(jié)點(diǎn)。

目前有不少開(kāi)源庫(kù)都提供了這個(gè)功能，比如主流的搜索引擎框架 Elasticsearch^[4]、Solr^[5]等，基于此，我們可以實(shí)現(xiàn)高效而強(qiáng)大的自動(dòng)補(bǔ)全功能。