日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

前言

我們每天都在用百度,google這些搜索引擎,那大家有沒想過搜索引擎是如何實(shí)現(xiàn)的呢,看似簡單的搜索其實(shí)技術(shù)細(xì)節(jié)非常復(fù)雜,說搜索引擎是 IT 皇冠上的明珠也不為過,今天我們來就來簡單過一下搜索引擎的原理,看看它是如何工作的,當(dāng)然搜索引擎博大精深,一篇文章不可能完全介紹完,我們只會介紹它最重要的幾個步驟,不過萬變不離其宗,搜索引擎都離 不開這些重要步驟,剩下的無非是在其上添磚加瓦,所以掌握這些「關(guān)鍵路徑」,能很好地達(dá)到觀一斑而窺全貎的目的。

本文將會從以下幾個部分來介紹搜索引擎,會深度剖析搜索引擎的工作原理及其中用到的一些經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法,相信大家看了肯定有收獲。

  1. 搜索引擎系統(tǒng)架構(gòu)圖
  2. 搜索引擎工作原理詳細(xì)剖析

搜索引擎系統(tǒng)架構(gòu)圖

搜索引擎整體架構(gòu)圖如下圖所示,大致可以分為 搜集 , 預(yù)處理 , 索引 , 查詢 這四步,每一步的技術(shù)細(xì)節(jié)都很多,我們將在下文中詳細(xì)分析每一步的工作原理。

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

搜索引擎工作原理詳細(xì)剖析

一、搜集

爬蟲一開始是不知道該從哪里開始爬起的,所以我們可以給它一組優(yōu)質(zhì)種子網(wǎng)頁的鏈接,比如新浪主頁,騰訊主頁等,這些主頁比較知名,在 Alexa 排名上也非常靠前,拿到這些優(yōu)質(zhì)種子網(wǎng)頁后,就對這些網(wǎng)頁通過廣度優(yōu)先遍歷不斷遍歷這些網(wǎng)頁,爬取網(wǎng)頁內(nèi)容,提取出其中的鏈接,不斷將其加入到待爬取隊列,然后爬蟲不斷地從 url 的待爬取隊列里提取出 url 進(jìn)行爬取,重復(fù)以上過程...

當(dāng)然了,只用一個爬蟲是不夠的,可以啟動多個爬蟲并行爬取,這樣速度會快很多。

1、待爬取的 url 實(shí)現(xiàn)

待爬取 url 我們可以把它放到 redis 里,保證了高性能,需要注意的是,Redis 要開啟持久化功能,這樣支持?jǐn)帱c(diǎn)續(xù)爬,如果 Redis 掛掉了,重啟之后由于有持久化功能,可以從上一個待爬的 url 開始重新爬。

2、如何判重

如何避免網(wǎng)頁的重復(fù)爬取呢,我們需要對 url 進(jìn)行去重操作,去重怎么實(shí)現(xiàn)?可能有人說用散列表,將每個待抓取 url 存在散列表里,每次要加入待爬取 url 時都通過這個散列表來判斷一下是否爬取過了,這樣做確實(shí)沒有問題,但我們需要注意到的是這樣需要會出巨大的空間代價,有多大,我們簡單算一下,假設(shè)有 10 億 url (不要覺得 10 億很大,像 Google, 百度這樣的搜索引擎,它們要爬取的網(wǎng)頁量級比 10 億大得多),放在散列表里,需要多大存儲空間呢?

我們假設(shè)每個網(wǎng)頁 url 平均長度 64 字節(jié),則 10 億個 url 大約需要 60 G 內(nèi)存,如果用散列表實(shí)現(xiàn)的話,由于散列表為了避免過多的沖突,需要較小的裝載因子(假設(shè)哈希表要裝載 10 個元素,實(shí)際可能要分配 20 個元素的空間,以避免哈希沖突),同時不管是用鏈?zhǔn)酱鎯€是用紅黑樹來處理沖突,都要存儲指針,各種這些加起來所需內(nèi)存可能會超過 100 G,再加上沖突時需要在鏈表中比較字符串,性能上也是一個損耗,當(dāng)然 100 G 對大型搜索引擎來說不是什么大問題,但其實(shí)還有一種方案可以實(shí)現(xiàn)遠(yuǎn)小于 100 G 的內(nèi)存:布隆過濾器。

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

針對 10 億個 url,我們分配 100 億個 bit,大約 1.2 G, 相比 100 G 內(nèi)存,提升了近百倍!可見技術(shù)方案的合理選擇能很好地達(dá)到降本增效的效果。

當(dāng)然有人可能會提出疑問,布隆過濾器可能會存在誤判的情況,即某個值經(jīng)過布隆過濾器判斷不存在,那這個值肯定不存在,但如果經(jīng)布隆過濾器判斷存在,那這個值 不一定存在 ,針對這種情況我們可以通過調(diào)整布隆過濾器的哈希函數(shù)或其底層的位圖大小來盡可能地降低誤判的概率,但如果誤判還是發(fā)生了呢,此時針對這種 url 就不爬好了,畢竟互聯(lián)網(wǎng)上這么多網(wǎng)頁,少爬幾個也無妨。

3、網(wǎng)頁的存儲文件: doc_raw.bin

爬完網(wǎng)頁,網(wǎng)頁該如何存儲呢,有人說一個網(wǎng)頁存一個文件不就行了,如果是這樣,10 億個網(wǎng)頁就要存 10 億個文件,一般的文件系統(tǒng)是不支持的,所以一般是把網(wǎng)頁內(nèi)容存儲在一個文件(假設(shè)為 doc_raw.bin)中,如下

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

當(dāng)然一般的文件系統(tǒng)對單個文件的大小也是有限制的,比如 1 G,那在文件超過 1 G 后再新建一個好了。

圖中網(wǎng)頁 id 是怎么生成的,顯然一個 url 對應(yīng)一個網(wǎng)頁 id,所以我們可以增加一個發(fā)號器,每爬取完一個網(wǎng)頁,發(fā)號器給它分配一個 id,將網(wǎng)頁 id 與 url 存儲在一個文件里,假設(shè)命名為 doc_id.bin,如下

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

二、預(yù)處理

爬取完一個網(wǎng)頁后我們需要對其進(jìn)行預(yù)處理,我們拿到的是網(wǎng)頁的 html 代碼,需要把 ,,,找到之后,把起始終止標(biāo)簽及其中的內(nèi)容全部去掉即可。

做完以上步驟后,我們也要把其它的 html 標(biāo)簽去掉(標(biāo)簽里的內(nèi)容保留),因?yàn)槲覀冏罱K要處理的是純內(nèi)容(內(nèi)容里面包含用戶要搜索的關(guān)鍵詞)

三、分詞并創(chuàng)建倒排索引

拿到上述步驟處理過的內(nèi)容后,我們需要將這些內(nèi)容進(jìn)行分詞,啥叫分詞呢,就是將一段文本切分成一個個的詞。比如 「I am a chinese」分詞后,就有 「I」,「am」,「a」,「chinese」這四個詞,從中也可以看到,英文分詞相對比較簡單,每個單詞基本是用空格隔開的,只要以空格為分隔符切割字符串基本可達(dá)到分詞效果,但是中文不一樣,詞與詞之類沒有空格等字符串分割,比較難以分割。以「我來到北京清華大學(xué)」為例,不同的模式產(chǎn)生的分詞結(jié)果不一樣,以 github 上有名的 jieba 分詞開源庫以例,它有如下幾種分詞模式

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)
【精確模式】: 我/ 來到/ 北京/ 清華大學(xué)
【新詞識別】:他, 來到, 了, 網(wǎng)易, 杭研, 大廈
【搜索引擎模式】: 小明, 碩士, 畢業(yè), 于, 中國, 科學(xué), 學(xué)院, 科學(xué)院, 中國科學(xué)院, 計算, 計算所, 后, 在, 日本, 京都, 大學(xué), 日本京都大學(xué), 深造

分詞一般是根據(jù)現(xiàn)成的詞庫來進(jìn)行匹配,比如詞庫中有「中國」這個詞,用處理過的網(wǎng)頁文本進(jìn)行匹配即可。當(dāng)然在分詞之前我們要把一些無意義的停止詞如「的」,「地」,「得」先給去掉。

經(jīng)過分詞之后我們得到了每個分詞與其文本的關(guān)系,如下

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

細(xì)心的你一定發(fā)現(xiàn)了,不同的網(wǎng)頁內(nèi)容有可能出現(xiàn)同樣的分詞,所以我們把具有相同分詞的網(wǎng)頁歸在一起,如下所示

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

這樣我們在搜「大學(xué)」的時候找到「大學(xué)」對應(yīng)的行,就能找到所有包含有「大學(xué)」的文檔 id 了。

看到以上「分詞」+「倒排索引」的處理流程,大家想到了什么?沒錯,這不就是 ElasticSearch 搜索引擎干的事嗎,也是 ES 能達(dá)到毫秒級響應(yīng)的關(guān)鍵!

這里還有一個問題,根據(jù)某個詞語獲取得了一組網(wǎng)頁的 id 之后,在結(jié)果展示上,哪些網(wǎng)頁應(yīng)該排在最前面呢,為啥我們在 Google 上搜索一般在第一頁的前幾條就能找到我們想要的答案。這就涉及到搜索引擎涉及到的另一個重要的算法: PageRank,它是 Google 對網(wǎng)頁排名進(jìn)行排名的一種算法,它以網(wǎng)頁之間的超鏈接個數(shù)和質(zhì)量作為主要因素粗略地分析網(wǎng)頁重要性以便對其進(jìn)行打分。我們一般在搜問題的時候,前面一兩個基本上都是 stackoverflow 網(wǎng)頁,說明 Google 認(rèn)為這個網(wǎng)頁的權(quán)重很高,因?yàn)檫@個網(wǎng)頁被全世界幾乎所有的程序員使用著,也就是說有無數(shù)個網(wǎng)頁指向此網(wǎng)站的鏈接,根據(jù) PageRank 算法,自然此網(wǎng)站權(quán)重就啦,恩,可以簡單地這么認(rèn)為,實(shí)際上 PageRank 的計算需要用到大量的數(shù)學(xué)知識,畢竟此算法是 Google 的立身之本,大家如果有興趣,可以去網(wǎng)上多多了解一下。

完成以上步驟,搜索引擎對網(wǎng)頁的處理就完了,那么用戶輸入關(guān)鍵詞搜索引擎又是怎么給我們展示出結(jié)果的呢。

四、查詢

用戶輸入關(guān)鍵詞后,首先肯定是要經(jīng)過分詞器的處理。比如我輸入「中國人民」,假設(shè)分詞器分將其分為「中國」,「人民」兩個詞,接下來就用這個兩詞去倒排索引里查相應(yīng)的文檔

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

得到網(wǎng)頁 id 后,我們分別去 doc_id.bin,doc_raw.bin 里提取出網(wǎng)頁的鏈接和內(nèi)容,按權(quán)重從大到小排列即可。

這里的權(quán)重除了和上文說的 PageRank 算法有關(guān)外,還與另外一個「 TF-IDF 」(https://zh.wikipedia.org/wiki/Tf-idf)算法有關(guān),大家可以去了解一下。

另外相信大家在搜索框輸入搜索詞的時候,都會注意到底下會出現(xiàn)一串搜索提示詞,

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

如圖示:輸入 chin 這四個字母后,底下會出現(xiàn)一列提示詞。

如何實(shí)現(xiàn)的,這就不得不提到一種樹形結(jié)構(gòu):Trie 樹。Trie 樹又叫字典樹、前綴樹(Prefix Tree)、單詞查找樹,是一種多叉樹結(jié)構(gòu),如下圖所示:

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

這顆多叉樹表示了關(guān)鍵字集合 ["to","tea","ted","ten","a","i","in", "inn"]。從中可以看出 Trie 樹具有以下性質(zhì):

  1. 根節(jié)點(diǎn)不包含字符,除根節(jié)點(diǎn)外的每一個子節(jié)點(diǎn)都包含一個字符
  2. 從根節(jié)點(diǎn)到某一個節(jié)點(diǎn),路徑上經(jīng)過的字符連接起來,為該節(jié)點(diǎn)對應(yīng)的字符串
  3. 每個節(jié)點(diǎn)的所有子節(jié)點(diǎn)包含的字符互不相同

通常在實(shí)現(xiàn)的時候,會在節(jié)點(diǎn)結(jié)構(gòu)中設(shè)置一個標(biāo)志,用來標(biāo)記該結(jié)點(diǎn)處是否構(gòu)成一個單詞(關(guān)鍵字)。

另外我們不難發(fā)現(xiàn)一個規(guī)律,具有公共前綴的關(guān)鍵字(單詞),它們前綴部分在 Trie 樹中是相同的,這也是 Trie 樹被稱為 前綴樹 的原因,有了這個思路,我們不難設(shè)計出上文所述搜索時展示一串搜索提示詞的思路:

一般搜索引擎會維護(hù)一個詞庫,假設(shè)這個詞庫由所有搜索次數(shù)大于某個閾值(如 1000)的字符串組成,我們就可以用這個詞庫構(gòu)建一顆 Trie 樹,這樣當(dāng)用戶輸入字母的時候,就可以以這個字母作為前綴去 Trie 樹中查找,以上文中提到的 Trie 樹為例,則我們輸入「te」時,由于以「te」為前綴的單詞有 ["tea","ted","ted","ten"],則在搜索引擎的搜索提示框中就可以展示這幾個字符串以供用戶選擇。

五、尋找熱門搜索字符串

Trie 樹除了作為前綴樹來實(shí)現(xiàn)搜索提示詞的功能外,還可以用來輔助尋找熱門搜索字符串,只要對 Trie 樹稍加改造即可。假設(shè)我們要尋找最熱門的 10 個搜索字符串,則具體實(shí)現(xiàn)思路如下:

一般搜索引擎都會有專門的日志來記錄用戶的搜索詞,我們用用戶的這些搜索詞來構(gòu)建一顆 Trie 樹,但要稍微對 Trie 樹進(jìn)行一下改造,上文提到,Trie 樹實(shí)現(xiàn)的時候,可以在節(jié)點(diǎn)中設(shè)置一個標(biāo)志,用來標(biāo)記該結(jié)點(diǎn)處是否構(gòu)成一個單詞,也可以把這個標(biāo)志改成以節(jié)點(diǎn)為終止字符的搜索字符串個數(shù),每個搜索字符串在 Trie 樹遍歷,在遍歷的最后一個結(jié)點(diǎn)上把字符串個數(shù)加 1,即可統(tǒng)計出每個字符串被搜索了多少次(根節(jié)點(diǎn)到結(jié)點(diǎn)經(jīng)過的路徑即為搜索字符串),然后我們再維護(hù)一個有 10 個節(jié)點(diǎn)的小頂堆(堆頂元素比所有其他元素值都小,如下圖示)

搜索引擎背后的經(jīng)典數(shù)據(jù)結(jié)構(gòu)和算法

 

如圖示:小頂堆中堆頂元素比其他任何元素都小

依次遍歷 Trie 樹的節(jié)點(diǎn),將節(jié)點(diǎn)(字符串+次數(shù))傳給小頂堆,根據(jù)搜索次數(shù)不斷調(diào)整小頂堆,這樣遍歷完 Trie 樹的節(jié)點(diǎn)后,小頂堆里的 10 個節(jié)點(diǎn)對應(yīng)的字符串即是最熱門的搜索字符串。

總結(jié)

本文簡述了搜索引擎的工作原理,相信大家看完后對其工作原理應(yīng)該有了比較清醒的認(rèn)識,我們可以看到,搜索引擎中用到了很多經(jīng)典的數(shù)據(jù)結(jié)構(gòu)和算法,所以現(xiàn)在大家應(yīng)該能明白為啥 Google, 百度這些公司對候選人的算法要求這么高了。

分享到:
標(biāo)簽:算法 搜索引擎
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定