日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

搜索引擎爬蟲的更新,基本應用在像快照的更新,搜索引擎對已抓取頁面的再抓取行為等。至于為什么要進行再抓取基本是因為互聯網上萬萬億的頁面量。很多頁面還是有一直變化的。這個變化的前置因子,導致了爬蟲要不斷的更新自己的數據,從而一定要對已經抓取的網頁進行再抓取。那搜索引擎爬蟲的三大更新策略都是什么呢?

所謂歷史更新策略,就是針對已經抓取的網頁有一個再抓取的時間限制。例如爬蟲抓取我seo博客的首頁,從而搜索引擎通過一直以來的抓取得出我的博客首頁平均每3天更新一次,那么爬蟲的抓取策略就會調整為每3天訪問一次我的博客首頁。

這樣的更新抓取策略告訴我們,網頁變化頻繁就會引來蜘蛛的頻繁抓取。所以在這里如果你的網頁全部是靜態的。也就意味著不生成一遍對應頁面是不會發生變化的。相對而言針對這種策略邏輯你就不是很站好。所以網址設置為偽靜態的,在網站打開速度能夠很好控制的前提下,把網頁本身設置為動態頁面是很不錯的選擇。

搜索引擎爬蟲的用戶體驗更新策略

所謂用戶體驗的網頁更新策略,是搜索引擎認為網頁參與具有一定搜索量詞的排名,且在前3頁的,是經常會被用戶訪問到的頁面。那么針對這類頁面要更優先的進行抓取更新。

而3頁之后的網頁對于用戶而言,訪問的人占到了極少數,晚一些時間更新也未嘗不可。因此采取的一種網頁抓取更新策略。

這種策略讓我們知道,一些核心關鍵詞排名靠前的網頁,被爬蟲抓取的頻次是更多的。那么值得思考的一個問題是網站也會有一些詳情頁,聚合頁甚至文章頁參與比錯的詞的排名。這是不是意味著這次頁面抓取量也不錯呢?針對這個問題,趙彥剛之前通過對訪問日志的分析確定了這個答案,在80%的情況下,確實是這樣的。但這種頁面的頻率遠低于首頁、頻道頁等距離首頁更近,路徑更短的頁面抓取量。

不過,我們還是可以好好優化我們的詳情頁/文章頁,在這類頁面以展示最新內容,為最新內容的收錄增加爬蟲抓取的入口。

搜索引擎爬蟲抓取網頁的抽樣聚類策略

談到這個策略,我們先從字面意思來看“抽樣,聚類”。抽樣是指從網站中抽取一些樣本出來進行觀察,而聚類是根據這些樣本的觀察得出一定的結論后應用于這個類型上。

我們的網站都是有不同類型組成的,例如列表頁、產品詳情頁、文章頁、頻道頁、聚合頁等,這些都是不同的類型。搜索引擎從這中間抽選出一些樣本,進行觀察后得出一個更新周期后,應用于整個類型的方式就是抽樣聚類的網頁抓取更新策略。

我們舉個例子,搜索引擎從列表頁抽樣找到A列表頁,通過分析觀察發現A列表頁每2天可以抓取一次。然后和A列表頁同類型的還有B、C、D列表頁,因為他們的模版一樣、導航都有、首頁下模塊也特指這四個列表頁。那么他們是一類的,所以B、C、D列表頁和A列表頁一樣,都是2天一抓取。

分享到:
標簽:爬蟲 搜索引擎
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定