網站建立早期,頁里數目有限,團隊人數有限,網站各種頁里元素變更沒有年夜。但到了網站建立中期,網站需供圓需供變多,網站變動比擬于之前愈加頻仍,XX部分提的XX需供能夠會影響SEO流量,若已實時發明,工夫推少,能夠形成較為嚴峻,以至不成順轉的結果。那個鍋,誰去背呢?
那面能夠經由過程完美需供上線流程去處理一部門,好比:任何觸及頁里變更的需供(新刪頁里 & 已有頁里元素變動)正在提交RD前,需供評審階段均需求SEO部分參與,確認該需供對SEO渠講的用戶推新無影響后,正在正式提交RD。
為難的是,有相稱比例的公司,SEO果為汗青結果各種不成控,大概 SEO并不是用戶推新的次要渠講,SEO較易弄定正在PM戰RD里前話語權的成績,他們能夠沒有怎樣care,老遺忘評審的時分叫上SEO一同游玩。那種狀況需求具有八卦特性的SEO,出事跟RD、PM扯扯皮,問問近來上了甚么新需供…
可是,即使正在流程上可以弄定,也是會呈現頁里元素的竄改,卻已實時告訴到SEO的狀況,好比新進職的產物提需供,沒有曉得有那個流程。
別的,因為SEO部分人事情動,呈現老員工離任、新員工進職的狀況。新進職的SEO不克不及快速理解網站汗青布景,老員工取新員工交代,許多細節會漏掉,招致新進職的SEO,往后會踩到本可制止的一些坑。
一些下層SEO針對爬蟲日記,也出有充足的闡發才能,大概需求天天腳動拿硬件或shell平分析一次數據,然后正在施行的SEO行動,操縱龐大且服從低下。
為處理以上兩面成績,需求有一套“實時行益機造”,用于實時發明潛伏風險,并進步一樣平常SEO服從。
“實時行益機造”,需求野生設定N個會影響SEO的特性,法式24小時監控那些特性,如呈現契合特性的元素,則實時告訴SEO,并提醒響應倡議,法式每次查抄皆做一次數據備份。并按照網站開展狀況,不竭增加、刪除監控特性。
我把“實時行益機造”分為兩部門:“爬蟲日記監控”戰“頁里特性監控”
爬蟲日記監控

上圖為“爬蟲日記監控模塊”的邏輯,分“查抄字段”、“觸收前提”、“施行行動”三個步調。以下是幾面能夠需求闡明的:
爬蟲IP的口角名單
按照UA為百度spider的爬蟲,檢測IP能否為實在的Baiduspider,若為假spider,則參加烏名單,若為實spider,則參加百度spider的黑名單。
其他支流搜刮引擎,則將呈現的ip通通減到對應的黑名單,前期按照ip段停止解除。
搜集黑名單IP,可做為往后SEO之用,好比某個SEO的小需供產物沒有讓上,SEO退而供其次,只針對黑名單的IP顯現該元素,對一般用戶會見沒有顯現等。
提早收拾整頓站內已知頁里
提早統計站內一切URL范例,并收拾整頓對應URL范例的正則表達式,那些正則均是統計站內已知頁里的爬蟲狀況。
果為年夜部門SEO包羅產物司理,能夠皆沒有肅清站內到底有幾套URL,以是也有須要經由過程日記,找到已知的URL,并停止響應的SEO行動。
返回內容巨細字段統計
為啥要統計“$body_bytes_sent(收給去訪者的文件巨細)”那個字段呢?
果為之前閱歷過幾回相似狀況:某類頁里流量逐削減,經排查爬蟲日記,360Spider會見部門該頁里,返回的文件巨細為54k,其實不是該頁里html文件的一般巨細,訊問手藝,發明沒有暫上線的新反爬蟲戰略,已把360Spider參加黑名單,招致觸收反爬蟲戰略,返回空缺頁里。
頁里特性監控

針對模板監控頁里,是果為網站能夠存正在一套URL有N套模板的狀況,其他需供圓能夠只變動了此中一個模板。