聲明:本文來自于微信公眾號 蝙蝠俠IT(ID:batmanit),作者:蝙蝠俠IT,授權轉載發布。
在做SEO的過程中,我們總是會遇到各種莫名其妙的問題,比如:某一天你的網站突然出現收錄緩慢的問題,而平時都是秒收錄。
最開始我們在做審查的時候,總是在思考:
①是否搜索引擎算法在調整。
②是否自己的內容質量不高。
③是否是普遍大眾的情況。
但很少有SEO從業者,嘗試去查看網站日志的相關情況。
那么,SEO排名優化,為什么要常看日志?
根據以往SEO網站診斷的經驗,蝙蝠俠IT,將通過如下內容闡述:
1、垃圾爬蟲
如果你的網站運營一段時間,在谷歌和百度的收錄情況還比較好,并且具備一定的流量與權重,這個時候就可能存在“垃圾爬蟲”廣泛爬取的情況。
通常這類爬蟲主要分為如下幾種類型:
①國外的一批SEO推廣軟件的搜索爬蟲,主要用于提取網站的鏈接狀態。
②網站鏡像的代理爬蟲,通常都會進行偽裝。
③極個別的數據分析爬蟲。(網站比較優秀,SEO研究者對你的分析)
這些爬蟲除了鏡像,實際上并沒有從SEO的角度給我們帶來諸多問題,但是它卻非常容易占用大量的服務器資源,特別是如果你還是一個非知名主機商的虛擬主機。
如果你想要快速檢索你的站點爬蟲數量,我們可以通過一個小策略,查看robots.txt文件的訪問情況,這只是一個小技巧。
2、站內搜索
我相信從目前來看,基本上除了單頁組合頁面之外,都會存在站內搜索框這個功能,畢竟大量的CMS系統都會配置這個功能,特別是一些模板建站的企業網站。
在很長一段時間里,我們早前給大家解讀過一個偏灰帽的策略,雖然是老套路,而不經常被提及,但還是仍然有人沿用至今,簡要流程如下:
①尋找具備搜索框的高權重網站。
②在高權重網站搜索框中,輸入一段超鏈接代碼。
③基于一些搜索框的設計策略,部分的搜索結果頁面會直接反饋出具有錨文本鏈接的外鏈。
這樣一些習慣性利用系統漏洞的灰帽,就會這樣無形之中建立一個高權重的外鏈。
而之后,便有了多個類似于該策略的變體版本,比如:在搜索框中輸入第三方網址等等。
實際上,這個問題,如果你不去查看日志,是很難發現的,但由于對方操作的策略,都是利用軟件自動檢索,這會直接影響網站加載速度。
因此,從SEO角度來講,我們第一時間就應該在robots.txt中屏蔽搜索結果頁面。
而后,從網站運營來講,不是特別必須,我們可以采用第三方搜索框,比如:百度站內搜索。
3、漏洞掃描
網站安全漏洞掃描,這個是對于任何一個網站都可能會遇到的事情,比如:我們經常可以在自己的站點數據中,看到大量的404頁面的訪問情況。
它可能會出現各種CMS系統后臺的登錄地址,以及一些容易出現漏洞的文件,通常這些情況都是基礎性的漏洞掃描。
如果出現長期這樣的問題,并且IP地址固定的話,我們可以進行有效的攔截,同時,基于SEO的角度,我們還是建議大家建立404頁面。
4、惡意采集
對于惡意采集而言,如果我們不去刻意的分析,我們是很難發現這個問題,除非你在百度搜索結果中看到大量的整站內容和你一樣的站點。
一般來講,我們在查看日志的時候,總是會調用一下IP訪問的排行榜,你會發現某些特定的IP長時間的停留在你的網站,并且大量的訪問你的頁面。
這個時候我們需要排除它是不是CDN節點,是不是正規的搜索引擎爬蟲,如果都不是,它很可能就是惡意采集或者鏡像的IP。
5、基礎狀態
審查日志相關性的數據判斷網站日常運營的基礎狀態,這已經是一個常態的操作策略,但對于新手站長而言,經常會忽略這個問題,比如:
①HTTPS和HTTP不進行301重定向,二者反饋都是200狀態。
②大量的站內404頁面訪問,沒有進行死鏈接提交等。
③我們是否需要針對一些304狀態的反饋,進行改變。
④當你遭遇一些服務器500錯誤的時候,該如何處理的問題。
6、站內情況
有的時候我們在做SEO的過程中,偶爾需要進行網站改版,也偶爾會遇到服務器升級的情況,如果自己的相關性配置不到位經常會遭遇一些非常隱晦的問題,比如:頁面重復性的問題。
有的時候,我們在配置網站偽靜態的時候,一些偽靜態規則,經常會給出多個版本的策略,而只是讓我們在系統后臺篩選。
但并沒有在選定之后,而對其他的鏈接展現形式進行301重定向到目標選定的URL形態上,這無形之中就會增加同內容,多個偽靜態規則不同URL地址收錄的情況。
一般日常運營的過程中,我們是很難發現這個問題的,除非你在site的時候,或者檢索標題的時候,出現多個結果的時候才會注意。
這里給大家的建議就是:當你遇到這個情況的時候,一定在配置文件中刪除沒有選定的偽靜態規則,以免造成不必要的麻煩。
總結:當我們在做SEO排名優化的時候,個人覺得如果你發現目前網站的自身狀態異常,可以嘗試看看日志的相關性文件。