什么是蜘蛛日志?
所謂的蜘蛛日志就是當(dāng)搜索引擎向服務(wù)器發(fā)送請求時(shí)產(chǎn)生的訪問記錄文件。
每個(gè)網(wǎng)站都會(huì)有日志文件,但是很多時(shí)候,日志文件只有在網(wǎng)站出現(xiàn)問題的時(shí)候才會(huì)被查閱。在seo方面,日志文件是更容易被忽略的一塊,但是日志文件對于seo來說事非常重要的,我們可以在日志文件中獲取各種信息并發(fā)現(xiàn)網(wǎng)站存在的一些問題。
日志可以去哪里拿到?
日志文件一般是在wwwlog或者log這樣的文件夾里面可以下載。
分析主要用什么工具?
Python和loghao
在日志中可以查看哪些數(shù)據(jù)?
1.客戶端的IP地址
2.訪問時(shí)間
3.查看http狀態(tài)碼
4.請求方式等等
查看蜘蛛日志常用的一些命令
1.cat access.log | grep Baiduspider 命令來獲取百度蜘蛛的詳細(xì)爬取記錄
2.cat access.log | grep Baiduspider | wc -l 命令來統(tǒng)計(jì)百度蜘蛛的爬取次數(shù)
3.cat access.log | grep Baiduspider | grep "GET url" 來統(tǒng)計(jì)百度蜘蛛爬取某個(gè)頁面的記錄,命令中的url為頁面的相對地址。
grep指令用于查找內(nèi)容包含指定的范本樣式的文件,如果發(fā)現(xiàn)某文件的內(nèi)容符合所指定的范本樣式,預(yù)設(shè)grep指令會(huì)把含有范本樣式的那一列顯示出來。若不指定任何文件名稱,或是所給予的文件名為-,則grep指令會(huì)從標(biāo)準(zhǔn)輸入設(shè)備讀取數(shù)據(jù)。在分析日志的時(shí)候使用該工具,可以精確找出我們想看的日志內(nèi)容,減少篩選時(shí)間,提升自身的工作效率。可以根據(jù)我們實(shí)際的場景,輸入關(guān)鍵詞來過濾日志。
蜘蛛日志有何作用?
1.通過對蜘蛛日志的分析,我們可以知道蜘蛛是否對站點(diǎn)進(jìn)行了抓取,以及抓取是否成功,判斷抓取資源是否被浪費(fèi),也可以判斷我們的網(wǎng)站是否符合搜索引擎的抓取規(guī)范,找到抓取失敗的原因。
2.如果某個(gè)頁面被蜘蛛頻繁地抓取,我們可以對這個(gè)頁面做一些調(diào)整(比如布局),可以在頁面中添加一些鏈接。但有些頻繁地抓取是蜘蛛惡意的抓取,如果蜘蛛的訪問頻率過高,很可能會(huì)影響正常服務(wù)的運(yùn)行,通過對蜘蛛日志的分析,可以發(fā)現(xiàn)惡意蜘蛛的足跡,然后可以限制蜘蛛的訪問頻率來保證服務(wù)器的穩(wěn)定。
3.通過分析日志文件,我們可以發(fā)現(xiàn)蜘蛛的訪問路徑,有次我們可以優(yōu)化我們的站點(diǎn)結(jié)構(gòu)。
總結(jié):利用日志我們可以挖掘到很多的信息,我們可以通過日志中的狀態(tài)碼來分析網(wǎng)站是否存在問題,如是否存在死鏈,頁面失效等錯(cuò)誤。我們通過日志可以發(fā)現(xiàn)用戶對整站頁面的訪問次數(shù)、訪問時(shí)間以及訪問路徑,通過這些可以分析用戶的行為習(xí)慣。通過日志我們甚至可以防范惡意攻擊,因此,日志分析在做網(wǎng)站的過程中是必不可少的。