日志文件分析應該成為每個seo專業人士工具的一部分,但是大多數SEO從未進行過。這意味著大多數SEO都缺少常規爬網工具無法產生的獨特而寶貴的見解。
讓我們揭開Log File Analysis的神秘面紗,讓它不再那么令人生畏。如果您對日志文件的美好世界以及它們可以帶給您的站點審核感興趣,則本指南絕對適合您。
什么是日志文件?
日志文件是包含有關誰和什么向您的網站服務器發出請求的詳細日志的文件。每次漫游器向您的站點發出請求時,數據(例如時間,日期IP地址,用戶代理等)都會存儲在此日志中。這些寶貴的數據可讓任何SEO找出googlebot和其他抓取工具在您的網站上正在做什么。與常規的爬網(例如,Screaming Frog SEO Spider)不同,這是真實的數據,而不是對網站爬網方式的估計。它是網站爬網的準確概述。
擁有這些準確的數據可以幫助您確定爬網預算浪費的領域,輕松查找訪問錯誤,了解您的SEO努力如何影響爬網等等。最好的部分是,在大多數情況下,您可以使用簡單的電子表格軟件來完成此操作。
在本指南中,我們將重點放在Excel上以執行日志文件分析,但是我還將討論其他工具,例如Screaming Frog鮮為人知的Log File Analyzer,它可以通過幫助您管理而使工作變得更加輕松和快捷。更大的數據集。
注意:擁有Excel以外的任何其他軟件都無需遵循本指南,也可以避免使用Log Files。
如何打開日志文件
將.log重命名為.csv
當您獲得擴展名為.log的日志文件時,實際上就像重命名文件擴展名為.csv并在電子表格軟件中打開文件一樣容易。如果要編輯擴展名,請記住將操作系統設置為顯示文件擴展名。
如何打開拆分日志文件
日志文件可以是一個大日志,也可以是多個文件,具體取決于站點的服務器配置。某些服務器將使用服務器負載平衡在服務器池或服務器場中分配流量,從而導致日志文件被拆分。好消息是它真的很容易組合,您可以使用以下三種方法之一來組合它們,然后按常規打開它們:
- 在windows中使用命令行,方法是Shift +右鍵單擊包含日志文件的文件夾,然后選擇“從此處運行Powershell”
然后運行以下命令:
復制* .log mylogfiles.csv
現在,您可以打開mylogfile.csv,它將包含您的所有日志數據。
或者,如果您是mac用戶,請首先使用cd命令轉到日志文件的目錄:
cd文件/ MyLogFiles /
然后,使用cat或concatenate命令合并文件:
貓* .log> mylogfiles.csv
2)使用免費工具“ 日志文件合并”,合并所有日志文件,然后將文件擴展名編輯為.csv并正常打開。
3)使用Screaming Frog日志文件分析器打開日志文件,就像拖放日志文件一樣簡單:
分割字符串
(請注意:如果您使用Screaming Frog的日志文件分析器,則不需要此步驟)
打開日志文件后,您需要將每個單元格中的繁瑣文本分成幾列,以便以后進行排序。
Excel的“文本到列”功能在這里派上用場,就像選擇所有填充的單元格(Ctrl / Cmd + A)并轉到Excel>“數據”>“文本到列”并選擇“定界”選項一樣簡單,定界符是空格字符。
分離出來之后,您可能還想按時間和日期進行排序-您可以在“時間和日期”戳記列中進行排序,通常使用“:”冒號分隔符來分隔數據。
您的文件應類似于以下文件:
如前所述,請不要擔心您的日志文件看起來并不完全相同-不同的日志文件具有不同的格式。只要那里有基本數據(時間和日期,URL,用戶代理等),您就可以使用它!
了解日志文件
現在您的日志文件已準備好進行分析,我們可以深入了解并開始了解我們的數據。日志文件可以采用多種格式處理多個不同的數據點,但是它們通常包括以下內容:
- 服務器IP
- 日期和時間
- 服務器請求方法(例如GET / POST)
- 要求的網址
- HTTP狀態碼
- 用戶代理
如果您對具體細節感興趣,可以在下面找到有關常見格式的更多詳細信息:
- WC3
- Apache和Nginx
- Amazon Elastic Load Balancing
- HA代理
- JSON格式
如何快速揭示抓取預算浪費
快速回顧一下,抓取預算是指搜索引擎在您每次訪問網站時抓取的頁面數。許多因素會影響爬網預算,包括鏈接資產或域權限,站點速度等。借助日志文件分析,我們將能夠查看您的網站具有哪種爬網預算,以及在哪里會導致浪費爬網預算的問題。
理想情況下,我們希望為爬蟲提供最有效的爬蟲體驗。爬網不應浪費在低價值的頁面和URL上,優先級頁面(例如產品頁面)的索引編制和爬網速度也不應慢,因為網站的自重頁面太多。游戲的名稱是抓取預算節省,并且具有良好的抓取預算轉換,可以帶來更好的自然搜索性能。
查看按用戶代理搜尋的URL
了解網站的URL進行爬網的頻率可以快速揭示搜索引擎將其時間投入爬網的位置。
如果您有興趣查看單個用戶代理的行為,這很容易,因為可以過濾掉excel中的相關列。在這種情況下,使用WC3格式的日志文件,我通過Googlebot過濾了cs(User-Agent)列:
然后過濾URI列,以顯示Googlebot抓取該示例網站首頁的次數:
這是通過URI詞干查看單個用戶代理是否存在任何問題區域的快速方法。您可以通過查看URI stem列的過濾選項來更進一步,在本例中為cs-uri-stem:
從這個基本菜單中,我們可以看到正在爬網的URL(包括資源文件)以快速識別任何問題URL(例如,不應被爬網的參數化URL)。
您還可以使用數據透視表進行更廣泛的分析。要獲取特定用戶代理對特定URL進行爬網的次數,請選擇整個表(Ctrl / cmd + A),轉到“插入”>“數據透視表”,然后使用以下選項:
我們要做的只是通過用戶代理進行過濾,將URL干作為行,然后計算每個用戶代理發生的次數。
通過示例日志文件,我得到了以下內容:
然后,要按特定的User-Agent進行過濾,我點擊了包含“(全部)”的單元格上的下拉圖標,然后選擇了Googlebot:
了解哪些不同的漫游器正在爬網,移動漫游器如何以與桌面不同的方式爬網以及發生爬網最多的位置,可以幫助您立即了解哪些地方存在爬網預算浪費以及需要改進的站點區域。
查找低價值添加網址
爬網預算不應浪費在低附加值URL上,這些URL通常是由會話ID,無限的爬網空間和多面導航引起的。
為此,請返回您的日志文件,并根據URL列中包含“?”或問號符號的URL(包含URL詞干)進行過濾。要在Excel中執行此操作,請記住使用“??”或代字號問號,如下所示:
如自動過濾器窗口中所述,單個“?”或問號表示任何單個字符,因此添加代字號就像一個轉義字符,并確保過濾出問號符號本身。
那不容易嗎?
查找重復的URL
重復的URL可能會浪費抓取預算并造成很大的SEO問題,但是找到它們可能會很麻煩。有時,URL可能會有一些細微的變化(例如URL的斜杠與非斜杠版本)。
最終,查找重復URL的最佳方法也是最不有趣的方法-您必須按字母順序對站點URL進行排序,然后手動對其進行關注。
查找相同URL的尾隨和非尾隨斜杠版本的一種方法是,在另一列中使用SUBSTITUTE函數,并使用該函數刪除所有正斜杠:
= SUBSTITUTE(C2,“ /”,“”)
在我的情況下,目標細胞為C2,因為莖數據位于第三列。
然后,使用條件格式識別重復的值并突出顯示它們。
但是,不幸的是,眼球是目前最好的方法。
查看子目錄的爬網頻率
找出哪些子目錄最常被爬網是揭示爬網預算浪費的另一種快速方法。盡管要牢記,只是因為客戶的博客從未獲得過一個反向鏈接,并且每年僅從企業主的祖母那里獲得3次瀏覽,但這并不意味著您應該認為它浪費了預算,整個網站的內部鏈接結構應該始終保持良好狀態從客戶的角度來看,可能很可能需要該內容。
要按子目錄級別查找爬網頻率,您需要主要關注它,但是以下公式可以幫助您:
= IF(RIGHT(C2,1)=“ /”,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ /”,“”)))/ LEN(“ /”)+ SUM(LEN(C2) -LEN(SUBSTITUTE(C2,“ =”,“”)))/ LEN(“ =”)-2,SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ /”,“”)))/ LEN (“ /”)+ SUM(LEN(C2)-LEN(SUBSTITUTE(C2,“ =”,“”))))/ LEN(“ =”)-1)
上面的公式看起來有點笨拙,但是它所做的只是檢查是否有斜杠,并根據答案計算斜杠的數目并從該數目中減去2或1。如果使用RIGHT公式從URL列表中刪除所有結尾的斜杠,則可以縮短此公式-但是誰有時間。剩下的就是子目錄計數(從第一個子目錄從0開始)。
將C2替換為第一個URL詞干/ URL單元格,然后將公式復制到整個列表中以使其起作用。
確保使用適當的起始單元格替換所有C2,然后按最小到最大的順序對新的子目錄計數列進行排序,以按邏輯順序獲得良好的文件夾列表,或者輕松地按子目錄級別進行過濾。例如,如以下屏幕截圖所示:
上圖是按級別排序的子目錄。
上圖是按深度排序的子目錄。
如果您不處理大量URL,則可以簡單地按字母順序對URL進行排序,但是您將無法獲得子目錄計數過濾功能,這對于大型站點可能要快得多。
按內容類型查看抓取頻率
找出要爬網的內容,或者是否有任何內容類型在限制爬網預算,這是發現爬網預算浪費的絕佳選擇。使用這種策略可以很容易地發現對不必要的或低優先級的css和JS文件的頻繁爬網,或者如果您正在嘗試針對圖像搜索進行優化,則會在圖像上進行爬網。
在Excel中,按內容類型查看爬網頻率就像使用“結尾為”過濾選項按URL或URI莖進行過濾一樣容易。
快速提示:您還可以使用“不以...結尾”過濾器,并使用.html擴展名查看非HTML頁面文件的爬網方式-始終值得檢查,以防不必要的js或css文件浪費爬網預算,或者甚至圖像和圖像變體(看著您的wordPress/ target=_blank class=infotextkey>WordPress)。另外,請記住,如果您的站點具有尾隨和非尾隨的斜杠URL,則使用帶有過濾功能的“或”運算符將其考慮在內。
監視機器人:了解網站爬網行為
日志文件分析使我們能夠了解機器人的優先級,從而了解它們的行為方式。不同的機器人在不同情況下的表現如何?有了這些知識,您不僅可以加深對SEO和爬網的理解,還可以使您在了解網站架構的有效性方面取得巨大飛躍。
查看最多和最少爬行的URL
以前,通過查看用戶代理抓取的URL可以完善此策略,但是它甚至更快。
在Excel中,選擇表中的單元格,然后單擊“插入”>“數據透視表”,確保所選內容包含必要的列(在這種情況下,URL或URI詞干以及用戶代理),然后單擊“確定”。
創建數據透視表后,將行設置為URL或URI詞干,并將總和設置為用戶代理。
在此處,您可以右鍵單擊“用戶代理”列,然后按爬網計數將URL從最大到最小排序:
現在,您將擁有一張不錯的桌子,可以根據它制作圖表或快速查看并查找任何有問題的區域:
在查看此數據時要問自己的一個問題是:您或客戶想要爬網的頁面嗎?多常?頻繁爬網并不一定意味著會有更好的結果,但這可能表明Google和其他內容用戶代理將哪些內容放在了優先位置。
每天,每周或每月的抓取頻率
在Google更新或緊急情況下,檢查爬網活動以識別一段時間內可見性下降的問題,可以通知您問題可能出在哪里。這就像選擇“日期”列,確保該列為“日期”格式類型,然后使用日期列上的日期過濾選項一樣簡單。如果您要分析整個星期,只需選擇具有可用過濾選項的相應日期即可。
通過指令抓取頻率
了解Google遵循的是什么指令(例如,如果您在robots.txt中使用的是不允許甚至無索引的指令),對于任何SEO審核或廣告系列來說都是至關重要的。舉例來說,如果網站使用的導航URL多面,則您需要確保遵守這些URL。如果不是,則推薦更好的解決方案,例如頁面指令(如meta robots標簽)。
要按指令查看抓取頻率,您需要將抓取報告與日志文件分析結合起來。
(警告:我們將使用VLOOKUP,但實際上并沒有人們想象的那么復雜)
要獲取合并的數據,請執行以下操作:
- 使用您喜歡的爬網軟件從您的站點進行爬網。我可能有偏見,但我是Screaming Frog SEO Spider的忠實擁護者,所以我將使用它。
如果您還使用蜘蛛,請按原樣執行步驟,否則,請致電以獲取相同的結果。 - 從SEO Spider導出內部HTML報告(“內部標簽”>“過濾器:HTML”),然后打開“ internal_all.xlsx”文件。
在此處,您可以過濾“可索引性狀態”列,并刪除所有空白單元格。為此,請使用“不包含”過濾器,并將其保留為空白。您還可以添加“和”運算符,并通過使過濾器值等于“不包含”→“重定向”來過濾重定向的URL,如下所示:
這將顯示元機器人的規范化,無索引和規范化URL。
- 復制該新表(僅包含“地址”和“可索引性狀態”列),并將其粘貼到日志文件分析導出的另一張表中。
- 現在來看一些VLOOKUP魔術。首先,我們需要確保URI或URL列數據的格式與抓取數據的格式相同。
日志文件通常在URL中沒有根域或協議,因此我們需要使用新制作的工作表中的“查找和替換”來刪除URL的開頭,或者在日志文件分析表中添加新列將協議和根域附加到URI干。我更喜歡這種方法,因為這樣您就可以快速復制并粘貼遇到問題的URL并進行查看。但是,如果您有大量的日志文件,則使用“查找和替換”方法可能會大大減少CPU占用的資源。
要獲取完整的URL,請使用以下公式,但將URL字段更改為您要分析的任何站點(并確保協議也正確)。您還需要將D2更改為URL列
=“ https://www.example.com”&D2的第一個單元格, 將公式向下拖動到Log文件表的末尾,并獲得完整URL的漂亮列表:
- 現在,創建另一列,并將其稱為“可索引性狀態”。在第一個單元格中,使用類似于以下內容的VLOOKUP:= VLOOKUP(E2,CrawlSheet!A $ 1:B $ 1128,2,FALSE)。將E2替換為“完整URL”列的第一個單元格,然后將查找表添加到新的表中。檢索表。請記住要起訴美元符號,以使查詢表不會隨您而改變。將公式應用于其他角色。然后,選擇正確的列(1將是索引表的第一列,因此數字2是我們后面的列)。使用FALSE范圍查找模式進行精確匹配。現在,您有了一個整潔的URL列表,它們的可索引性狀態與爬網數據匹配:
按深度和內部鏈接抓取頻率
通過此分析,我們可以查看網站的體系結構在爬網預算和爬網能力方面的表現。主要目的是查看URL是否比請求的數量多得多-如果存在,那么您就會遇到問題。僵尸程序不應該“放棄”對整個站點的爬網,不要發現重要的內容,也不應該在不重要的內容上浪費爬網預算。
提示:還值得在此分析中使用爬網可視化工具來查看網站的總體架構,并查看哪里有“分支”或內部鏈接不佳的頁面。
要獲取所有重要數據,請執行以下操作:
- 使用首選的抓取工具抓取您的網站,并導出每個報告的點擊深度和內部鏈接數以及每個URL。
就我而言,我使用的是Screaming Frog SEO Spider,將導出內部報告:
- 使用VLOOKUP將您的網址與“抓取深度”列和“鏈接數”進行匹配,這將為您提供以下信息:
- 根據您要查看的數據類型,您可能希望僅過濾掉此時返回200響應代碼的URL,或者在以后創建的數據透視表中將其設為可過濾的選項。如果要檢查電子商務網站,則可能只希望關注產品網址,或者如果要優化圖像的爬網,則可以通過使用“內容”過濾日志文件的URI列來按文件類型過濾-“類型”列以進行抓取導出,并選擇使用數據透視表進行過濾。與所有這些檢查一樣,您有很多選擇!
- 使用數據透視表,您現在可以使用以下選項按爬網深度(在這種情況下,通過特定的漫游器進行過濾)來分析爬網速率:
要獲得如下內容:
比Search Console更好的數據?識別爬網問題
Search Console可能是每個SEO的首選,但它肯定有缺陷。歷史數據很難獲得,并且可以查看的行數有限制(在撰寫本文時為1000)。但是,借助日志文件分析,才是極限。通過以下檢查,我們將發現爬網和響應錯誤,以對您的網站進行全面的運行狀況檢查。
發現抓取錯誤
一個顯而易見且快速的檢查是添加到您的軍械庫,您要做的就是過濾日志文件的狀態列(在我的情況下為W3C日志文件類型的“ sc-status”),以查找4xx和5xx錯誤:
查找不一致的服務器響應
特定的URL隨時間變化的服務器響應可能會有所不同,這可能是正常現象,例如修復了斷開的鏈接或出現嚴重的服務器問題的跡象(例如,網站訪問量過大導致更多內部問題)。服務器錯誤,并正在影響您網站的可抓取性。
分析服務器響應就像通過URL和日期進行過濾一樣容易:
另外,如果您想快速查看URL在響應代碼中的變化,則可以使用數據透視表,其中將行設置為URL,將列設置為響應代碼,并計算URL產生響應的次數碼。要實現此設置,請使用以下設置創建數據透視表:
這將產生以下結果:
如上表所示,您可以清楚地看到“ /inconcistent.html”(紅色框中突出顯示)具有不同的響應代碼。
按子目錄查看錯誤
要查找哪些子目錄產生最多的問題,我們只需要執行一些簡單的URL過濾即可。過濾掉URI列(在我的情況下為“ cs-uri-stem”),并使用“包含”過濾選項選擇一個特定的子目錄以及該子目錄中的任何頁面(使用通配符*):
對我來說,我簽出了blog子目錄,這產生了以下內容:
按用戶代理查看錯誤
出于各種原因,找出哪些機器人在掙扎中可能很有用,包括查看移動和桌面機器人在網站性能方面的差異,或者哪些搜索引擎最能夠抓取您的更多網站。
您可能想查看哪些特定的URL導致特定的漫游器出現問題。最簡單的方法是使用數據透視表,該數據透視表可以過濾每個URI出現特定響應代碼的次數。為此,請使用以下設置制作數據透視表:
在這里,您可以按所選的漫游器和響應代碼類型進行過濾,如下圖所示,其中我正在過濾Googlebot桌面以找出404錯誤:
另外,您還可以使用數據透視表通過創建一個數據透視表來查看特定漫游器在整體上產生不同響應代碼的次數,該數據透視表按漫游器進行過濾,按URI發生計數并將響應代碼用作行。為此,請使用以下設置:
例如,在數據透視表(如下)中,我正在查看Googlebot收到的每個響應代碼有多少:
診斷頁面問題
網站不僅需要為人類設計,還需要為機器人設計。頁面不應加載緩慢或下載量過大,并且通過日志文件分析,您可以從漫游器的角度查看每個URL的這兩個指標。
查找慢頁面和大頁面
雖然您可以按“花費的時間”或“加載時間”列從最大到最小對日志文件進行排序,以找到最慢的加載頁面,但最好查看每個URL的平均加載時間,因為可能還有其他因素導致了除網頁實際速度以外的緩慢請求。
為此,請創建一個數據透視表,其中的行設置為URI詞干或URL,而總和設置為加載時間或加載時間:
然后,在這種情況下,使用下拉箭頭顯示“花費的時間總和”,然后轉到“值字段設置”:
在新窗口中,選擇“平均”,您已經設置完畢:
現在,當按最大時間,最小時間和平均時間對URI詞干進行排序時,應該具有與以下內容類似的內容:
查找大頁面
現在,您可以使用以下所示的設置添加下載大小列(在我的情況下為“ sc-bytes”)。請記住,將大小設置為平均值或總和取決于您想要看到的內容。對我來說,我已經完成了平均:
并且您應該得到類似于以下內容:
機器人行為:驗證和分析機器人
了解機器人和爬網行為的最佳,最簡單的方法是使用日志文件分析,因為您將再次獲得真實的數據,并且比其他方法要省時得多。
查找未爬網的URL
只需使用您選擇的工具對您的網站進行爬網,然后將您的日志文件與URL進行比較以找到唯一的路徑。您可以使用Excel的“刪除重復項”功能或條件格式執行此操作,盡管前者的CPU占用率要低得多,尤其是對于較大的日志文件。簡單!
識別垃圾郵件機器人
日志文件和一些基本的命令行操作符很容易識別垃圾郵件和欺騙性僵尸程序對服務器造成的不必要壓力。大多數請求還將具有與之關聯的IP,因此使用您的IP列(在我的情況下,在W3C格式日志中標題為“ c-ip”),刪除所有重復項以查找每個單獨的請求IP。
從那里開始,您應該遵循Google文檔中概述的驗證IP的過程(注意:對于Windows用戶,請使用nslookup命令):
https://support.google.com/webmasters/answer/80553?hl=zh_CN
或者,如果您要驗證Bing機器人,請使用其便捷的工具:
https://www.bing.com/toolbox/verify-bingbot
結論:日志文件分析-聽起來并不那么可怕
使用一些簡單的工具,您可以深入了解Googlebot的行為方式。當您了解了網站如何處理爬網時,您可以診斷出的問題比咀嚼的多得多-但是日志文件分析的真正功能在于能夠測試有關Googlebot的理論并擴展上述技術以收集自己的見解和啟示。
您將使用日志文件分析測試哪些理論?除了上面列出的日志文件之外,您還可以從日志文件中收集哪些見解?