聲明:本文來自于微信公眾號 蝙蝠俠IT(ID:batmanit),作者:蝙蝠俠IT,授權轉載發(fā)布。
如果你關注過早期百度熊掌號,你會發(fā)現(xiàn)它要求每個內容頁面必須包含:rel="canonical"這個標簽,目的就是為了避免原創(chuàng)文章,產生過多的重復頁面,導致搜索引擎收錄多個URL,影響搜索排名。
那么,重復內容會導致搜索引擎懲罰嗎?
當你在對比網(wǎng)站索引量與收錄量的時候,經(jīng)常會發(fā)現(xiàn),搜索結果中的收錄量往往高于索引量,很多SEO初學者并不清楚這是為什么,它很有可能的原因就是搜索引擎抓取了大量重復內容。
當你利用site:網(wǎng)址,查詢頁面的時候,經(jīng)常會遇到百度提示:為了提供最相關的結果,我們省略了一些內容相似的條目。
簡單理解:百度為你過濾了一些重復頁面,如果你的站點內容頁面并沒有采用rel="canonical"這個標簽,搜索引擎很難判斷,哪個頁面是標準化的頁面,往往造成誤傷,刪除相關內容頁面的索引,如果大量產生這樣的頁面,就很容易導致站點被降權。
那么,我們如何避免站內產生這些重復頁面?
1、nofollow打印機頁面版本
當你的文章發(fā)布成功后,你經(jīng)常會在內容頁面右上角發(fā)現(xiàn)一個打印機小圖標,你點擊它會快速創(chuàng)建打印內容,這本來是一個人性化的設置,但稍微不注意,就會容易產生重復的URL。
因此,你需要在CMS模板中,nofollow掉著個小圖表,禁止蜘蛛爬行與抓取。
2、網(wǎng)站改版,需要 301 重定向舊鏈接
一個網(wǎng)站在不定期的時候,會根據(jù)自己的用戶規(guī)模,調整網(wǎng)站模板,甚至系統(tǒng)內部插件,它往往很容易造成URL地址的變更,當你遇到這樣的情況時,你需要盡可能的 301 重定向每個舊網(wǎng)址到新網(wǎng)址。
3、轉發(fā)內容,標注版權
基于對網(wǎng)站的需要,你可能要適當?shù)霓D載網(wǎng)絡上大量的內容,用一個不恰當?shù)脑~來解釋,它可以用“采集”這個詞,我們知道百度的颶風算法,嚴厲打擊采集內容,如果你并不是一個高權重的站點,那么你可能需要注意一些小細節(jié):除了在內容頁面,標注原文鏈接地址外,盡量利用rel="canonical"這個標簽指定內容的原始來源。
4、注意域名與HTTPS的配置
域名的樣式與HTTPS的配置,有一個類似的地方,比如:一個站點可以通過www訪問,也可以通過無www的主域訪問,同樣當你配置HTTPS的時候,你的HTTP鏈接,有的時候也是可以訪問的,為此,你需要:
①選擇唯一域名,將另外一種形式 301 重定向。
②將HTTP, 301 重定向到HTTPS。
5、避免標題統(tǒng)一不變
在以前這是一個老生常談的問題,隨著SEO技術不斷被廣大站長認知,雖然同質化標題在很大程度上,有了改變,但目前仍然有大量網(wǎng)站,仍然是網(wǎng)頁標題,都是同一標題,而在內容頁面中的H1,采用不同的標題。
這雖然并不算是嚴格意義上的內容重復,但它同樣嚴重制約網(wǎng)站關鍵詞排名。
6、URL標準化
所謂的URL標準化,這基本上算是一個常識了,每個SEO人員都應注意的問題,這里蝙蝠俠IT還是要舊事重提,我們需要確保在靜態(tài)、偽靜態(tài)、動態(tài)頁面中,只選擇一種鏈接樣式,特別是當你的站點內容是偽靜態(tài)的時候,一定要在robots.txt中,屏蔽動態(tài)URL相關參數(shù)。
總結:避免大量產生重復內容,是每個SEO人員需要學習的地方,也是SEO工作順利進行的一個前提條件。