Robots文件是每個網站做優化時必做的文件!它必須放置在網站的根目錄下面,它的作用是規定搜索引擎是否可以訪問我的網站及規定具體訪問哪些頁面的文件。這樣的話我們網站中很多不需要搜索引擎收錄的頁面我們就不允許搜索引擎讀取,這樣會節約它的時間和減少它的工作難度。以達到讓搜索引擎喜歡我們的網站的目的。畢竟,做seo就是一個如何讓搜索引擎更喜歡我們的網站的過程。
檢查一個網站有沒有做robots.txt文件的方式就是在網址后加robots.txt來訪問,如:http://www.sjk8.com/robots.txt 如果一個網站不做robots文件,想排名好,基本是不可能的。如圖:
robots文件
Robots文件具體的制作方法是,先新建一個文本文檔,名字必須為“robots.txt”,內容寫法如下:
- user-agent:* (中文名為用戶代理,表示允許抓取的搜索引擎是哪些)
- Allow:/aaa (可以不寫,它表示可以讀取的文件夾,默認就是可讀取的)
- Disallow:/ 文件或者文件夾的名字(列出不允許讀取的文件或者文件夾)
第一句簡單理解為允許任何搜索引擎抓取,第二句表示可以抓取哪些文件夾,第三句表示不允許抓取哪些內容 。我們需要把所有不需要抓取的文件夾或者文件一一列舉出來。
注意“*”的使用,“*”代表任何字符,如*.css代表所有的css文件。
在第二句中的/符號表示網站的根目錄。如果我們的網站不允許哪個搜索引擎收錄,比如不允許百度收錄,robots.txt文件寫法如下:
- User-agent: Baiduspider
- Disallow: / (這里”/”表示網站根目錄)
第一句的baiduspider是百度蜘蛛名稱,第二句表示不允許它抓取根目錄下的其它任何文件或者文件夾。如果不允許哪個搜索引擎抓取,只需要更改上面的代碼中的“baiduspider”就可以了。因為搜索引擎讀取robots文件是一行一行從上向下讀取的。先執行上面的語句,再執行下面的語句。
seo技術
比如:屏蔽一個文件夾/aa,但是又能抓取其中某個文件夾的寫法:/aa/main
robots.txt寫法如下:
- User-agent: *
- Disallow: /aa
- Allow: aa/main
如果需要訪問這個被禁止的文件夾下面的某些文件,只需要把這些文件一個個allow就可以了,當然,如果是某個類型,也就是同一個擴展名的文件,可以用如下方式抓取:
僅允許訪問某目錄下某個后綴的文件:
robots.txt寫法如下:
- User-agent: *
- Allow: *.html
- Disallow: /
僅允許訪問某目錄下某個后綴的文件,也可以使用“$”表達:
robots.txt寫法如下:
- User-agent: *
- Allow: .html$
- Disallow
robots文件怎么寫
常見搜索引擎蜘蛛的名字:
googlebot、Bingbot、360Spider、Yisouspider、Sogouspider、Yahoo! Slurp
然后將制作好的robots.txt 文件上傳至我們網站的根目錄下即可。