創(chuàng)新互聯(lián)告訴你什么是robots.txt

2021-09-02 分類：網(wǎng)站建設(shè)

robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時，它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
robots.txt必須放置在一個站點(diǎn)的根目錄下，而且文件名必須全部小寫。
語法：最簡單的 robots.txt 文件使用兩條規(guī)則：
User-agent: 適用下列規(guī)則的漫游器
Disallow: 要攔截的網(wǎng)頁
[編輯本段]robots.txt使用誤區(qū)
誤區(qū)一：我的網(wǎng)站上的所有文件都需要蜘蛛抓取，那我就沒必要在添加robots.txt文件了。反正如果該文件不存在，所有的搜索蜘蛛將默認(rèn)能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
每當(dāng)用戶試圖訪問某個不存在的URL時，服務(wù)器都會在日志中記錄404錯誤（無法找到文件）。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時，服務(wù)器也將在日志中記錄一條404錯誤，所以你應(yīng)該做網(wǎng)站中添加一個robots.txt。
誤區(qū)二：在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取，這樣可以增加網(wǎng)站的收錄率。
網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄，也不會增加網(wǎng)站的收錄率，還只會浪費(fèi)服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。
具體哪些文件需要排除，在robots.txt使用技巧一文中有詳細(xì)介紹。
誤區(qū)三：搜索蜘蛛抓取網(wǎng)頁太浪費(fèi)服務(wù)器資源，在robots.txt文件設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。
如果這樣的話，會導(dǎo)致整個網(wǎng)站不能被搜索引擎收錄。
[編輯本段]robots.txt使用技巧
1. 每當(dāng)用戶試圖訪問某個不存在的URL時，服務(wù)器都會在日志中記錄404錯誤（無法找到文件）。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時，服務(wù)器也將在日志中記錄一條404錯誤，所以你應(yīng)該在網(wǎng)站中添加一個robots.txt。
2. 網(wǎng)站管理員必須使蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——保證服務(wù)器性能。比如：大多數(shù)網(wǎng)站服務(wù)器都有程序儲存在“cgi-bin”目錄下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是個好主意，這樣能夠避免將所有程序文件被蜘蛛索引，可以節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有：后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片和背景圖片等等。
下面是VeryCMS里的robots.txt文件：
User-agent: *
Disallow: /admin/ 后臺管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 圖片
Disallow: /data/ 數(shù)據(jù)庫文件
Disallow: /template/ 模板文件
Disallow: /css/ 樣式表文件
Disallow: /lang/ 編碼文件
Disallow: /script/ 腳本文件
3. 如果你的網(wǎng)站是動態(tài)網(wǎng)頁，并且你為這些動態(tài)網(wǎng)頁創(chuàng)建了靜態(tài)副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里設(shè)置避免動態(tài)網(wǎng)頁被蜘蛛索引，以保證這些網(wǎng)頁不會被視為含重復(fù)內(nèi)容。
4. robots.txt文件里還可以直接包括在sitemap文件的鏈接。就像這樣：
Sitemap: http://m.rwnh.cn//sitemap.xml
目前對此表示支持的搜索引擎公司有Google, Yahoo, ask and MSN。而中文搜索引擎公司，顯然不在這個圈子內(nèi)。這樣做的好處就是，站長不用到每個搜索引擎的站長工具或者相似的站長部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就會抓取robots.txt文件，讀取其中的sitemap路徑，接著抓取其中相鏈接的網(wǎng)頁。

5. 合理使用robots.txt文件還能避免訪問時出錯。比如，不能讓搜索者直接進(jìn)入購物車頁面。因?yàn)闆]有理由使購物車被收錄，所以你可以在robots.txt文件里設(shè)置來阻止搜索者直接進(jìn)入購物車頁面。

分享標(biāo)題：創(chuàng)新互聯(lián)告訴你什么是robots.txt
鏈接URL：http://m.rwnh.cn/news38/124838.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供全網(wǎng)營銷推廣、網(wǎng)站建設(shè)、Google、App開發(fā)、響應(yīng)式網(wǎng)站、虛擬主機(jī)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

淺析網(wǎng)站優(yōu)化標(biāo)準(zhǔn)檢測的因素 2021-09-02
如何給網(wǎng)站選擇域名? 2021-09-02
網(wǎng)絡(luò)操作系統(tǒng)的安全問題 2021-09-02
專業(yè)網(wǎng)站制造-教您怎樣做好網(wǎng)站 2021-09-02
高效可維護(hù)的網(wǎng)站結(jié)構(gòu) 2021-09-01
如何做好網(wǎng)絡(luò)營銷 2021-09-01
企業(yè)網(wǎng)頁設(shè)計(jì)的內(nèi)鏈接問題 2021-09-01

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

創(chuàng)新互聯(lián)告訴你什么是robots.txt