robots文件存在于網(wǎng)站根目錄,是用來(lái)告訴百度蜘蛛那些應(yīng)該抓取,那些不應(yīng)該抓取。正確使用robots文件有助于做好seo優(yōu)化,robots文件的核心詞匯就是allow和disallow用法。百度官網(wǎng)是認(rèn)可這個(gè)文件的,在百度站長(zhǎng)平臺(tái)上也有robots這個(gè)欄目,點(diǎn)擊進(jìn)入,就可以看到你網(wǎng)站robots文件是否編寫(xiě)正確了。
百度robots文件使用說(shuō)明
1、robots.txt可以告訴百度您網(wǎng)站的哪些頁(yè)面可以被抓取,哪些頁(yè)面不可以被抓取。
2、您可以通過(guò)Robots工具來(lái)創(chuàng)建、校驗(yàn)、更新您的robots.txt文件,或查看您網(wǎng)站robots.txt文件在百度生效的情況。
3、Robots工具暫不支持https站點(diǎn)。
4、Robots工具目前支持48k的文件內(nèi)容檢測(cè),請(qǐng)保證您的robots.txt文件不要過(guò)大,目錄最長(zhǎng)不超過(guò)250個(gè)字符。
上圖我給的一個(gè)例子中,disallow語(yǔ)句有問(wèn)題,原因是把英文的冒號(hào)寫(xiě)成了中文的冒號(hào)。
當(dāng)然直接輸入網(wǎng)站根目錄加上robtots.txt文件也可以
User-agent:* 是用來(lái)置頂那些搜索引擎蜘蛛可以抓取的,一般默認(rèn)設(shè)置
Disallow:/category/*/page/ 分類(lèi)目錄下面翻頁(yè)后的鏈接,比如,進(jìn)入校賺網(wǎng)分類(lèi)目錄 "推廣運(yùn)營(yíng)經(jīng)驗(yàn)"目錄后,在翻頁(yè)一次,就成了 stcash.com/category/tuiguangyunying/page/2形式了
Disallow:/?s=* Disallow:/*/?s=* 搜索結(jié)果頁(yè)面和分類(lèi)目錄搜索結(jié)果頁(yè)面,這里沒(méi)必要再次抓取。
Disallow:/wp-admin/ Disallow:/wp-content/ Disallow:/wp-includes/ 這三個(gè)目錄是系統(tǒng)目錄,一般都是屏蔽蜘蛛抓取
Disallow:/*/trackback trackback的鏈接
Disallow:/feed Disallow:/*/feed Disallow:/comments/feed 訂閱鏈接
Disallow:/?p=* 文章短鏈接,會(huì)自動(dòng)301跳轉(zhuǎn)到長(zhǎng)連接
例如,朱海濤博客之前就被收錄過(guò)短連接
Disallow:/*/comment-page-* Disallow:/*?replytocom* 這兩個(gè)我在之前文章有過(guò)說(shuō)明,來(lái)自于評(píng)論鏈接,很容易造成重復(fù)收錄。
在robots.txt文件的最后還可以制定sitemap文件 Sitemap:http://***.com/sitemap.txt
sitemap地址指令,主流是txt和xml格式。在這里分享一段張戈所寫(xiě)txt格式的simemap文件。
將上述代碼保存到txt文件,上傳到根目錄,并且在robots.txt文件中指定即可
這里給大家共享下我的robots.txt文件
復(fù)制內(nèi)容到剪貼板
- User-agent: *
-
- Disallow:/wp-admin/
-
- Disallow:
-
-
-
-
-
-
-
- page/
-
- Disallow:
-
-
-
- feed
-
- Disallow: /comments/feed
-
- Disallow: /?s=*
-
- Disallow:
-
-
-
- page/
-
- Sitemap: http: