所以請問,你網(wǎng)站根目錄下的robots.txt文件是UTF-8編碼嗎?如果不是,建議你修改為該編碼。
Google Groups成員指出包括Google在內(nèi)的大部分常用搜索引擎更寵愛UTF-8編碼的robots.txt文件。
相關(guān)文章:有道關(guān)于robots.txt的解釋
Robots.txt這個文件相信大家都不模式吧,是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
當(dāng)一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。
語法:最簡單的 robots.txt 文件使用兩條規(guī)則:
• User-Agent: 適用下列規(guī)則的漫游器
• Disallow: 要攔截的網(wǎng)頁
Robots.txt是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,Robots.txt的文件名應(yīng)統(tǒng)一為小寫,即robots.txt。
Robots.txt協(xié)議并不是一個規(guī)范,而只是約定俗成的,所以并不能保證網(wǎng)站的隱私。注意Robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有和沒有斜杠“/”這兩種表示是不同的URL,也不能用”Disallow: .gif”這樣的通配符。
因為robots.txt是一個純文本文件,所以很多站長在設(shè)置網(wǎng)站的這個文件時,隨便把系統(tǒng)中過的文本編輯器拿來就寫了,然后上傳到自己的網(wǎng)站根目錄,以為這樣就萬事大吉了,其實,你只做了一半因為你的馬虎。
已經(jīng)被無數(shù)站長證實的事實是:搜索引擎更喜歡UTF-8編碼的robots.txt文件。Google Groups成員Phil Payne也是為此做出聲明說:在常用的HTML文件編碼類型中,Google和其他的搜索引擎都更偏愛UTF-8編碼的robots.txt文件。甚至有的文件編碼形式都已經(jīng)被Google直接忽略掉了。
所以請問,你網(wǎng)站根目錄下的robots.txt文件是UTF-8編碼嗎?如果不是,建議你修改為該編碼。