女强穿越玄幻完结小说,完结小说排行榜,玄幻小说排行榜完本

主頁 > 知識庫 > robots.txt文件你真的知道怎么用嗎？

robots.txt文件你真的知道怎么用嗎？

搜索引擎通過一種程序robot（又稱spider），自動訪問互聯(lián)網上的網頁并獲取網頁信息。

您可以在您的網站中創(chuàng)建一個純文本文件robots.txt，在這個文件中聲明該網站中不想被robot訪問的部分，這樣，該網站的部分或全部內容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內容。robots.txt文件應該放在網站根目錄下。

當一個搜索機器人（有的叫搜索蜘蛛）訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍；如果該文件不存在，那么搜索機器人就沿著鏈接抓取。

robots.txt文件的格式：

“robots.txt”文件包含一條或更多的記錄，這些記錄通過空行分開（以CR，CR/NL， or NL作為結束符），每一條記錄的格式如下所示：

“field>:optionalspace>value>optionalspace>”。

在該文件中可以使用#進行注解，具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始，后面加上若干Disallow行，詳細情況如下：

User-agent：

該項的值用于描述搜索引擎robot的名字，在 ”robots.txt”文件中，如果有多條User-agent記錄說明有多個robot會受到該協(xié)議的限制，對該文件來說，至少要有一條User- agent記錄。如果該項的值設為*，則該協(xié)議對任何機器人均有效，在”robots.txt”文件中，”User-agent：*”這樣的記錄只能有一條。

Disallow：

該項的值用于描述不希望被訪問到的一個URL，這個URL可以是一條完整的路徑，也可以是部分的，任何以Disallow開頭的URL均不會被robot 訪問到。例如”Disallow:/help”對/help.html 和/help/index.html都不允許搜索引擎訪問，而”Disallow:/help/”則允許robot訪問/help.html，而不能訪問 /help/index.html。任何一條Disallow記錄為空，說明該網站的所有部分都允許被訪問，在”/robots.txt”文件中，至少要有一條Disallow記錄。如果”/robots.txt”是一個空文件，則對于所有的搜索引擎robot，該網站都是開放的。

robots.txt文件用法舉例：

例1. 禁止所有搜索引擎訪問網站的任何部分下載該robots.txt文件 User-agent： * Disallow： /

例2. 允許所有的robot訪問（或者也可以建一個空文件 “/robots.txt” file） User-agent： *Disallow：

例3. 禁止某個搜索引擎的訪問 User-agent： BadBotDisallow： /

例4. 允許某個搜索引擎的訪問 User-agent： baiduspiderDisallow： User-agent： *Disallow： /

例 5.一個簡單例子　　在這個例子中，該網站有三個目錄對搜索引擎的訪問做了限制，即搜索引擎不會訪問這三個目錄。　　需要注意的是對每一個目錄必須分開聲明，而不要寫成 “Disallow： /cgi-bin/ /tmp/”?！　ser-agent：后的*具有特殊的含義，代表”any robot”，所以在該文件中不能有”Disallow： /tmp/*” or “Disallow：*.gif”這樣的記錄出現。 User-agent： *Disallow： /cgi-bin/Disallow： /tmp/Disallow： /~joe/

Robot特殊參數：

1. Google

允許 Googlebot：

如果您要攔截除 Googlebot 以外的所有漫游器訪問您的網頁，可以使用下列語法：

User-agent:Disallow:/

User-agent:Googlebot

Disallow：

Googlebot 跟隨指向它自己的行，而不是指向所有漫游器的行。

“Allow”擴展名：

Googlebot 可識別稱為”Allow”的 robots.txt 標準擴展名。其他搜索引擎的漫游器可能無法識別此擴展名，因此請使用您感興趣的其他搜索引擎進行查找。”Allow”行的作用原理完全與 ”Disallow”行一樣。只需列出您要允許的目錄或頁面即可。

您也可以同時使用”Disallow”和”Allow”。例如，要攔截子目錄中某個頁面之外的其他所有頁面，可以使用下列條目：

User-Agent:Googlebot