由于google掌控者搜索市場(chǎng)的大部分的份額,所以應(yīng)時(shí)時(shí)關(guān)注和聽(tīng)取它的一些動(dòng)態(tài)。“Google發(fā)表了一篇叫做優(yōu)化蜘蛛爬取和索引的技巧”,是不是該引起我們的注意呢?
文中內(nèi)容高度強(qiáng)調(diào)可以提高你站點(diǎn)爬取的能力的一些技巧,下面是陳列的關(guān)于URL的具體的例子。
“互聯(lián)網(wǎng)是個(gè)大世界,時(shí)時(shí)刻刻都有新的內(nèi)容被發(fā)表,創(chuàng)造,”Google 分析師Susan Moskwa說(shuō)到。“Google 擁有無(wú)限的資源,所以當(dāng)它面臨幾乎無(wú)限的在線的可利用的資源時(shí),google的蜘蛛只有能力去找尋和爬取一部分的內(nèi)容,而面對(duì)已經(jīng)爬取了的內(nèi)容,我們又只能索引一部分。”
Moskwa說(shuō):“URL就像一座連接你站點(diǎn)和搜索引擎蜘蛛之間的橋梁,蜘蛛需要能夠找到并通過(guò)這座橋梁(IE,找到并爬取你的URL)到達(dá)你的網(wǎng)站內(nèi)容頁(yè),如果你的URL地址過(guò)于復(fù)雜或是太冗余,蜘蛛就要花費(fèi)很多時(shí)間去跟蹤并反跟蹤自己爬取的腳印,如果URL地址被很好的組織著,并直接指向相關(guān)區(qū)域的內(nèi)容,這樣就不會(huì)爬取到空白或是重復(fù)的內(nèi)容頁(yè)了。”
如果你想被Google更好的索引,你必須刪除URL地址中用戶具體信息。具體情況可瀏覽幻燈片?;旧蟄RL的參數(shù)時(shí)不會(huì)改變網(wǎng)頁(yè)的內(nèi)容,所以這些參數(shù)應(yīng)該要?jiǎng)h除或是放入cookie中。這樣就會(huì)減少很多URL指向同一個(gè)內(nèi)容的數(shù)量,加快檢索。(這里應(yīng)該指的就是盡量使用靜態(tài)地址,少產(chǎn)生一些用戶自帶的參數(shù)的重復(fù)URL)
Google說(shuō)漫無(wú)目的的無(wú)限的空間和廣度其實(shí)很浪費(fèi)時(shí)間,所以對(duì)于那些是唯一地址的不管是過(guò)去的還是將來(lái)的url地址,最好有一個(gè)時(shí)間標(biāo)志。例如example/2009/08//11/title
告訴Google那些網(wǎng)頁(yè)可以忽略它不需要爬取。包括一些登陸的頁(yè)面,聯(lián)系方式,購(gòu)物車(chē)和其他的頁(yè)面,類(lèi)似于要求用戶去執(zhí)行的行為,蜘蛛是無(wú)法識(shí)別操作的。可以通過(guò)使用robots.txt文件來(lái)實(shí)現(xiàn)。
最后,盡可能避免重復(fù)的內(nèi)容。Google希望每一個(gè)內(nèi)容頁(yè)面都對(duì)應(yīng)一個(gè)唯一的地址。當(dāng)然他們不可能全部的識(shí)別出來(lái),因此會(huì)有一些典型鏈接因素存在讓你去鑒別哪些特定內(nèi)容網(wǎng)頁(yè)的URL更被人們喜愛(ài)。