很多站長都會遇到這個問題,網(wǎng)站開發(fā)完成上線后,百度一直不收錄。
即使收錄也只是收錄個首頁,內(nèi)頁很難快速被收錄。這樣網(wǎng)站優(yōu)化工作是難以開展的,如何解決這個問題?
搜索引擎的進化
互聯(lián)網(wǎng)早期,網(wǎng)站數(shù)量有限,所以人工整理是可行的,比如就有DMOZ這樣的人工編輯的網(wǎng)站數(shù)據(jù)庫,分門別類的整理好各種網(wǎng)址。
后來全球網(wǎng)站數(shù)量爆炸性增長,人工整理就不現(xiàn)實了,于是有了網(wǎng)絡爬蟲(也叫蜘蛛)代替人工去訪問抓取網(wǎng)站,這就是最原始的搜索引擎。
雖然互聯(lián)網(wǎng)是一個網(wǎng)狀結(jié)構(gòu),但是抓取整個互聯(lián)網(wǎng)上的所有網(wǎng)站還是有難度的,首先要解決的問題就是如何發(fā)現(xiàn)這些網(wǎng)站。
為了解決這個問題,搜索引擎都會有一個基礎的網(wǎng)站數(shù)據(jù)庫,從這里的網(wǎng)站開始爬取,希望能抓取整個互聯(lián)網(wǎng)上的信息。而且依靠鏈接之間的引用關系和使用的鏈接文本來計算網(wǎng)頁的權(quán)重,從而能對搜索結(jié)果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的網(wǎng)站作為爬蟲的抓取起點,而且我懷疑Google也使用DMOZ數(shù)據(jù),因為10多年前做網(wǎng)站時,大家都希望自己的網(wǎng)站能被DMOZ收錄,甚至賄賂DMOZ的編輯人員。
還有那時候大家都拼命交換友情鏈接,PR值高的網(wǎng)站就是大爺。這背后對應著網(wǎng)站的收錄速度和排名高低。
一個新網(wǎng)站,如果有PR值高的網(wǎng)站給你加友情鏈接,很快網(wǎng)站就可以被抓取收錄。
早期互聯(lián)網(wǎng)內(nèi)容貧乏,隨便做個網(wǎng)站,找有權(quán)重的網(wǎng)站交換友情鏈接,這些搜索引擎爬蟲都如饑似渴的抓取收錄。
可現(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容太多了(Google的總索引頁面數(shù)477億左右)),搜索引擎也變得越來越挑剔,所以新站起流量越來越難了。
標簽:東營
烏魯木齊
林芝
鹽城
九江