濮阳杆衣贸易有限公司

主頁 > 知識(shí)庫 > SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié) 中文分詞

SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié) 中文分詞

熱門標(biāo)簽:宿遷手機(jī)外呼系統(tǒng)排名 自動(dòng)語音電話機(jī)器人 百度地圖標(biāo)注錯(cuò)誤修改 西寧人工智能電銷機(jī)器人 廊坊外呼系統(tǒng)平臺(tái) 外呼手機(jī)卡和線路卡哪個(gè)好用 新鄉(xiāng)智能外呼系統(tǒng)好處 廣州400電話號(hào)辦理 濟(jì)源防封號(hào)電銷機(jī)器人銷售
最早的中文分詞辦法是由北京航天航空大學(xué)的梁南元教授提出的一種基于“查字典”的分詞辦法。該方法是把整個(gè)句子讀一遍,然后把字典里有的詞都單獨(dú)標(biāo)示出來,當(dāng)遇到復(fù)合詞的時(shí)候(例如北京大學(xué)),就找到最長的詞匹配。遇到不認(rèn)識(shí)的字符串就分割成單個(gè)文字。
例如:“著名導(dǎo)演張藝謀說國慶節(jié)晚上將安排十萬人到天安門聯(lián)歡。”
根據(jù)該辦法,可以切分為:
“著名 | 導(dǎo)演 | 張藝謀 | 說 | 國慶節(jié) | 晚上 | 將 | 安排 | 十萬人 | 到 | 天安門 | 聯(lián)歡”
這樣的分詞辦法雖然說可以應(yīng)付很多的句子,但是由于細(xì)分的太多,在真正搜索引擎使用的過程中,到底哪一個(gè)詞才是重點(diǎn)就無法表述,從而搜索引擎搜索出的結(jié)果也不能達(dá)到最大的相關(guān)度。

在80年代,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)博士生導(dǎo)師王曉龍博士提出了“最少詞數(shù)”的分詞理論,即為,一句話應(yīng)該是分詞最少的字符串,這樣會(huì)更多的讓搜索引擎更明白這句話到底是什么意思。但是它對(duì)于例如“二義性”的關(guān)鍵詞組,就不能說最長的分割就是最好的結(jié)果。
例如:“吉利大學(xué)城書店”
這個(gè)關(guān)鍵詞正確的分詞應(yīng)該是“吉利 | 大學(xué)城 | 書店”而不是詞典中的“吉利大學(xué) | 城 | 書店 ”



目前,主流的分詞辦法有兩種,一種是基于統(tǒng)計(jì)模型的文字處理,另外一種是基于字符串匹配的逆向最大匹配法。

基于統(tǒng)計(jì)模型的文字處理
從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。可以對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對(duì)常用詞的識(shí)別精度差,時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。

基于字符串匹配的逆向最大匹配法
一般來說,在SEO中使用最多的分詞辦法就是基于字符串匹配的逆向最大匹配法。這種方法就是從句子的后面往前(從右向左)進(jìn)行分詞。



在搜索引擎運(yùn)行的機(jī)制中,有很多種中文分詞的辦法,例如正向最大匹配分詞、逆向最大分析、基于統(tǒng)計(jì)的分詞等。但是在實(shí)際的搜索引擎運(yùn)行過程中,分詞的辦法卻沒有這么簡單了。因?yàn)樗阉饕娌粌H僅要去考慮到分詞結(jié)果的正確性,還需要考慮到對(duì)于分不出來的詞的處理。

首先我們來討論分詞結(jié)果的準(zhǔn)確度,一般來說,搜索引擎是使用多種分詞的方式構(gòu)成一個(gè)混合分詞方式來進(jìn)行分詞的,因?yàn)檫@樣可以讓詞匯最大化的、更準(zhǔn)確的分開?;旌戏衷~的原理是:先使用專業(yè)詞典進(jìn)行分詞,之后再使用普通詞庫進(jìn)行一次分詞。

那么對(duì)于分不出來的詞,搜索引擎又是如何操作的呢?
一般來說,搜索引擎遇到這樣的關(guān)鍵詞時(shí),會(huì)采取一元分詞+二元分詞+混合分詞+不分詞的方式來解決這樣的問題。
例如:“草泥馬是一種食草動(dòng)物”
一元分詞結(jié)果:“草\泥\馬\是\一種\食草\動(dòng)物\&;或者“草\泥\馬\是\一種\食草動(dòng)物\&;或者“草\泥\馬\是\一種\食\草\動(dòng)物\&;
二元分詞結(jié)果:“草泥\泥馬\是\一種\食草\動(dòng)物”。
第三種方式——干脆不分,以保持新詞的完整性。
在經(jīng)過了這一系列的分詞程序后,實(shí)際分詞的結(jié)果是:草泥\泥馬\草泥馬\是\一種\食草\食\草\動(dòng)物\食草動(dòng)物



掌握了中文分詞技術(shù),就可以為網(wǎng)頁構(gòu)建更多的長尾關(guān)鍵詞。

標(biāo)簽:駐馬店 ???/a> 廣東 江西 韶關(guān) 黑龍江 合肥 定州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié) 中文分詞》,本文關(guān)鍵詞  SEO,優(yōu)化,實(shí)戰(zhàn),經(jīng)驗(yàn)總結(jié),;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié) 中文分詞》相關(guān)的同類信息!
  • 本頁收集關(guān)于SEO優(yōu)化實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié) 中文分詞的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    洛阳市| 海兴县| 河间市| 吴堡县| 习水县| 衡东县| 津市市| 彭泽县| 二连浩特市| 扎囊县| 亚东县| 前郭尔| 珠海市| 盐城市| 班玛县| 高安市| 申扎县| 乌拉特前旗| 六盘水市| 辽阳市| 东莞市| 岳普湖县| 涞源县| 宝丰县| 望城县| 长武县| 福清市| 时尚| 武隆县| 五家渠市| 射洪县| 略阳县| 临湘市| 库伦旗| 太仓市| 寿阳县| 平陆县| 丹巴县| 吉林市| 新郑市| 保定市|