本文從以下幾個方面介紹下MySQL全文索引的基礎(chǔ)知識:
- MySQL全文索引的幾個注意事項
- 全文索引的語法
- 幾種搜索類型的簡介
- 幾種搜索類型的實例
全文索引的幾個注意事項
- 搜索必須在類型為fulltext的索引列上,match中指定的列必須在fulltext中指定過
- 僅能應(yīng)用在表引擎為MyIsam類型的表中(MySQL 5.6以后也可以用在Innodb表引擎中了)
- 僅能再char、varchar、text類型的列上面創(chuàng)建全文索引
- 像普通索引一樣,可以在定義表時指定,也可以在創(chuàng)建表后添加或者修改
- 對于一個大數(shù)量級記錄插入,向沒有索引的表中插入數(shù)據(jù)后創(chuàng)建索引比向有索引的數(shù)據(jù)表中插入的過程要快很多
- 搜索字符串必須是一個常量字符串,不能是表的列名
- 在搜索記錄的選擇性超過50%的時候,認為沒有匹配(只在自然搜索中限制)
全文索引搜索語法
MATCH (列名1, 列名2,…) AGAINST (搜索字符串 [搜索修飾符])
其中在match里面指定的列名1、2等,就是在建立全文索引中指定的列名, 后面的搜索修飾符說明如下:
search_modifier:
{
IN NATURAL LANGUAGE MODE
| IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
| IN BOOLEAN MODE
| WITH QUERY EXPANSION
}
幾種搜索類型的簡介
上面的搜索修飾符,實際上說明了3種全文搜索類型
IN NATURAL LANGUAGE MODE
簡介:默認的搜索形式(不加任何搜索修飾符或者修飾符為 IN NATURAL LANGUAGE MODE 的情況)
特點:
- 對于搜索字符串中的字符都解析為正常的字符,沒有特殊意義
- 對屏蔽字符列表中的字符串進行過濾
- 當記錄的選擇性超過50%的時候,通常被認為是不匹配。
- 返回記錄按照記錄的相關(guān)性進行排序顯示
IN BOOLEAN MODE
簡介:布爾模式搜索(搜索修飾符為IN BOOLEAN MODE的情況)
特點:
- 會按照一定的規(guī)則解析搜索字符串中的特殊字符的含義,進行一些邏輯意義的規(guī)則。如:某個單詞必須出現(xiàn),或者不能出現(xiàn)等。
- 這種類型的搜索返回的記錄是不按照相關(guān)性進行排序的
WITH QUERY EXPANSION
簡介:一種稍微復雜的搜索形式,實際上是進行了2次自然搜索,可以返回記錄直接簡介性關(guān)系的記錄,修飾詞IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION 或者WITH QUERY EXPANSION modifier
特點:這種類型的搜素,實際上提供了一種間接的搜索功能,比如:我搜索某個詞,而且返回的第一行中卻不包含搜索詞中的任意字符串。可以根據(jù)第一次搜索結(jié)果的記錄詞進行第二次匹配,從而可能找到一些間接關(guān)系的匹配記錄。
幾種搜索類型的實例介紹
IN NATURAL LANGUAGE MODE模式下的應(yīng)用:
還是應(yīng)用在product表,其中在name字段我們建立了全文索引,因為我需要根據(jù)關(guān)鍵詞在name列匹配出相關(guān)記錄
Sql語句如下:
SELECT * FROM product WHERE match(name) against(‘a(chǎn)uto')
時間還不錯,在將近87w的記錄中命中了1w多條,耗時1.15秒,效果還是不錯
注意:在默認的情況下已經(jīng)是根據(jù)相關(guān)性從高到低返回記錄了
我們可以SELECT match(name) against(‘a(chǎn)uto') FROM product 查看記錄的相關(guān)性值,值都在0和1之間, 0代表記錄不匹配
重要的幾個特性:
1. 哪些詞會被忽略
搜索詞太短 默認全文索引認為4個以上字符的單詞是有效詞,我們可以在配置中修改ft_min_word_len進行配置
屏蔽詞表中的詞 默認的全文索引將一些常用詞屏蔽掉,因為這些詞太常見了,沒有任何語義作用,所以搜索過程中是忽略不計的。當然這個列表也是可以配置的。
2. 如何進行分詞的
全文索引認為一個連續(xù)的有效字符(正則中\(zhòng)w匹配的字符集)是一個單詞,也可以包含一個“'”, 但是連續(xù)的兩個'會被認為是一個分隔符。其他的分隔符如:空格、逗號、句點等
IN BOOLEAN MODE 模式下的應(yīng)用:
在布爾匹配模式中,我們可以添加一些特殊的符號,增加一些搜索過程的邏輯功能。如官方網(wǎng)站中提供的實例(搜索含有mysql字符串 且 不含Yousql的語句):
SELECT * FROM articles WHERE MATCH (title,body)
-> AGAINST (‘+MySQL -YourSQL' IN BOOLEAN MODE);
可見,我們對搜索的控制又多了一些,看起來“高大上”了些。
實際上,上面的操作隱含了幾個意思:
加號:相當于and
減號:相當于not
沒有:相當于or
下面看下布爾類型搜索的幾個重要特性:
1. 沒有50%記錄選擇性的限制,即使搜索結(jié)果記錄超過總數(shù)的50%也同樣返回結(jié)果
2. 不會自動的按記錄的相關(guān)性進行降序排序
3. 可以直接應(yīng)用在沒有創(chuàng)建fulltext的全文索引上,但是這樣會查詢的非常慢,所以說還是別用了。
4. 支持最小、最大單詞長度
5. 應(yīng)用屏蔽詞列表
布爾搜索支持的操作符:
n 加號 +:指示修飾的單詞必須出現(xiàn)在記錄中
n 減號 -:指示修飾的單詞必須不能出現(xiàn)在記錄中
n 沒有任何操作符:單詞可有可無,但是包含該詞的記錄相關(guān)性高
n 雙引號 “ : 將一個詞組作為一個匹配。如:”one word” 匹配one word在一起的單詞
下面是官方的一些實例:
至少包含一個詞的記錄
‘a(chǎn)pple banana'
必須包含著兩個詞
‘+apple +juice'
必須包含apple,包含macintosh的記錄相關(guān)性高,也可以不包含
‘+apple macintosh'
必須包含apple且不能喊有macintosh
‘+apple -macintosh'
查找apple開頭單詞的記錄
‘a(chǎn)pple*'
完整匹配some words單詞
‘”some words”‘
了解了基本的mysql全文索引知識,覺得它的全文索引比like當然是強了很多。但是面對高級的搜索還是略顯簡陋,且性能問題也是擔憂。
本人只是作為入門了解,也是對官網(wǎng)一些基本知識的翻譯。
您可能感興趣的文章:- MySQL 全文索引的原理與缺陷
- MySQL全文索引、聯(lián)合索引、like查詢、json查詢速度哪個快
- MySQL全文索引實現(xiàn)簡單版搜索引擎實例代碼
- MySQL創(chuàng)建全文索引分享
- 基于mysql全文索引的深入理解
- MySQL 全文索引使用指南