有声小说,欢乐颂小说txt

主頁 > 知識庫 > MySQL 全文檢索的使用示例

MySQL 全文檢索的使用示例

1. 環(huán)境準備

MySQL 5.7.6之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分詞器把中文段落預(yù)處理拆分成單詞，然后存入數(shù)據(jù)庫。 MySQL 5.7.6開始，MySQL內(nèi)置了ngram全文解析器，用來支持中文、日文、韓文分詞。本文使用的MySQL 版本是5.7.22，InnoDB數(shù)據(jù)庫引擎。

所以這里需要MySQL的版本大于5.7.6

-- 查看mysql的版本
mysql> select version();
+-----------+
| version() |
+-----------+
| 5.7.33    |
+-----------+
1 row in set (0.02 sec)

在 mysql 配置文件中添加分詞以及最小詞語長度（如果已經(jīng)配置可以忽略）

ft_min_word_len 最小字符長度默認為 4，在英文條件下確實比較合理中文情況下需要修改；

ngram_token_size 分詞的最小長度舉個例子不同長度對你好世界的分詞

n=1: '你', '好', '世', '界' 
n=2: '你好', '好世', '世界' 
n=3: '你好世', '好世界' 
n=4: '你好世界'

# /etc/mysql/mysql.conf.d/mysqld.cnf

ft_min_word_len = 2
ngram_token_size = 2


# 如果沒有則新增配置
echo 'ft_min_word_len = 2
ngram_token_size = 2' >> mysqld.cnf

# 重啟服務(wù)
/etc/init.d/mysql restart

-- 查看配置
mysql> 
SHOW VARIABLES LIKE 'ft_min_word_len';
SHOW VARIABLES LIKE 'ngram_token_size';
+-----------------+-------+
| Variable_name   | Value |
+-----------------+-------+
| ft_min_word_len | 2     |
+-----------------+-------+
1 row in set (0.02 sec)
 
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| ngram_token_size | 2     |
+------------------+-------+
1 row in set (0.03 sec)

2. 數(shù)據(jù)準備

-- mysql 于全文檢索的demo

mysql> CREATE TABLE `articles` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(50) DEFAULT NULL COMMENT '主題',
  `content` longtext NOT NULL COMMENT '內(nèi)容',
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_content_index` (`content`,`title`) /*!50100 WITH PARSER `ngram` */ 
) ENGINE=InnoDB AUTO_INCREMENT=7 DEFAULT CHARSET=utf8;
Query OK, 0 rows affected (0.20 sec)
 

mysql> INSERT INTO articles (`title`, `content`) VALUES
        ('如果','今生今世 永不再將你想起 
除了
除了在有些個
因落淚而濕潤的夜里 如果
如果你愿意'),
        ('愛情','有一天路標遷了希望你能從容
有一天橋墩斷了希望你能渡越
有一天棟梁倒了希望你能堅強
有一天期待蔫了希望你能理解'),
        ('遠和近','你 一會看我
一會看云
我覺得
你看我時很遠
你看云時很近'),
        ('斷章','你站在橋上看風景，
看風景人在樓上看你。
明月裝飾了你的窗子，
你裝飾了別人的夢。'),
        ('獨語','我向你傾吐思念
你如石像
沉默不應(yīng)
如果沉默是你的悲抑
你知道這悲抑
最傷我心');

Query OK, 5 rows affected (0.08 sec)
Records: 5  Duplicates: 0  Warnings: 0
 
mysql> SELECT * from articles where match(content, title) against('風景' in  NATURAL LANGUAGE MODE) LIMIT 10;
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
| id | title  | content                                                                                                                  |
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
| 10 | 斷章 |  你站在橋上看風景，
看風景人在樓上看你。
明月裝飾了你的窗子，
你裝飾了別人的夢。 |
+----+--------+--------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.02 sec)

3. 開始表演

自然語言模式(NATURAL LANGUAGE MODE)

自然語言模式是MySQL 默認的全文檢索模式。自然語言模式不能使用操作符，不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

布隆模式(BOOLEAN MODE)

BOOLEAN模式可以使用操作符，可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

查詢擴展(QUERY EXPANSION)

查詢的結(jié)果不僅匹配出結(jié)果同時可以聯(lián)想出其他你需要的結(jié)果。（類似關(guān)聯(lián)查詢，但是官網(wǎng)推薦僅支持短語查詢否則會出現(xiàn)很多臟數(shù)據(jù)）

-- 自然語言模式（NATURAL LANGUAGE MODE）查詢并得到評分

mysql> SELECT id, title, MATCH ( content, title ) against ( '風景' IN NATURAL LANGUAGE MODE ) AS score  FROM articles;
+----+-----------+--------------------+
| id | title     | score              |
+----+-----------+--------------------+
|  7 | 如果    |                  0 |
|  8 | 愛情    |                  0 |
|  9 | 遠和近 |                  0 |
| 10 | 斷章    | 0.9771181344985962 |
| 11 | 獨語    |                  0 |
+----+-----------+--------------------+
5 rows in set (0.02 sec)

-- 布隆模式(BOOLEAN MODE) 可以組合查詢

mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '+風景 -愛情' IN BOOLEAN MODE );
+----+--------+
| id | title  |
+----+--------+
| 10 | 斷章 |
+----+--------+
1 row in set (0.01 sec)

-- 查詢擴展(QUERY EXPANSION) 可以聯(lián)想出其他結(jié)果 
mysql> SELECT id, title  FROM articles where MATCH ( content, title ) against ( '風景' WITH QUERY EXPANSION );
+----+--------+
| id | title  |
+----+--------+
| 10 | 斷章 |
| 11 | 獨語 |
+----+--------+
2 rows in set (0.02 sec)

4. 分詞引擎

目前官網(wǎng) MeCab Full-Text Parser 有支持日語的分詞插件（可以更好的理解語義）

內(nèi)置的 full-text parser 因為英文中單詞的邊界默認是空格，所以在處理英文文本時可以簡單的使用空格作為分隔符。但是在處理中文時需要理解語義的基礎(chǔ)上進行有效的分詞，所以在處理中文、日文、韓文MySQL 提供了 ngram full-text （本文的配置就是基于ngram的中文分詞）

總結(jié)

優(yōu)點

對比 like 查詢效率有提升（具體提升的測試沒有做）
全文搜索可以同時對多個字段做索引，like只能對單一字段搜索

對于中文的分詞可能需要在理解語義的基礎(chǔ)上才能有效的分詞；比如上文中的你好世界（hello world）對于英文按空格切分就可以，中文則需要理解語義的基礎(chǔ)才能分成你好/世界。

這里分享一下python中jieba分詞，有助于理解中文分詞的魅力

結(jié)巴分詞利用一個中文詞庫，通過詞庫計算漢字之間構(gòu)成詞語的關(guān)聯(lián)概率，所以通過計算漢字之間的概率，就可以形成分詞的結(jié)果。

In [1]: import jieba

In [2]: jieba.lcut("你好世界")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/st/b16fyn3s57x_5vszjl599njw0000gn/T/jieba.cache
Loading model cost 0.937 seconds.
Prefix dict has been built successfully.
Out[2]: ['你好', '世界']

In [3]: jieba.lcut("hello world")
Out[3]: ['hello', ' ', 'world']

對于一般的項目mysql的全文索引可以解決80%的需求，它可以較為完美的支持中文的檢索、自動分詞、結(jié)果排序、組合查詢等功能；但性能應(yīng)該是瓶頸，Elastissearch可以友好的實現(xiàn)全文檢索。

全文索引不能達到like的效果，連著的語句會因為分詞形成多個詞語。

參考資料

Mysql fulltext

以上就是MySQL 全文檢索的使用示例的詳細內(nèi)容，更多關(guān)于MySQL 全文檢索的使用的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實例
PHP+MySQL+sphinx+scws實現(xiàn)全文檢索功能詳解
mysql 全文檢索中文解決方法及實例代碼
深度解析MySQL 5.7之中文全文檢索

標簽：南充徐州西寧無錫自貢龍巖麗水迪慶

巨人網(wǎng)絡(luò)通訊聲明：本文標題《MySQL 全文檢索的使用示例》，本文關(guān)鍵詞 MySQL,全文檢索,的,使用,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。