欢乐颂小说结局是什么,我欲封天txt下载,完美世界txt全集下载

主頁(yè) > 知識(shí)庫(kù) > Python中jieba庫(kù)的使用方法

Python中jieba庫(kù)的使用方法

一、jieba庫(kù)的安裝

因?yàn)?jieba 是一個(gè)第三方庫(kù)，所有需要我們?cè)诒镜剡M(jìn)行安裝。

Windows 下使用命令安裝：在聯(lián)網(wǎng)狀態(tài)下，在命令行下輸入 pip install jieba 進(jìn)行安裝，安裝完成后會(huì)提示安裝成功

在 pyCharm 中安裝：打開(kāi) settings，搜索 Project Interpreter，在右邊的窗口選擇 + 號(hào)，點(diǎn)擊后在搜索框搜索 jieba，點(diǎn)擊安裝即可

二、jieba三種模式的使用

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好學(xué)習(xí)，天天向上。"

print("/".join(jieba.lcut(seg_str)))    # 精簡(jiǎn)模式，返回一個(gè)列表類(lèi)型的結(jié)果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式，使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式

分詞效果：

三、jieba 分詞簡(jiǎn)單應(yīng)用

需求：使用 jieba 分詞對(duì)一個(gè)文本進(jìn)行分詞，統(tǒng)計(jì)次數(shù)出現(xiàn)最多的詞語(yǔ)，這里以三國(guó)演義為例

# -*- coding: utf-8 -*-
import jieba

txt = open("三國(guó)演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精確模式對(duì)文本進(jìn)行分詞
counts = {}     # 通過(guò)鍵值對(duì)的形式存儲(chǔ)詞語(yǔ)及其出現(xiàn)的次數(shù)

for word in words:
    if len(word) == 1:    # 單個(gè)詞語(yǔ)不計(jì)算在內(nèi)
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語(yǔ)，每出現(xiàn)一次其對(duì)應(yīng)的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根據(jù)詞語(yǔ)出現(xiàn)的次數(shù)進(jìn)行從大到小排序

for i in range(3):
    word, count = items[i]
    print("{0:5}{1:>5}".format(word, count))

統(tǒng)計(jì)結(jié)果：

你可以隨便找一個(gè)文本文檔，也可以到 https://github.com/coderjas/python-quick 下載上面例子中的文檔。

四、擴(kuò)展：英文單詞統(tǒng)計(jì)

上面的例子統(tǒng)計(jì)實(shí)現(xiàn)了中文文檔中出現(xiàn)最多的詞語(yǔ)，接著我們就來(lái)統(tǒng)計(jì)一下一個(gè)英文文檔中出現(xiàn)次數(shù)最多的單詞。原理同上

# -*- coding: utf-8 -*-

def get_text():
    txt = open("1.txt", "r", encoding='UTF-8').read()
    txt = txt.lower()
    for ch in '!"#$%()*+,-./:;=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")      # 將文本中特殊字符替換為空格
    return txt

file_txt = get_text()
words = file_txt.split()    # 對(duì)字符串進(jìn)行分割，獲得單詞列表
counts = {}

for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1 

items = list(counts.items())    
items.sort(key=lambda x: x[1], reverse=True)      

for i in range(5):
    word, count = items[i]
    print("{0:5}->{1:>5}".format(word, count))

統(tǒng)計(jì)結(jié)果：

到此這篇關(guān)于Python中jieba庫(kù)的使用方法的文章就介紹到這了,更多相關(guān)Python jieba庫(kù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

超級(jí)好用的4個(gè)Python命令行可視化庫(kù)
Python中g(shù)lob庫(kù)實(shí)現(xiàn)文件名的匹配
學(xué)會(huì)Python數(shù)據(jù)可視化必須嘗試這7個(gè)庫(kù)
淺談Python響應(yīng)式類(lèi)庫(kù)RxPy
Python下opencv庫(kù)的安裝過(guò)程及問(wèn)題匯總
教你用Python matplotlib庫(kù)制作簡(jiǎn)單的動(dòng)畫(huà)
總結(jié)幾個(gè)非常實(shí)用的Python庫(kù)

標(biāo)簽：長(zhǎng)春洛陽(yáng) 岳陽(yáng) 清遠(yuǎn) 安慶怒江吉林泉州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python中jieba庫(kù)的使用方法》，本文關(guān)鍵詞 Python,中,jieba,庫(kù),的,使用方法,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。

濮阳杆衣贸易有限公司

Python中jieba庫(kù)的使用方法

目錄

一、jieba庫(kù)的安裝

二、jieba三種模式的使用

三、jieba 分詞簡(jiǎn)單應(yīng)用

四、擴(kuò)展：英文單詞統(tǒng)計(jì)

一、jieba庫(kù)的安裝

二、jieba三種模式的使用

四、擴(kuò)展：英文單詞統(tǒng)計(jì)