Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較-創(chuàng)新互聯(lián)

中文分詞(Chinese Word Segmentation)，將中文語(yǔ)句切割成單獨(dú)的詞組。英文使用空格來(lái)分開(kāi)每個(gè)單詞的，而中文單獨(dú)一個(gè)漢字跟詞有時(shí)候完全不是同個(gè)含義，因此，中文分詞相比英文分詞難度高很多。

成都創(chuàng)新互聯(lián)主要為客戶(hù)提供服務(wù)項(xiàng)目涵蓋了網(wǎng)頁(yè)視覺(jué)設(shè)計(jì)、VI標(biāo)志設(shè)計(jì)、成都全網(wǎng)營(yíng)銷(xiāo)、網(wǎng)站程序開(kāi)發(fā)、HTML5響應(yīng)式網(wǎng)站建設(shè)、成都手機(jī)網(wǎng)站制作、微商城、網(wǎng)站托管及成都網(wǎng)站維護(hù)、WEB系統(tǒng)開(kāi)發(fā)、域名注冊(cè)、國(guó)內(nèi)外服務(wù)器租用、視頻、平面設(shè)計(jì)、SEO優(yōu)化排名。設(shè)計(jì)、前端、后端三個(gè)建站步驟的完善服務(wù)體系。一人跟蹤測(cè)試的建站服務(wù)標(biāo)準(zhǔn)。已經(jīng)為房屋鑒定行業(yè)客戶(hù)提供了網(wǎng)站改版服務(wù)。

分詞主要用于NLP 自然語(yǔ)言處理（Natural Language Processing），使用場(chǎng)景有：

搜索優(yōu)化，關(guān)鍵詞提取（百度指數(shù)）
語(yǔ)義分析，智能問(wèn)答系統(tǒng)（客服系統(tǒng)）
非結(jié)構(gòu)化文本媒體內(nèi)容，如社交信息（微博熱榜）
文本聚類(lèi)，根據(jù)內(nèi)容生成分類(lèi)（行業(yè)分類(lèi)）

Python的中文分詞

Python的中文分詞庫(kù)有很多，常見(jiàn)的有：

jieba（結(jié)巴分詞）
THULAC（清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室）
pkuseg（北京大學(xué)語(yǔ)言計(jì)算與機(jī)器學(xué)習(xí)研究組）
SnowNLP
pynlpir
CoreNLP
pyltp

通常前三個(gè)是比較經(jīng)常見(jiàn)到的，主要在易用性/準(zhǔn)確率/性能都還不錯(cuò)。我個(gè)人常用的一直都是結(jié)巴分詞（比較早接觸），最近使用pkuseg，兩者的使用后面詳細(xì)講。

結(jié)巴分詞簡(jiǎn)介

“結(jié)巴”中文分詞：做最好的 Python 中文分詞組件

支持三種分詞模式：
- 精確模式，試圖將句子最精確地切開(kāi)，適合文本分析；
- 全模式，把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非?？欤遣荒芙鉀Q歧義；
- 搜索引擎模式，在精確模式的基礎(chǔ)上，對(duì)長(zhǎng)詞再次切分，提高召回率，適合用于搜索引擎分詞。
支持繁體分詞
支持自定義詞典

jieba分詞實(shí)例

我們使用京東商場(chǎng)的美的電器評(píng)論來(lái)看看結(jié)巴分詞的效果。如果你沒(méi)有安裝結(jié)巴分詞庫(kù)則需要在命令行下輸入pip install jieba，安裝完之后即可開(kāi)始分詞之旅。

評(píng)論數(shù)據(jù)整理在文件meidi_jd.csv文件中，讀取數(shù)據(jù)前先導(dǎo)入相關(guān)庫(kù)。因?yàn)橹形牡奈谋净蛭募木幋a方式不同編碼選擇gb18030，有時(shí)候是utf-8、gb2312、gbk自行測(cè)試。

# 導(dǎo)入相關(guān)庫(kù)
import pandas as pd
import jieba

# 讀取數(shù)據(jù)
data = pd.read_csv('meidi_jd.csv', encoding='gb18030')

# 查看數(shù)據(jù)
data.head()

分享文章：Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較-創(chuàng)新互聯(lián)
標(biāo)題鏈接：http://m.rwnh.cn/article48/dggsep.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站設(shè)計(jì)、外貿(mào)網(wǎng)站建設(shè)、搜索引擎優(yōu)化、網(wǎng)站維護(hù)、網(wǎng)站制作、定制網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話(huà)：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較-創(chuàng)新互聯(lián)