中文分詞(Chinese Word Segmentation),將中文語(yǔ)句切割成單獨(dú)的詞組。英文使用空格來(lái)分開(kāi)每個(gè)單詞的,而中文單獨(dú)一個(gè)漢字跟詞有時(shí)候完全不是同個(gè)含義,因此,中文分詞相比英文分詞難度高很多。
分詞主要用于NLP 自然語(yǔ)言處理(Natural Language Processing),使用場(chǎng)景有:
Python的中文分詞庫(kù)有很多,常見(jiàn)的有:
通常前三個(gè)是比較經(jīng)常見(jiàn)到的,主要在易用性/準(zhǔn)確率/性能都還不錯(cuò)。我個(gè)人常用的一直都是結(jié)巴分詞(比較早接觸),最近使用pkuseg,兩者的使用后面詳細(xì)講。
結(jié)巴分詞 簡(jiǎn)介“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件
jieba分詞實(shí)例
我們使用京東商場(chǎng)的美的電器評(píng)論來(lái)看看結(jié)巴分詞的效果。如果你沒(méi)有安裝結(jié)巴分詞庫(kù)則需要在命令行下輸入pip install jieba,安裝完之后即可開(kāi)始分詞之旅。
評(píng)論數(shù)據(jù)整理在文件meidi_jd.csv文件中,讀取數(shù)據(jù)前先導(dǎo)入相關(guān)庫(kù)。因?yàn)橹形牡奈谋净蛭募木幋a方式不同編碼選擇gb18030,有時(shí)候是utf-8、gb2312、gbk自行測(cè)試。
# 導(dǎo)入相關(guān)庫(kù) import pandas as pd import jieba # 讀取數(shù)據(jù) data = pd.read_csv('meidi_jd.csv', encoding='gb18030') # 查看數(shù)據(jù) data.head()
分享文章:Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較-創(chuàng)新互聯(lián)
標(biāo)題鏈接:http://m.rwnh.cn/article48/dggsep.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計(jì)、外貿(mào)網(wǎng)站建設(shè)、搜索引擎優(yōu)化、網(wǎng)站維護(hù)、網(wǎng)站制作、定制網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容