五款中文分詞工具線上PK: Jieba, SnowNLP | 合法藥品大搜索
最近玩公眾號會話停不下來: 玩轉騰訊詞向量:Game of Words(詞語的加減遊戲)[1] ,準備把NLP相關的模組搬到線上,準確的說,搬到AINLP公眾號後臺對話,所以,趁著勞動節假期,給AINLP公眾號後臺聊天機器人添加了一項新技能:中文分詞線上PK,例如在AINLP公眾號後臺對話輸入:中文分詞 我愛自然語言處理,就可以得到五款分詞工具的分詞結果:
現在的開源中文分詞工具或者模組已經很豐富了,並且很多都有一些在封閉測試集上的效果對比資料,不過這僅僅只能展現這些分詞工具在這個封閉測試集上的效果,並不能全面說明問題,個人覺得,選擇一個適合自己業務的分詞器可能更重要,有的時候,還需要加一些私人定製的詞庫。
這次首先選了5款中文分詞工具,嚴格的來說,它們不完全是純粹的中文分詞工具,例如SnowNLP, Thulac, HanLP都是很全面的中文自然語言處理工具,這次,先試水它們的中文分詞模組。安裝這些模組其實很簡單,只要按官方文件的方法安裝即可,以下做個簡單介紹,在Python3.x的環境下測試,Ubuntu16.04 或 MacOS 測試成功。
1) Jieba : https://github.com/fxsjy/jieba[2][3]
“結巴”中文分詞:做最好的 Python 中文分片語件
"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.
特點
支援三種分詞模式:
精確模式,試圖將句子最精確地切開,適合文字分析;
全模式,把句子中所有的可以成詞的詞語...
fxsjyjieba | 合法藥品大搜索
NLP 中文分詞– 結巴 | 合法藥品大搜索
中文分词 | 合法藥品大搜索
中文分词– 我爱自然语言处理 | 合法藥品大搜索
中文斷詞 | 合法藥品大搜索
中文斷詞 | 合法藥品大搜索
中文斷詞系統 | 合法藥品大搜索
五款中文分詞工具線上PK: Jieba, SnowNLP | 合法藥品大搜索
有哪些比较好的中文分词方案? | 合法藥品大搜索
比較好的中文分詞方案匯總推薦 | 合法藥品大搜索
【"台耀"西蓓可娜布芬】解除中度到嚴重疼痛、也可作為平衡麻醉的補助劑。如手術前後之麻醉,及在分娩陣痛過程中的產科麻醉。
藥品名稱:"台耀"西蓓可娜布芬許可證字號:衛部藥製字第059233號許可證種類:原料藥適應症:解除中度到嚴重疼痛、也可作為平衡麻...
【"吉力" 東昇腦沙高軟膏】切傷、刀傷、創傷、火傷、蟲咬傷、頭暈。
藥品名稱:"吉力"東昇腦沙高軟膏許可證字號:衛署成製字第010149號許可證種類:製 劑適應症:切傷、刀傷、創傷、火傷、蟲咬傷、...