如何使用jieba 結巴中文分詞程式(Example) | 合法藥品大搜索
Aprotipbyfukuballaboutpythonandjieba....自然語言處理的其中一個重要環節就是中文斷詞的處理,比起英文斷詞,中文斷詞在先天上就比較難處理,比如電腦要 ...
前言自然語言處理的其中一個重要環節就是中文斷詞的處理,比起英文斷詞,中文斷詞在先天上就比較難處理,比如電腦要怎麼知道「全台大停電」要斷詞成「全台 / 大 / 停電」呢?如果是英文「Power outage all over Taiwan」,就可以直接用空白斷成「Power / outage / all / over / Taiwan」,可見中文斷詞真的是一個大問題啊~
這樣的問題其實已經有很多解法,比如中研院也有提供「中文斷詞系統[1]」,但就是很難用,不僅 API Call 的次數有限制,還很難串,Server 也常常掛掉,真不曉得為何中研院不將核心開源出來,讓大家可以一起來改善這種現象,總之我要棄中研院的斷詞系統而去了。
近來玩了一下 jieba[2] 結巴這個 Python Based 的開源中文斷詞程式,感覺大好,順手發了一些 pull request,今天早上就成為 contributor[3] 了! 感覺真爽!每次發 pull request 總是有種莫名的爽感,既期待被 merge 又怕被 reject,就跟告白的感覺類似啊~
這麼好用的開源中文斷詞系統,當然要介紹給大家用啊!
背後演算法jieba 中文斷詞所使用的演算法是基於 Trie Tree 結構去生成句子中中文字所有可能成詞的情況,然後使用動態規劃(Dynamic programming)算法來找出最大機率的路徑,這個路徑就是基於詞頻的最大斷詞結果。對於辨識新詞(字典詞庫中不存在的詞)則使用了 HMM 模型(Hidden Markov Model)及 Viterbi 算法來辨識出來。基本上這樣就可以完成具有斷詞功能的程式了,或許我之後可以找個時間寫幾篇部落格來介紹這幾個演算法。
如何安裝推薦用 pip 安裝 jieba 套件,或者使用 Virtualenv 安裝(未來可能會介紹如何使用 Virtualevn,這樣就可以同時在一台機器上跑不...
簡單易用的中英文斷詞和詞性標註:Python | 合法藥品大搜索
Python自然語言處理(二):使用jieba進行中文斷詞 | 合法藥品大搜索
Jieba、NLTK等中英文分词工具进行分词 | 合法藥品大搜索
如何使用jieba 結巴中文分詞程式(Example) | 合法藥品大搜索
[Day2] 斷詞介紹 | 合法藥品大搜索
jieba英文空格分词问题 | 合法藥品大搜索
Python 自然語言處理(基於jieba分詞和NLTK) | 合法藥品大搜索
【"吉力" 東昇腦沙高軟膏】切傷、刀傷、創傷、火傷、蟲咬傷、頭暈。
藥品名稱:"吉力"東昇腦沙高軟膏許可證字號:衛署成製字第010149號許可證種類:製 劑適應症:切傷、刀傷、創傷、火傷、蟲咬傷、...
【"台耀"西蓓可娜布芬】解除中度到嚴重疼痛、也可作為平衡麻醉的補助劑。如手術前後之麻醉,及在分娩陣痛過程中的產科麻醉。
藥品名稱:"台耀"西蓓可娜布芬許可證字號:衛部藥製字第059233號許可證種類:原料藥適應症:解除中度到嚴重疼痛、也可作為平衡麻...