• 主页

  • 投资

  • IT

    🔥
  • 设计

  • 销售

关闭

返回栏目

关闭

返回python栏目

100 - 第三方库 - jieba - 结巴中文分词

作者:

贺及楼

成为作者

更新日期:2024-10-28 10:13:27

jieba结巴中文分词

作用:把句子分开一段一段

jieba库的简介

Python 的 jieba 库是一个中文分词工具,它能够将连续的中文文本切分成有意义的词序列。jieba 支持繁体中文和自定义词典,提供三种分词模式:精确模式、全模式和搜索引擎模式。此外,它还具备关键词提取和词性标注的功能。jieba 广泛应用于文本处理、自然语言处理、搜索引擎优化等领域,是中文文本分析和数据挖掘的重要工具。

安装中文分词库 jieba 命令

  1. pip install jieba

安装jieba

使用中文分词库 jieba 例子

  1. import jieba
  2. test_content = '迅雷不及掩耳盗铃儿响叮当仁不让世界充满爱之势'
  3. # 精确模式,将句子最精确地切开,适合文本分析
  4. cut_res = jieba.cut(test_content, cut_all=False)
  5. print('[精确模式]:', list(cut_res))
  6. # [精确模式]: ['迅雷不及', '掩耳盗铃', '儿响', '叮', '当仁不让', '世界', '充满', '爱之势']
  7. cut_res = jieba.cut(test_content, cut_all=False, HMM=False)
  8. print('[精确模式]:', list(cut_res))
  9. # [精确模式]: ['迅雷不及', '掩耳盗铃', '儿', '响', '叮', '当仁不让', '世界', '充满', '爱', '之', '势']
  10. # HMM参数默认为True,根据HMM模型(隐马尔可夫模型)自动识别新词。如上面的例子中,HMM为True,结果中将“儿响”、“爱之势”识别成了新词,HMM为False,这些字只能单独成词,分成单个文字。
  11. cut_res = jieba.cut(test_content, cut_all=True)
  12. print('[全模式]:', list(cut_res))
  13. # [全模式]: ['迅雷', '迅雷不及', '迅雷不及掩耳', '不及', '掩耳', '掩耳盗铃','儿', '响叮当', '叮当', '当仁不让', '不让', '世界', '充满', '爱', '之', '势']
  14. cut_res = jieba.cut_for_search(test_content)
  15. print('[搜索引擎模式]:', list(cut_res))
  16. # [搜索引擎模式]: ['迅雷', '不及', '迅雷不及', '掩耳', '掩耳盗铃', '儿响', '叮','不让', '当仁不让', '世界', '充满', '爱之势']
  17. # 自定义分词
  18. jieba.add_word('铃儿响叮当')
  19. jieba.add_word('让世界充满爱')
  20. jieba.add_word('迅雷不及掩耳之势')
  21. lcut_res = jieba.lcut(test_content, cut_all=True, HMM=False)
  22. print('[添加自定义词语]:', lcut_res)
  23. # [添加自定义词语]: ['迅雷', '迅雷不及', '迅雷不及掩耳', '不及', '掩耳', '掩耳盗铃', '铃儿响叮当', '响叮当', '叮当', '当仁不让', '不让', '让世界充满爱', '世界', '充满', '爱', '之', '势']

https://github.com/fxsjy/jieba