微信登录

plugin - analysis-ik - 分词器拓展、停用

IKAnalyzer.cfg.xml分词器拓展、停用简介

IKAnalyzer.cfg.xml 是 IK 分词器的配置文件,用于定义分词器的行为和特性。IK 分词器是一个高效的中文分词组件,它是基于 Elasticsearch 的一个插件,用于改善 Elasticsearch 对中文文本的处理能力。

这个配置文件通常包含以下几个重要的部分:

  1. 配置主节点:定义了配置文件的根元素,通常是一个 <!DOCTYPE 声明,指定了配置文件的版本和编码方式。

  2. 主配置区:包含了分词器的主要配置选项,如使用词典的路径、扩展词典的路径、是否使用智能分词等。

  3. 词典配置:指定了词典的类型和词典文件的路径。IK 分词器支持多种类型的词典,包括主词典、量词词典、停止词典等。

  4. 扩展词典配置:用户可以在这里添加自定义的扩展词典,以覆盖或扩展默认词典的词汇。

  5. 智能分词配置:智能分词是一种基于统计的分词方法,可以识别新词或未登录词。

  6. 词性标注:如果启用,分词器会为每个词分配词性标签,这对于某些自然语言处理任务非常有用。

  7. 过滤配置:可以配置分词器过滤掉某些词,如停用词等。

  8. 其他高级配置:可能包括同义词处理、词干提取等高级功能。

IKAnalyzer.cfg.xml 文件允许用户根据需要调整分词器的行为,以适应不同的应用场景。通过修改这个配置文件,用户可以定制分词器的性能和输出结果。

IKAnalyzer.cfg.xml 简单来说

新词是无法分辨的:奥利给、饭圈

IKAnalyzer.cfg.xml 例子

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
  3. <properties>
  4. <comment>IK Analyzer 扩展配置</comment>
  5. <!--用户可以在这里配置自己的扩展字典 -->
  6. <entry key="ext_dict">ext.dic</entry>
  7. <!--用户可以在这里配置自己的扩展停止词字典-->
  8. <entry key="ext_stopwords">stopword.dic</entry>
  9. <!--用户可以在这里配置远程扩展字典 -->
  10. <!-- <entry key="remote_ext_dict">words_location</entry> -->
  11. <!--用户可以在这里配置远程扩展停止词字典-->
  12. <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
  13. </properties>

ext.dic 扩展字典

  1. 奥利给

stopword.dic 停止词字典

英文是自带的

  1. a
  2. an
  3. and
  4. are
  5. as
  6. at
  7. be
  8. but
  9. by
  10. for
  11. if
  12. in
  13. into
  14. is
  15. it
  16. no
  17. not
  18. of
  19. on
  20. or
  21. such
  22. that
  23. the
  24. their
  25. then
  26. there
  27. these
  28. they
  29. this
  30. to
  31. was
  32. will
  33. with
  34. 使

注意的地方

压缩包的ik的config是在plugins/ik/config
es/config也有一个config
经过测试ik的config里的东西剪切复制到es/config/ik里才可以使用

热更新dict

可以用nginx进行热更新
Last-Modified
ETag
要有这两个标志
具体还要查

plugin - analysis-ik - 分词器拓展、停用