
IKAnalyzer.cfg.xml 是 IK 分词器的配置文件,用于定义分词器的行为和特性。IK 分词器是一个高效的中文分词组件,它是基于 Elasticsearch 的一个插件,用于改善 Elasticsearch 对中文文本的处理能力。
这个配置文件通常包含以下几个重要的部分:
配置主节点:定义了配置文件的根元素,通常是一个 <!DOCTYPE 声明,指定了配置文件的版本和编码方式。
主配置区:包含了分词器的主要配置选项,如使用词典的路径、扩展词典的路径、是否使用智能分词等。
词典配置:指定了词典的类型和词典文件的路径。IK 分词器支持多种类型的词典,包括主词典、量词词典、停止词典等。
扩展词典配置:用户可以在这里添加自定义的扩展词典,以覆盖或扩展默认词典的词汇。
智能分词配置:智能分词是一种基于统计的分词方法,可以识别新词或未登录词。
词性标注:如果启用,分词器会为每个词分配词性标签,这对于某些自然语言处理任务非常有用。
过滤配置:可以配置分词器过滤掉某些词,如停用词等。
其他高级配置:可能包括同义词处理、词干提取等高级功能。
IKAnalyzer.cfg.xml 文件允许用户根据需要调整分词器的行为,以适应不同的应用场景。通过修改这个配置文件,用户可以定制分词器的性能和输出结果。
新词是无法分辨的:奥利给、饭圈
<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"><properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">ext.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords">stopword.dic</entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> --></properties>
奥利给
英文是自带的
aanandareasatbebutbyforifinintoisitnonotofonorsuchthatthetheirthentherethesetheythistowaswillwith也了仍从以使则却又及对就并很或把是的着给而被让在还比等当与于但
压缩包的ik的config是在plugins/ik/config
es/config也有一个config
经过测试ik的config里的东西剪切复制到es/config/ik里才可以使用
可以用nginx进行热更新
Last-Modified
ETag
要有这两个标志
具体还要查