侧边栏壁纸
博主头像
过去的,未来的博主等级

来日可期!

  • 累计撰写 277 篇文章
  • 累计创建 43 个标签
  • 累计收到 43 条评论

Elasticsearch安装中文分词器analysis-ik插件和简单使用

过去的,未来的
2021-01-04 / 0 评论 / 0 点赞 / 437 阅读 / 1,963 字 / 正在检测是否收录...
温馨提示:
本文最后更新于 2021-01-04,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

一、安装中文分词器插件

国内最常用的:

  • elasticsearch-analysis-ik
  • elasticsearch-analysis-pinyin
  • elasticsearch-analysis-stconvert
1、下载插件压缩包
wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.3.0/elasticsearch-analysis-ik-7.3.0.zip
2、将压缩包拷贝到es容器内部
  • 1)进入es容器内部,并创建插件目录。
    image.png
  • 2)使用exit命令退回宿主机,将压缩包拷贝到es容器刚才创建的目录下
docker cp /home/elasticsearch-analysis-ik-7.3.0.zip elasticsearch:/usr/share/elasticsearch/plugins/ik
  • 3)再次进入es容器内部,使用unzip命令将压缩包解压。
yum install unzip
unzip elasticsearch-analysis-ik-7.3.0.zip 
rm -rf elasticsearch-analysis-ik-7.3.0.zip 
  • 4)重启es。

二、简单使用

测试分词
  • ik_smart:
    image.png

image.png

  • ik_max_word:
    image.png
{
    "tokens": [
        {
            "token": "今天天气",
            "start_offset": 0,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "今天",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "天天",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "天气",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "真好",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 4
        }
    ]
}

ik_max_word: 会将文本做最细粒度的拆分,会穷尽各种可能的组合;

ik_smart: 会做最粗粒度的拆分。已被分出的词语将不会再次被其它词语占有。

0

评论区