ElasticSearch篇——认识、安装和使用IK分词器插件,一篇文章带你彻底拿下!

这篇具有很好参考价值的文章主要介绍了ElasticSearch篇——认识、安装和使用IK分词器插件,一篇文章带你彻底拿下!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、什么是IK分词器
所谓分词,即把一段中文或者别的划分成一个个的关键字,我们在搜索时会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配的操作,默认的中文分词器是将每一个字看成一个词,比如“我爱中国”会被分成“我”、“爱”、“中”、“国”,这显然是不符合要求的,所以我们需要安装中文分词器IK来解决这个问题!

二、IK分词器的分词算法
1、ik__smart最少切分

2、ik_max_word最细粒度划分

三、安装IK
1、官网地址:GitHub - medcl/elasticsearch-analysis-ik: The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.

2、下载完毕之后,放入我们的elasticsearch的插件文件夹中

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

3、重启观察Elasticsearch
可以看到我们es启动的时候,加载了刚刚解压的ik插件 es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

4、也可以通过ES的bin下的elasticsearch-plugin.bat查看安装的插件
(1)在bin目录下,打开cmd输入命令

elasticsearch-plugin list

(2)可以查看当前安装的插件有哪些

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

5、使用kibana测试
(1)ik__smart最少切分:根据字典的配置,尽量少的对文档进行拆分
GET _analyze:这是通过RestFul风格请求分词器
“analyzer”:表示请求的分词要求(选择最少切分还是最细粒度!)
“text”:表示要分词的文本

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

(2)ik_max_word最细粒度划分:根据词库中的字典,最大程度的对文档内容进行拆分

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

四、配置IK分词器字典
假如我想对以下的内容进行分词,我不希望“长江东逝水”分开,这个时候就需要我们自己去配置一下属于我们自己的字典了

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

配置方法:
1、打开IK分词器的config配置文件夹

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

2、查看IKAnalyzer.cfg.xml配置文件

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

3、在目录下新建一个文件,后缀为.dic,把我们想配置的字典内容填进去
如果我们不希望把某个词给我拆开了,那么我就可以通过编写自己的配置字典,把文本输入进去,绑定到IKAnalyzer.cfg.xml配置文件中即可!

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

4、把我们自己配置的字典注入进来

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

5、重启ES和kibana
(1)观察ES细节,我们自己编写的字典被加载进来了!

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

(2)重启kibana即可

6、测试重新使用最少切分的算法,测试“滚滚长江东逝水”,是否把我们的“长江东逝水”拼接在一起了
成功!

es ik插件,ElasticSearch,elasticsearch,大数据,搜索引擎

将来我们所有需要自己配置特定的分词效果,直接在我们自己定义的dic文件中进行配置即可!!!!!!记得绑定到IKAnalyzer.cfg.xml配置文件中哦

至此,恭喜你已经掌握了安装和使用IK分词器,掌握了分词的基本规则。后续还会持续更新关于ES相关技术点,敬清期待~~~文章来源地址https://www.toymoban.com/news/detail-769825.html

到了这里,关于ElasticSearch篇——认识、安装和使用IK分词器插件,一篇文章带你彻底拿下!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 本地elasticsearch中文分词器 ik分词器安装及使用

    本地elasticsearch中文分词器 ik分词器安装及使用

    ElasticSearch 内置了分词器,如标准分词器、简单分词器、空白词器等。但这些分词器对我们最常使用的中文并不友好,不能按我们的语言习惯进行分词。 ik分词器就是一个标准的中文分词器。它可以根据定义的字典对域进行分词,并且支持用户配置自己的字典,所以它除了可

    2024年02月05日
    浏览(14)
  • Elasticsearch下载安装,IK分词器、Kibana下载安装使用,elasticsearch使用演示

    Elasticsearch下载安装,IK分词器、Kibana下载安装使用,elasticsearch使用演示

    首先给出自己使用版本的网盘链接:自己的版本7.17.14 链接:https://pan.baidu.com/s/1FSlI9jNf1KRP-OmZlCkEZw 提取码:1234 一般情况下 Elastic Search(ES) 并不单独使用,例如主流的技术组合 ELK(Elasticsearch + Logstash + Kibana ) 1. Elasticsearch下载 下载之前,先看下和 JDK 版本的对应关系,版本

    2024年02月05日
    浏览(17)
  • ElasticSearch之IK分词器安装以及使用介绍

    ElasticSearch之IK分词器安装以及使用介绍

    elasticsearch 默认的内置分词器对中文的分词效果可能并不理想,因为它们主要是针对英文等拉丁语系的文本设计的。如果要在中文文本上获得更好的分词效果,我们可以考虑使用中文专用的分词器。 IK 分词器是一个开源的中文分词器插件,特别为 Elasticsearch 设计和优化。它在

    2024年02月13日
    浏览(13)
  • elasticsearch插件ik分词器,无法启动解决方案

    elasticsearch插件ik分词器,无法启动解决方案

    首先7以后的版本一定要与es的版本保持一致 下载包只能下载这个路径的文件,版本号与自己的es版本保持一致 https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v8.6.0/elasticsearch-analysis-ik-8.6.0.zip这里可以直接替换    docker容器无法启动,可以删除宿主机的plugins文件夹后重新

    2024年02月15日
    浏览(9)
  • elasticsearch 安装 IK 中文分词器插件提示找不到文件的异常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    elasticsearch 安装 IK 中文分词器插件提示找不到文件的异常(Exception in thread “main“ java.nio.file.NoSuchFileException)

    错误截图 在命令行窗口,执行如下命令安装 IK 中文分词器 失败。 错误日志 1、自己到github下载对应版本的ik中文分词器 上面命令中两个插件版本号应该和 Elasticsearch 的版本保持一致,我现在用的是 7.14.1 版本。 首先版本和命令是对得上的。 命令行窗口通过命令下载失败的话

    2024年04月11日
    浏览(17)
  • windows安装Elasticsearch后使用ik分词器报错解决办法

    windows安装Elasticsearch后使用ik分词器报错解决办法

    最近在学习Elasticsearch,安装完成后下载了ik分词器压缩到plugins目录下启动es报错如下: 咋一看以为是es对应的jdk自带的权限不足导致的,查看jdk自带的文件查看权限没有发现问题:D:Code StudyTechnologyESelasticsearch-8.11.1jdklibsecurity下的default.policy 后面发现是路径带了空格,把

    2024年01月20日
    浏览(21)
  • CentOS 7 使用Docker方式搭建ElasticSearch 7.7.0 三节点集群,并配置elasticsearch-head插件,ik分词器,以及Kibana可视化平台

    CentOS 7 使用Docker方式搭建ElasticSearch 7.7.0 三节点集群,并配置elasticsearch-head插件,ik分词器,以及Kibana可视化平台

    IP 角色 172.16.31.191 elasticsearch-1 172.16.31.192 elasticsearch-2 172.16.31.193 elasticsearch-3 并创建相关挂载目录,3台虚拟机都要,如下 还要对文件夹加设置开放权限,如果不开放权限,则会报错无法写入数据的情况,3台虚拟机都要,如下 172.16.31.191 172.16.31.192 172.16.31.193 172.16.31.191 172.16.3

    2024年02月04日
    浏览(12)
  • ElasticSearch的使用,安装ik分词器,自定义词库,SpringBoot整合ES(增、删、改、查)

    ElasticSearch的使用,安装ik分词器,自定义词库,SpringBoot整合ES(增、删、改、查)

    保存一个数据,保存在哪个索引的哪个类型下,指定用哪个唯一标识(相当于,保存一个数据,保存在那个数据库中的哪个表中,指定主键ID) 例:PUT customer/external/1;在customer索引下的external类型下保存1号数据name为John Doe的数据 POST和PUT都可以新增数据 注意: POST 新增。如果

    2023年04月25日
    浏览(31)
  • windows环境基于Elasticsearch8.4.0的IK中文分词器的安装、部署、使用

    windows环境基于Elasticsearch8.4.0的IK中文分词器的安装、部署、使用

    目录 问题现象: 解决方法: 1、下载IK中文分词器 2、部署 3、使用 前言(选看)       最近在重温Elasticsearch,看来一下官网,都出到8.4.3版本了。想当初学的时候用的还是5.6.8,版本更新了很多意味着有大变动。           windows环境基于Elasticsearch8.4.0的IK中文分词器的安

    2024年02月13日
    浏览(17)
  • ElasticSearch插件plugin ik分词器,报错plugin-descriptor.properties

    ElasticSearch插件plugin ik分词器,报错plugin-descriptor.properties

    @ES日志中报错plugin-descriptor.properties NoSuchFileException 找不到这个文件plugin-descriptor.properties。 ` 如下图所示,下载的zip文件解压之后的情况,这里是不能放到elasticsearch的plugins中的。 分析:由于是java开发的分词器,这里很明显是maven项目的目录结构。所以要执行打包命令,生成

    2024年02月11日
    浏览(11)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包