VicWord - 纯 PHP 分词工具:高效、灵活的中文文本分词解决方案

VicWord 是一款高效且灵活的纯 PHP 分词库,由开发者 lizhichao 创建并维护。它内置多种分词策略,满足从简单到复杂的各种文本处理需求。

VicWord 的特点

  • 性能卓越:在特定硬件环境下,最高每秒可处理 140 万字符,速度远超同类产品。

  • 灵活性高:支持多种分词策略,用户可根据实际需求选择最合适的模式。

  • 自定义词典:用户可以添加自定义词语到词库,支持文本格式(JSON)和二进制格式(igb)。

技术分析

VicWord 提供了三种不同的分词方法:

  • getWord:以长度优先,追求速度最大化,适用于对分词精度要求不高的场景。

  • getShortWord:细粒度切分,虽然速度稍慢,但能获取更详尽的分词结果。

  • getAutoWord:自动切分,结合长度与上下文信息,兼顾速度和准确性,是默认推荐的分词模式。

应用场景

VicWord 可广泛应用于以下领域:

  • 搜索引擎优化:提高关键词匹配,提升搜索结果的相关性。

  • 自然语言处理:分词是文本处理的基础,VicWord 可用于构建聊天机器人、文本分类等应用。

安装步骤

可以直接通过compost 安装

composer require lizhichao/word

或者自行去下载源码使用

https://github.com/lizhichao/VicWord

分词说明

  • 含有3种切分方法

    • getWord 长度优先切分 。最快

    • getShortWord 细粒度切分。比最快慢一点点

    • getAutoWord 自动切分 。效果最好

  • 可自定义词典,自己添加词语到词库,词库支持文本格式json和二级制格式igb 二进制格式词典小,加载快

  • dict.igb含有175662个词,欢迎大家补充词语到 dict.txt ,格式(词语 \t idf \t 词性)

    • idf 获取方法 百度搜索这个词语 Math.log(100000001/结果数量),如果你有更好的方法欢迎补充。

    • 词性 [标点符号,名词,动词,形容词,区别词,代词,数词,量词,副词,介词,连词,助词,语气词,拟声词,叹词] 取index ;标点符号取0

  • 三种分词结果对比文章来源地址https://www.toymoban.com/diary/php/778.html

代码示例

require 'vendor/autoload.php';

use Lizhichao\Word\VicWord;

$fc = new VicWord();
$arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语

$arr =  $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒

$arr = $fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒

//对比
//qq的分词 http://nlp.qq.com/semantic.cgi#page2 
//百度的分词 http://ai.baidu.com/tech/nlp/lexical

到此这篇关于VicWord - 纯 PHP 分词工具:高效、灵活的中文文本分词解决方案的文章就介绍到这了,更多相关内容可以在右上角搜索或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

原文地址:https://www.toymoban.com/diary/php/778.html

如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用
零基础学习谷歌SEO的全面指南:提升网站排名和流量
上一篇 2024年05月31日 09:51
localhost与127.0.0.1的区别及IPv6中的对应情况
下一篇 2024年06月22日 17:17

相关文章

  • 中文分词入门:使用IK分词器进行文本分词(附Java代码示例)

    中文分词是将连续的中文文本切分成一个个独立的词语的过程,是中文文本处理的基础。IK分词器是一个高效准确的中文分词工具,采用了\\\"正向最大匹配\\\"算法,并提供了丰富的功能和可定制选项。 细粒度和颗粒度的分词模式选择。 可自定义词典,提高分词准确性。 支持中文

    2024年02月17日
    浏览(62)
  • Python文本分析之中文分词(jieba库)

    (1)全自动安装 (2)半自动安装 首先登入https://pypi.org/project/jieba/下载安装包 最后解压安装包: python setup py install (3)手动安装 首先登入https://pypi.org/project/jieba/下载安装包 最后把jieba目录放置在site-packages目录内 语法: jieba.cut(sentence, cut_all=False, HMM=True, use_paddle=False) 功能

    2024年02月07日
    浏览(60)
  • 低代码助力ERP开发:实现负担得起、灵活与高效的解决方案

    企业资源规划工具或 ERP 不再为大型国际企业所保留。如今,从 SME 到大型企业,各种规模的企业都使用 ERP 软件来管理其核心流程。全球ERP 软件市场每年价值超过 250 亿美元,年增长率为 10% 到 20%。如此巨大增长的原因是什么? ERP 系统将您所有不同的工具/应用程序(包括库

    2024年02月19日
    浏览(87)
  • 文本分析-使用jieba库进行中文分词和去除停用词(附案例实战)

      🤵‍♂️ 个人主页:@艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+         中文分词是将中文文本切分成一系列有意义的词语的过程。中文分词可以用于

    2024年02月11日
    浏览(76)
  • 详细介绍NLP中文分词原理及分词工具

    正向最大匹配算法FMM 从左到右扫描文本,得到词的最大匹配。 案例分析: 用正向最大匹配法对“秦皇岛今天晴空万里”进行中文分词,见下表。 词典 :“秦皇岛”“岛”“今天”“天晴”“晴空万里”“万里”…… 根据当前词典,单词扫描的最大长度 max=4 正向最大匹配函

    2023年04月17日
    浏览(59)
  • 【Rust 基础篇】Rust 模式:高效、安全和灵活的匹配工具

    在编程中,经常需要对数据进行匹配和处理,例如从一个复杂的数据结构中提取特定的值,或者根据不同的情况执行不同的逻辑。Rust是一门现代的系统编程语言,它引入了一种称为\\\"模式\\\"(Pattern)的强大特性,使得数据的匹配和处理变得高效、安全和灵活。本篇博客将深入探

    2024年02月08日
    浏览(81)
  • 集成多元算法,打造高效字面文本相似度计算与匹配搜索解决方案,助力文本匹配冷启动[BM25、词向量、SimHash、Tfidf、SequenceMatcher]

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目实战总结、技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排)、系统架构、常见问题、算法项目

    2024年02月05日
    浏览(79)
  • FastText:高效的文本分类工具

    ❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈 (封面图由文心一格生成) 随着大数据时代的到来,文本分类成为了自然语

    2024年02月13日
    浏览(70)
  • 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络,且它亦支持其它98种语言的自动语音辨识。 Whisper系统所提供的自动语音辨识(Automatic Speech Recognition,ASR)模型是被训练来运行语音辨识与翻

    2024年02月13日
    浏览(80)
  • 微前端实战:打造高效、灵活的前端应用架构

    随着互联网行业的快速发展,前端应用的规模和复杂度也在不断增加。为了应对这种挑战,越来越多的企业和开发者开始探索新的前端架构模式。微前端作为一种新兴的前端架构模式,凭借其高度模块化、独立部署、易于扩展等特点,逐渐成为了业界的热门话题。本文将通过

    2024年02月05日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包