以前做过自然语言处理(nlp)的相关后端开发,之前也谈过搜索引擎Elasticsearch,它们都离不开一个基础性的工具~分词,放到Python里面也是处理文本的一个很基础常用的东西了,大致干的是这么一件事:将整句话按照一定匹配方法分成n个词语。例如:‘百度一下,你就知道’,可分为‘百度’、‘你’、‘就’、‘知道’,这几个词。
由于这是个基础性工具,Python作为一个机器学习,搞nlp的首选语言,基本上是调个包的事情,但Python的痛点大家也知道~普遍效率低!当时也没拜托搞Java的同志帮忙,就琢磨PHP能不能也搞一个,然后,就有了下面这篇介绍~
PHP中文分词扩展
安装
gitclone