小叮咚采用的是逆向最大匹配分词法,算法简单,可以满足大部分的分词应用。现在已经集成到WebLucene项目中,开放源代码。有需要的朋友可以下载代码使用。
这个版本还没有实现在
一种面向搜索引擎的中文切分词方法 一文中提到的分词思路。比如: 汉字的StopWords,对标点符号的处理等等。
也希望对分词感兴趣的朋友一起讨论实现改进实现小叮咚分词的切分效果。
下面是Readme.txt中的内容:
使用说明:
-------------------------------------------------------------------------
||| !!! 注意分词的词库位置:
||| Util.java 中的配置路径一定要正确,指向:dict\chinesePhraseIndex
||| 词库包括3个文件:
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 个文件 1,485,227 字节
------------------