1. WordSplitter COM component简介
WordSplitter COM component是我在PonySE WordSplitter v0.1.1版本的基础上进行的COM封装.
它是一个中文分词组件, 能对一段文本进行中文分词, 它可用于Windows平台下的COM环境, 如Asp, Asp.net等等. 其特点如下:
(1)分词速度快
(2)字典数据可以自己添加完善
(3)字典数据缓存, WordSplitter COM非常适合于Asp等脚本环境, 当WordSplitter第一次被加载到内存时, 会将所有的字典数据存放在内存当中, 以后再调用组件方法时, 将不再重新加载字典数据.
2. 如何安装WordSplitter COM组件
(1) 假设WordSplitter.dll位于d:\com\WordSplitter.dll, 则在命令提示符下输入:
regsvr32 d:\com\WordSplitter.dll
进行COM组件的注册.
(2) 由于组件需要dict.dat字典文件的支持, 所以当前系统必需存在dict.dat, 默认情况下它会到C盘根目录下去读取这个文件.
当然你也可以修改这个路径, 但这需要你做一些额外的工作: 设置两个系统环境变量PONYSE_DICT和PONYSE_KL
PONYSE_DICT的值表示字典文件的路径, PONYSE_KL的值表示字典文件中关键字的最大长度.
如果不存在这两个系统环境变量, WordSplitter组件将到c:\dict.dat去读取字典文件, 并且默认的关键字最大长度为16字节.
(3) 注册好COM组件, 并按(2)的要求安装好字典后, 即可使用.
3. 分词字典dict.dat的文件格式
dict.dat文件格式很简单, 每行表示一个关键词, 第一行又分为两部分, 第一部分表示关键字的内容, 第二部分表示关键字的编码.
需要注意的是这个文件的采用的是Unix文件保存格式, 即每一行只有换行符, 而没有回车符.
例如:
一个 1
我们 2
时间 3
中国 4
可以 5
公司 6
没有 7
信息 8
你可以任意扩充这个词典, 只要保证文件的结构正确. 如可以添加一个关键词:
中国人 100000000
4. 组件提供的方法
组件目前只提供了SplitToString方法和getKeywordIdList属性:
(1)SplitToString(content)方法
作用将content进行分词, content为字符串类型
(2)getKeywordIdList属性
得到上次SplitToString()方法产生的关键字编号
5. 使用的例子
见example.vbs
6. WordSplitter COM组件开发环境
我是在以下环境下开发此组件的:
操作系统: Windows XP sp2
编译工具: Microsoft Visual C++ 6.0
例子程序运行效果: