文章列表
 
您正在查看 "中文分词" 分类下的文章

2007-03-03 13:57

三.决策树分类 

决策树( Decision Tree )又称为判定树,是运用于分类的一种树结构。其中的每个内部结点( internal node )代表对某个属性的一次测试,每条边

 
2007-03-03 13:56
 
2006-11-09 11:01

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
风暴红QxRed @ 2006-04-20 20:38

下载地址

http://sites.google.com/site/huabkdoc/


中科院分词系统概述

这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释


〇、总体流程

考虑输入的一句话,sSentence="张华平欢迎您"

总体流程:

一、分词 "张/华/平/欢迎/您"

二、posTagging "张/q 华/j 平/j

 
2006-11-09 10:18
http://blog.csdn.net/group/ictclas4j/  另一种 ictclas java 版本 
 
2006-11-09 10:14


关键词: JNI    ICTCLAS    java    c++                                          

使用了北京师范大学陈天封装的java调用接口。由于ICTCLAS官方并没有发布DLL文件,但是发布了exe程序,和源码。陈天根据源码重新封装了DLL,并且做了相应的改动。
主要改动如下(copy自陈天):
因为免费版没有DLL提供,所以这个DLL是在分词.exe系统的源代码上改的,接口也和中科院的文档有些不一样.因为我觉得中科院提供的接口太多,用起来比较麻烦. 全部改动如下:
init函数:中科院的DLL没有参数,我提供两个参数,i=nOutputFormat,j=nOperateType,i和j的取值范围都是{0,1,2},有兴趣你可以改变一下init的方式试试看.
ICTCLAS_API bool ICTCLAS_SetOutputFormat(int nOutputFormat);
ICTCLAS_API bool ICTCLAS_SetOperType(int nOperateType);
这两个函数

 
2006-11-09 10:12
小叮咚采用的是逆向最大匹配分词法,算法简单,可以满足大部分的分词应用。现在已经集成到WebLucene项目中,开放源代码。有需要的朋友可以下载代码使用。
    这个版本还没有实现在一种面向搜索引擎的中文切分词方法 一文中提到的分词思路。比如: 汉字的StopWords,对标点符号的处理等等。
    也希望对分词感兴趣的朋友一起讨论实现改进实现小叮咚分词的切分效果。
   

    下面是Readme.txt中的内容:


使用说明:
-------------------------------------------------------------------------
||| !!! 注意分词的词库位置:
||| Util.java 中的配置路径一定要正确,指向:dict\chinesePhraseIndex
||| 词库包括3个文件:
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 个文件 1,485,227 字节
------------------

 
2006-11-09 10:07
 
2006-11-09 10:05

几个免费的中文分词模块

几个月前做毕业论文的时候需要用到中文分词技术,现在总结一下我所找到的资料。

一、什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。

中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。

Google的中文分词技术采用的是

 
 
   
 
 
文章分类
 
 
Hupoo(37)
 
 
 
我说(24)
 
 
程序(20)
 
 
 
 
Ruby(1)
 
 
 
   
 
文章存档
 
     
 
最新文章评论
  

回复yxj6073:licence expired 需要破解
 

您的这个会不会有licence expired的问题啊,能不能麻烦您给我发一份啊,我真的很是需要
 

需要进行注册,比较麻烦
 

能不能给我一份呀,急需ing啊…xubeibei_2006@126.com
 

最近正好急着写词性标注的论文呢。看了你的文章写得很详细。能否发个源代码看看啊?3
   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu