分类模型是文本分类的核心技术,大体上文本分类模型可以分为两种:基于规则的文本分类和基于统计的文本分类。在基于规则的分类技术中首先需要根据某种假设建立起可用于分类的规则,该规则包括了文本的表示方法,类别的表示方法,文本与类别的映射方式等等,之后通过训练过程来完成规则的完善和调整,训练后则可以使用该规则来决定文本的类别完成分类。决策树decision tree神经网络,支持向量机support vector machine等都是属于基于规则的分类方法(有争议,因为明显svm是基于统计学习理论的,但同时svm跟NN关系密切).基于规则的分类方法理论基础强,合理性高,而且分类的规则易于为人们所理解,也易于改写成其他形式。但基于规则的分类方法实用性很差。这是因为现实中的数据集颇为庞大,在此种情况下,训练时规则的建立调整过程效率会很低。应用规则完成分类的效率也较差,此时基于规则的分类方法往往显得力不从心。
在基于统计的分类方法中,或者依据某种统计后得到的客观规律,或者采用某种统计学中的定律,来完成分类器的建立工作,该种方法中的训练过程多为训练集上的某种统计和计算过程得到某些可以代表文本与类别之间关系的数据,在分类时分类器给出的通常为某种概率结果,比
