结合词相关特征与流行学习的中文问句分类
【摘要】:针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域2万多问句上进行了问句分类实验,结果表明提出的方法取得了较好的效果,分类准确率达到了87.44%,比采用TFIDF进行特征提取训练得到的分类器的准确率提高了16个百分点;比采用语义相似度进行特征提取,并对特征空间进行PCA降维后训练得到的分类器的分类准确率提高了4个百分点。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||
|