收藏本站
《全国计算机安全学术交流会论文集(第二十四卷)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

分词结果的再搭配对文本分类效果的增强

侯松  周斌  贾焰  
【摘要】:本文基于互信息理论,提出一种对中文文本分词后的初分词结果再次组合搭配,得到一个新的较小待选特征词集,用于后续特征选择及文本分类处理的方法。试验证明,采用这种方法,可以降低待选文本特征词空间维度,并消除部分较长词汇被错误切分、单字特征词包含信息不足的现象,与已有试验结果相比较,在中文文本分类结果上有明显的改进。

【参考文献】
中国期刊全文数据库 前3条
1 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
2 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
3 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
【共引文献】
中国期刊全文数据库 前10条
1 尹晓峰;;物理教学中涉及到的几种熵及其拓展简介[J];合肥师范学院学报;2010年06期
2 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
3 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
4 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
5 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
6 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
7 刘婷婷;;基于支持向量机的水稻纹枯病识别研究[J];安徽农业科学;2011年28期
8 高闯;王立东;周世宇;;基于支持矢量机的宫颈细胞分类[J];辽宁科技大学学报;2009年03期
9 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
10 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
6 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
7 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
8 ;Image Classification with Ant Colony Based Support Vector Machine[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 刘英林;刘洪鹏;査星云;宋扬;;基于SVM的热轧钢卷性能分析[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
4 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
5 陈志国;基于群体智能的机器视觉的关键技术研究[D];江南大学;2010年
6 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
7 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
8 刘建明;古代壁画图像保护与智能修复技术研究[D];浙江大学;2010年
9 汪加梅;关于量子熵的若干研究[D];浙江大学;2010年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 李二艳;刺激下拟南芥基因相关网络构建与分析[D];山东科技大学;2010年
6 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
7 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
8 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
9 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
10 方宇;小波支持向量机在交通流预测中的应用研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 衣英楠,马军;数字文档管理系统的设计与实现[J];山东大学学报(理学版);2005年02期
【相似文献】
中国期刊全文数据库 前10条
1 魏博诚;王爱平;沙先军;王永;;一种消除中文分词中交集型歧义的方法[J];计算机技术与发展;2011年05期
2 赵国际;李竹林;赵宗涛;张宏;;文本分类技术及在军事情报中的应用[J];计算机技术与发展;2007年08期
3 刘政怡;吴建国;李炜;;基于交叉覆盖算法的中文分词[J];计算机工程与设计;2010年06期
4 朱小娟;陈特放;;基于SVM的词频统计中文分词研究[J];微计算机信息;2007年30期
5 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
6 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
7 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
8 石敏;康耀红;;一种联合的文本分类特征抽取函数[J];海南大学学报(自然科学版);2005年04期
9 洪智勇;秦克云;;基于模糊软集合理论的文本分类方法[J];计算机工程;2010年13期
10 周钦强,孙炳达,王义;文本自动分类系统文本预处理方法的研究[J];计算机应用研究;2005年02期
中国重要会议论文全文数据库 前10条
1 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前4条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
3 希安;微软试水信息检索[N];经济日报;2004年
4 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
4 张春红;文本分类在学科导航中的应用研究[D];成都理工大学;2007年
5 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年
6 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
7 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
8 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
9 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
10 陈雅菊;现代汉语词语搭配的自动抽取方法[D];华东师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026