收藏本站
《全国计算机安全学术交流会论文集(第二十四卷)》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

分词结果的再搭配对文本分类效果的增强

侯松  周斌  贾焰  
【摘要】:本文基于互信息理论,提出一种对中文文本分词后的初分词结果再次组合搭配,得到一个新的较小待选特征词集,用于后续特征选择及文本分类处理的方法。试验证明,采用这种方法,可以降低待选文本特征词空间维度,并消除部分较长词汇被错误切分、单字特征词包含信息不足的现象,与已有试验结果相比较,在中文文本分类结果上有明显的改进。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 魏博诚;王爱平;沙先军;王永;;一种消除中文分词中交集型歧义的方法[J];计算机技术与发展;2011年05期
2 赵国际;李竹林;赵宗涛;张宏;;文本分类技术及在军事情报中的应用[J];计算机技术与发展;2007年08期
3 刘政怡;吴建国;李炜;;基于交叉覆盖算法的中文分词[J];计算机工程与设计;2010年06期
4 朱小娟;陈特放;;基于SVM的词频统计中文分词研究[J];微计算机信息;2007年30期
5 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
6 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
7 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
8 石敏;康耀红;;一种联合的文本分类特征抽取函数[J];海南大学学报(自然科学版);2005年04期
9 洪智勇;秦克云;;基于模糊软集合理论的文本分类方法[J];计算机工程;2010年13期
10 周钦强,孙炳达,王义;文本自动分类系统文本预处理方法的研究[J];计算机应用研究;2005年02期
11 安艳辉;董五洲;游自英;;基于改进的朴素贝叶斯文本分类研究[J];河北省科学院学报;2007年01期
12 杨彦闯;杨炳儒;张克君;;基于联合提取特征的粗糙集文本分类技术研究[J];计算机应用研究;2007年07期
13 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期
14 刘海峰;王元元;姚泽清;陈琦;;文本分类中一种基于选择的二次特征降维方法[J];情报学报;2009年01期
15 史岳鹏;张明慧;朱颢东;;新的结合互信息和粗糙集的特征选择[J];计算机工程与应用;2011年16期
16 万小容;马帅;刘利军;;搜索引擎中分类技术研究[J];宁波广播电视大学学报;2008年02期
17 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
18 史会峰,谷根代,卢艳霞;基于贝叶斯扩张树的文本分类算法[J];华北电力大学学报;2004年05期
19 徐威;董渊;白若鹞;张素琴;;针对中文文本自动分类算法的评估体系[J];计算机科学;2007年08期
20 刘海峰;王元元;张学仁;;文本分类中一种改进的特征选择方法[J];情报科学;2007年10期
中国重要会议论文全文数据库 前10条
1 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
9 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国重要报纸全文数据库 前4条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
3 希安;微软试水信息检索[N];经济日报;2004年
4 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
5 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
10 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
4 张春红;文本分类在学科导航中的应用研究[D];成都理工大学;2007年
5 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年
6 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
7 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
8 邹丹;基于Web的中文文本分类的研究与实现[D];中国地质大学(北京);2006年
9 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
10 陈雅菊;现代汉语词语搭配的自动抽取方法[D];华东师范大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978