收藏本站
《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于粗糙集的文本分类方法研究

卢娇丽  郑家恒  
【摘要】:本文旨在利用粗糙集优越的约简理论对文本进行分类。主要完成了以下几个方面的任务;对文本进行了预处理,包括分词、词性标注、停用词的过滤以及同义词的处理;改进了Okapi 权重计算公式,综合考虑了位置、词频、文本长度、反文档频率等因素,并对权值进行了离散化;实现了属性约简和规则抽取,首先利用区分矩阵对特征向量维数进行了初次压缩,然后通过相对约简计算再次压缩了特征向量维数,并生成了决策规则;采取了规则合成的策略,生成最终的决策规则;设计了一种文本与规则的匹配算法,使匹配过程尽可能简单有序。试验结果表明该方法是行之有效的。

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
2 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
3 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
4 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
5 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期
6 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期
7 王俊伟;吴纬;;基于支持向量机的装备维修保障专业优化[J];四川兵工学报;2010年09期
8 陈子昕;;基于SVM的文本分类系统设计与实现[J];东莞理工学院学报;2008年03期
9 李粤;安捷;李星;;排序融合算法在校园网搜索引擎中的应用[J];大连理工大学学报;2005年S1期
10 邵乐;于红;刘溪婧;綦孝姬;梁晓娜;;基于朴素贝叶斯的渔业文本分类器研究[J];大连水产学院学报;2010年01期
中国重要会议论文全文数据库 前10条
1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
2 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
3 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
5 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
6 石艳荣;孙丹宁;贺永强;;一种基于内容的邮件过滤模型的研究与性能分析[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
7 张璐;王景中;;基于HNC语境框架的文本相似度计算[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
9 程新荣;杨仁刚;;网页自动分类在搜索引擎上的应用研究[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年
10 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
3 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
8 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
9 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
10 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
7 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
8 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
9 苏麒匀;基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究[D];北京交通大学;2011年
10 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期
2 王珍珍;;粗糙集理论在文本分类算法中的应用[J];重庆科技学院学报(自然科学版);2009年04期
3 张东娜;刘博;;一个基于加权和组合降维的web文本分类系统[J];电脑知识与技术;2008年07期
4 朱勇;夏慧异;吴涛;;基于粗糙集的经济预警规则发现[J];大学数学;2008年06期
5 王冬;李恩良;赵同林;;数据挖掘在造林成活率中的应用[J];商情(教育经济研究);2008年04期
6 史月美;胡国华;;基于粗糙集的不完全相容的关联规则挖掘[J];电脑与信息技术;2010年03期
7 吕小勇;石洪波;;基于粗糙集的多标签文本分类算法[J];广西师范大学学报(自然科学版);2009年03期
8 金凯民;苗夺谦;段其国;;一种基于隐含子类信息的粗糙集中文文本分类方法[J];计算机科学;2008年02期
9 高建山;鲁士文;;图书馆网站分类评价方法研究——基于优势粗糙集理论的分析[J];计算机工程与应用;2011年08期
10 王名扬;于达仁;胡清华;;基于粗糙集约简的多分类器系统构造方法[J];计算机工程与应用;2010年03期
中国重要会议论文全文数据库 前10条
1 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 王刚;张志禹;;数据融合中粗糙集的应用技术研究[A];2006中国控制与决策学术年会论文集[C];2006年
4 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 盛立;刘希玉;高明;;基于粗糙集理论的数据挖掘算法研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前3条
1 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
2 希安;微软试水信息检索[N];经济日报;2004年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
6 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
7 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
8 崔广才;基于粗糙集的数据挖掘方法研究[D];吉林大学;2004年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 朱飞祥;远洋船舶调度数据挖掘技术研究与应用[D];大连海事大学;2008年
中国硕士学位论文全文数据库 前10条
1 王丽红;基于粗糙集理论的文本分类技术研究[D];天津师范大学;2009年
2 周倩;基于RS-SVM的中文文本分类研究[D];天津财经大学;2009年
3 李晶;基于粗糙集理论的电网故障诊断专家系统研究[D];中国电力科学研究院;2005年
4 王珍珍;基于粗糙集理论的文本分类算法研究及应用[D];山东师范大学;2007年
5 李雪斌;基于粗糙集理论的规则挖掘方法研究[D];江西师范大学;2002年
6 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
7 盛立;基于粗糙集理论的数据挖掘方法的研究[D];山东师范大学;2006年
8 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
9 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
10 闫晨;KNN文本分类研究[D];燕山大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026