收藏本站
《语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集》2003年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Winnow算法的文本过滤

赵林  夏迎炬  黄萱菁  吴立德  
【摘要】:本文提出了一种在自适应文本过滤中将Winnow分类器和基于向量空间模型(VSM)的分类器相结合的算法。在处理文本流时,只有被两个分类器都过滤出的文本才被判定为相关文本。文中详细描述了在我们的过滤系统中所使用的Winnow算法以及所进行的一系列证实其有效性的实验。结果显示Winnow分类器的采用在2002年度的TREC(文本检索会议)过滤任务中取得了显著的性能提高。

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 黄萱菁,夏迎炬,吴立德;基于向量空间模型的文本过滤系统[J];软件学报;2003年03期
【共引文献】
中国期刊全文数据库 前10条
1 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
2 贺卫红;曹毅;;基于向量空间模型文本过滤算法[J];系统工程;2005年10期
3 索红光;杨涛;;基于互信息的Web文档聚类方法[J];广西师范大学学报(自然科学版);2007年02期
4 伊文敏,高岩,王颖;评估信息过滤系统的方法及衡量标准概述[J];河北建筑工程学院学报;2004年02期
5 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期
6 王映,常毅,谭建龙,白硕;基于N元汉字串模型的文本表示和实时分类的研究与实现[J];计算机工程与应用;2005年05期
7 赵丰年;刘林;商建云;;基于概念的文本过滤模型[J];计算机工程与应用;2006年04期
8 张帆;杨炳儒;;基于文本过滤的数字图书馆个性化服务技术[J];计算机工程与应用;2006年31期
9 郭炜强;戴天;文贵华;;基于领域知识的专利自动分类[J];计算机工程;2005年23期
10 蒋学锋;;用户兴趣的结构和个性化服务的实现[J];计算技术与自动化;2005年04期
中国重要会议论文全文数据库 前5条
1 蒋建民;郭宏蕾;胡岗;张潼;;基于正则化Winnow算法的中文命名实体识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 赵纪元;李晗静;赵铁军;;汉语空间关系中射体识别问题的研究与分析[A];第三届学生计算语言学研讨会论文集[C];2006年
5 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
4 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 丁连红;基于信息流的个性化服务研究[D];中国科学院研究生院(计算技术研究所);2006年
9 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年
10 叶施仁;海量数据约简与分类研究[D];中国科学院研究生院(计算技术研究所);2001年
中国硕士学位论文全文数据库 前10条
1 田萱;基于Internet的信息检索若干问题的研究[D];山东师范大学;2003年
2 邓少鹍;几种人脸检测方法的研究[D];南京理工大学;2003年
3 方兰;基于局域网的信息推送系统[D];江西师范大学;2004年
4 谭利文;基于用户模型的个性化网络文献检索系统的研究与设计[D];吉林大学;2004年
5 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
6 吴娟;军用信息自动分类的研究与实现[D];南京理工大学;2004年
7 余敏;基于退化模型的目标识别方法研究[D];武汉大学;2004年
8 张敏;基于Web挖掘的个性化信息检索研究[D];山东科技大学;2004年
9 戴声扬;基于新的相似度量和相关反馈算法的图象检索系统[D];清华大学;2004年
10 岳思聪;面向电子阅读笔的文字识别算法研究[D];西北工业大学;2005年
【二级参考文献】
中国期刊全文数据库 前1条
1 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 陶惠;张妍;郝光权;;基于向量空间的文档聚类算法分析[J];电脑知识与技术;2011年20期
2 李卫东;陆玲;;融合VSM技术的PageRank算法研究与应用[J];计算机与现代化;2011年07期
3 李虎;邹鹏;贾焰;周斌;;一种基于MapReduce的分布式文本数据过滤模型研究[J];信息网络安全;2011年09期
4 申莹;徐东平;庞俊;;基于概念的中文博客情感极性聚类分析[J];计算机系统应用;2011年08期
5 潘正高;侯传宇;谈成访;;基于命名实体的Web新闻文本分类方法[J];合肥工业大学学报(自然科学版);2011年08期
6 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
7 夏火松;刘建;;文本相似度视角下的虚拟社区评论的可信性分析[J];现代情报;2011年09期
8 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
9 李志明;李善平;杨朝晖;林欣;;基于本体分割的本体映射算法[J];模式识别与人工智能;2011年02期
10 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期
中国重要会议论文全文数据库 前10条
1 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
7 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
9 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
中国重要报纸全文数据库 前5条
1 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 记者 徐建华;“绿色上网”新标准为手机扫黄[N];中国质量报;2010年
4 记者 徐建华;网络扫黄 标准帮忙[N];中国质量报;2010年
5 本报记者 徐建华;我国着力构建绿色上网标准体系[N];中国质量报;2009年
中国博士学位论文全文数据库 前10条
1 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
2 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
3 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
4 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
7 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
8 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
9 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
10 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 孙岩国;基于Internet的中文文本过滤系统的研究与实践[D];兰州理工大学;2004年
2 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
3 孙浩;基于主动学习的文本过滤系统的研究[D];北京邮电大学;2011年
4 周俊;一种不良文本过滤方法[D];电子科技大学;2012年
5 周聚;基于网络信息审计的文本过滤的研究与实现[D];苏州大学;2010年
6 邵建双;基于概念格的文本过滤系统的设计与实现[D];大连海事大学;2010年
7 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
8 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
9 张波;个性化Web搜索系统研究[D];燕山大学;2006年
10 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026