收藏本站
《Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

Improving Chinese Text Categorization by Outlier Learning

【摘要】:正Text categorization is one of the typical machine learning tasks that suffer from an incomplete training data problem. A main reason is the existence of outliers in training data, such as non-sense documents, documents mislabeled or lying on the border between different categories, and documents that are out of the defined categories, etc. Therefore, in a text categorization task, outlier learning technique could be adopted to improve text categorization. In this paper, an outlier learning based text categorization system is proposed, where AdaBoost algorithm is adopted for outlier identifying. Simulation results reveal that the new system is successful in improving learning performance for text categorization.
【分类号】:TP391.1

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 尹中航,王永成,蔡巍;应用支持向量机进行网上信息自动分类[J];高技术通讯;2001年11期
3 姚志湘;杨锦瑜;张倩;刘雪颖;陈晓伟;;Boosting算法及其在化学数据挖掘中的应用[J];广西工学院学报;2006年04期
4 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
5 张玉芳;陈剑敏;熊忠阳;;一种改进的贝叶斯文本分类方法[J];广西师范大学学报(自然科学版);2007年02期
6 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
7 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
8 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
9 陈丽,于浩,郑德权,赵铁军;基于文本内容的超链接分类研究[J];哈尔滨商业大学学报(自然科学版);2004年02期
10 李孝明,曹万华;舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J];舰船电子工程;2005年03期
中国重要会议论文全文数据库 前10条
1 陈峰;桂卫华;王随平;韩晓英;;深海底履带机器车的多神经网络预测控制[A];第二十三届中国控制会议论文集(下册)[C];2004年
2 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 Chenggen Shi and Jie Lu Faculty of Information Technology, University of Technology, Sydney Po Box 123, Broadway, NSW 2007, Australia;An Information Retrieval Model by Using Weighting Technology[A];Proceedings of the Second International Conference on Information and Management Sciences[C];2003年
4 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
5 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
6 Nuanwan Soonthornphisaj;Kanokwan Chaikulseriwat;Piyanan Tang-On;;Anti-Spam Filtering: A Centroid-Based Classification Approach[A];2002 6~(th) International Conference on Signal Processing Proceedings[C];2002年
7 SHI Hong-Bo;WANG Zhi-Hai;HUANG Hou-Kuan;Jing Li-Ping School of Computer and Information Technology, Northem Jiaotong University, Beiing, 100044;Text Classification Based on the TAN Model[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
8 Huang Ke;Ma Shaoping State Key Lab of Intelligent Technology and Systems, Department of Computer Science and Technology, Tsinghua University, 100084, Beijing, China;Text Categorization Based On Concept Indexing and Principal Component Analysis[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
9 眭新光;沈蕾;燕继坤;朱中梁;;基于Adaboost的文本隐写分析[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 Son Doan;Susumu Horiguchi;;A COMPARATIVE STUDY OF ROCHIO AND NAIVE BAYES ALGORITHMS ON REUTERS DATASET IN TEXT CATEGORIZATION[A];Proceedings of the Eleventh International Fuzzy Systems Association World Congress(Volume Ⅰ)[C];2005年
中国博士学位论文全文数据库 前10条
1 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
2 彭宏京;基于稀疏RAM的神经网络及其人脸识别应用研究[D];南京航空航天大学;2002年
3 张国江;软计算方法和数据挖掘理论在电力系统负荷预测中的应用[D];浙江大学;2002年
4 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
5 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
6 许廷发;GABOR小波神经网络算法及其在灰度图象目标识别中的应用研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2004年
7 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
8 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
9 阳爱民;模糊分类模型的研究[D];复旦大学;2005年
10 田新广;基于主机的入侵检测方法研究[D];国防科学技术大学;2005年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
3 姬水旺;强噪声和类间重叠数据下支持向量机学习的研究[D];武汉科技大学;2002年
4 杨昂;文本分类算法研究[D];湖南大学;2002年
5 李曼;基于JEP的分类算法研究[D];郑州大学;2002年
6 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
7 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
8 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
9 吴小明;考虑气象条件下的电力系统短期负荷预测研究[D];浙江大学;2003年
10 汤培峰;气体分离装置操作优化的智能化方法[D];浙江大学;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026