收藏本站
《2008'中国信息技术与应用学术论坛论文集(一)》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

舆情分析中语料库降维

梁飞  吕洪波  姚锦峰  
【摘要】:要对语料库中的海量文章的主题进行识别和归类,要占用大量的空间资源和时间。为了节省空间资源和时间资源,提高主题识别和归类的效率和准确性,有必要对语料库中的数据进行降维处理,并转换成合乎 SVM 的数据格式。每篇文章中都含有大量的停止词和无关紧要的高频词,它们与主题无关,却占用了大量的资源,应该对这类词进行处理,提高主题识别和归类的效率和准确性。通过对这两类词语的处理,大大降低了语料库所占用的空间,并且提高了主题识别和归类的速率。

【共引文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 尹中航,王永成,蔡巍;应用支持向量机进行网上信息自动分类[J];高技术通讯;2001年11期
3 唐懿芳 ,牛力 ,傅赛香 ,严小卫;文本的自动分类[J];广西师范大学学报(自然科学版);2001年04期
4 张玉芳;陈剑敏;熊忠阳;;一种改进的贝叶斯文本分类方法[J];广西师范大学学报(自然科学版);2007年02期
5 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
6 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
7 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
8 陈丽,于浩,郑德权,赵铁军;基于文本内容的超链接分类研究[J];哈尔滨商业大学学报(自然科学版);2004年02期
9 李孝明,曹万华;舰载作战指挥系统软件构件库技术研究(续三):检索和管理[J];舰船电子工程;2005年03期
10 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
中国重要会议论文全文数据库 前10条
1 朱艳辉;王平;周咏梅;;一种基于Agent的中文Web信息自动检索系统(英文)[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
2 Chenggen Shi and Jie Lu Faculty of Information Technology, University of Technology, Sydney Po Box 123, Broadway, NSW 2007, Australia;An Information Retrieval Model by Using Weighting Technology[A];Proceedings of the Second International Conference on Information and Management Sciences[C];2003年
3 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 Nuanwan Soonthornphisaj;Kanokwan Chaikulseriwat;Piyanan Tang-On;;Anti-Spam Filtering: A Centroid-Based Classification Approach[A];2002 6~(th) International Conference on Signal Processing Proceedings[C];2002年
5 SHI Hong-Bo;WANG Zhi-Hai;HUANG Hou-Kuan;Jing Li-Ping School of Computer and Information Technology, Northem Jiaotong University, Beiing, 100044;Text Classification Based on the TAN Model[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
6 Huang Ke;Ma Shaoping State Key Lab of Intelligent Technology and Systems, Department of Computer Science and Technology, Tsinghua University, 100084, Beijing, China;Text Categorization Based On Concept Indexing and Principal Component Analysis[A];2002 IEEE Region 10 Conference on Computers, Communications, Control and Power Engineering Proceedings[C];2002年
7 Son Doan;Susumu Horiguchi;;A COMPARATIVE STUDY OF ROCHIO AND NAIVE BAYES ALGORITHMS ON REUTERS DATASET IN TEXT CATEGORIZATION[A];Proceedings of the Eleventh International Fuzzy Systems Association World Congress(Volume Ⅰ)[C];2005年
8 周雪忠;方青;吴朝晖;;中文文本分类特征表示及分类方法比较研究[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
9 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 邬郑;吕晓莉;晋耀红;;将HNC领域引入文本分类的尝试与探讨[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
2 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
3 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
4 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
5 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
6 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
7 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
8 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
9 谭建龙;串匹配算法及其在网络内容分析中的应用[D];中国科学院研究生院(计算技术研究所);2003年
10 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
3 杨昂;文本分类算法研究[D];湖南大学;2002年
4 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
5 石霞军;邮件信息过滤算法研究与实现[D];湖南大学;2002年
6 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
7 王汉萍;粗糙集理论在文本挖掘的分类算法中的应用研究[D];中国海洋大学;2003年
8 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
9 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
10 湛燕;K-近邻、K-均值及其在文本分类中的应用[D];河北大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 吴守用;;基于SVM的哈萨克语文本分类初探[J];现代计算机(专业版);2010年04期
2 曹建芳,郑家恒;基于SVM的汉语动词短语识别[J];咸阳师范学院学报;2004年06期
3 王祖辉;姜维;;基于支持向量机的垃圾邮件过滤方法[J];计算机工程;2009年13期
4 王达;张坤;;基于支持向量机和转换的错误驱动学习方法的组块识别[J];南阳师范学院学报;2009年06期
5 周惠巍;杨洋;黄德根;;基于远距离依存关系的中文依存关系解析[J];计算机工程;2007年24期
6 周文翠;袁春风;;并列复句的自动识别初探[J];计算机应用研究;2008年03期
7 赵伟;李丹;;SVM与错误驱动学习相结合的中文人名识别[J];长春工业大学学报(自然科学版);2009年04期
8 韩习武;赵铁军;;汉英动词次范畴化对应类型的统计分析[J];计算机科学;2010年03期
9 刘美茹;;基于LSI和SVM的文本分类研究[J];计算机工程;2007年15期
10 李荣;郑家恒;;三种方法的NP识别比较实验研究[J];通化师范学院学报;2007年04期
中国重要会议论文全文数据库 前10条
1 梁飞;吕洪波;姚锦峰;;舆情分析中语料库降维[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
2 张凡;贺苏宁;;支持向量机在多语种电话语音识别中的应用[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
3 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
4 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
5 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
6 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
7 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
8 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
9 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
10 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
2 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
3 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
4 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
5 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
6 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
7 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
8 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
9 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
10 杨金芳;支持向量回归在预测控制中的应用研究[D];华北电力大学(河北);2007年
中国硕士学位论文全文数据库 前10条
1 刘艳伟;支持向量机方法在感潮河段洪峰水位预报中的应用[D];浙江大学;2010年
2 杨镭;支持向量机算法设计及在高分辨雷达目标识别中的应用[D];国防科学技术大学;2010年
3 童振;基于支持向量机的电解液成分预测[D];东北大学;2008年
4 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
5 鄢常亮;基于支持向量机的高炉向凉向热炉况预测研究[D];内蒙古科技大学;2010年
6 韩叙东;基于支持向量机的水电故障分类器的设计与实现[D];东北大学;2008年
7 冯杰;慢时变对象的支持向量机建模与在线校正方法研究[D];东北大学;2009年
8 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
9 王奇安;基于广泛内核的CVM算法研究及参数C的选择[D];南京航空航天大学;2009年
10 张永新;基于支持向量机和遗传算法相结合的模拟电路故障诊断方法研究[D];东北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026