收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科类别的文本特征表示

王锦  王会珍  张俐  
【摘要】:本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,本文提出了一种基于全局信息自学习维基百科类别的方法。本文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在特征数为700个时,分类的F1值提高了5.14%。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 方志龙;;文本特征选择算法MI的改进[J];计算机与现代化;2011年07期
2 李爱华;柏延臣;;多源遥感专题信息比较研究:现状、问题与展望[J];地球科学进展;2011年07期
3 金艳;;手机短信的文本功能及特征分析[J];今传媒;2011年07期
4 席峰;;基于命名实体及关系的网页文本关联分析方法[J];微电子学与计算机;2011年08期
5 陈叶旺;余金山;;一种改进的朴素贝叶斯文本分类方法[J];华侨大学学报(自然科学版);2011年04期
6 卢志翔;蒙丽莉;;文本分类中特征项权重算法的改进[J];柳州师专学报;2011年04期
7 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
8 卜道成;陈飞;纪传舜;;MVP:基于CCA的多视图数据相关性预测方法[J];计算机应用与软件;2011年08期
9 唐云;罗俊松;;基于粗糙集和BP神经网络的文本分类研究[J];计算机仿真;2011年06期
10 张萱;;“散文化新闻”研究流变和思维路径[J];新闻前哨;2011年09期
11 沈友文;赵新建;徐俊;;一种改进的集中度和分散度文本特征选择算法[J];计算机应用与软件;2011年09期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 孔维泽;刘奕群;张敏;马少平;;问答社区中回答质量的评价方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 喻飞;张林峰;廖桂平;沈岳;;基于模糊神经网络的信息安全审计系统[A];第25届中国控制会议论文集(中册)[C];2006年
5 王敏;;典籍英译中的“博弈论”—从关联翻译理论看《庄子·逍遥游》两家英译之个案研究[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
6 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 代劲;何中市;胡峰;;一种高性能的文本特征自动提取算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
8 郑佳谦;徐隽;姚静;牛军钰;;论坛社区用户时空特征建模与挖掘[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
10 潘丽;邹建成;;一种基于英文文本内容的零水印新算法[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 胡根红;中国古代小品文研究[D];陕西师范大学;2008年
2 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
5 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
6 林元富;论伊什梅尔·里德后现代主义小说戏仿艺术[D];厦门大学;2008年
7 李桔元;广告语篇中的意识形态研究[D];上海外国语大学;2007年
8 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
9 黄鹏;基于文本和视觉信息融合的Web图像检索[D];浙江大学;2008年
10 何儒汉;Web图像的多模融合检索研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 林楠;文本特征选择算法研究[D];辽宁师范大学;2010年
2 刘志红;多语种多类别体系下文本自动分类系统的研究与实现[D];东北大学;2010年
3 彭寅;基于文本特征分析的钓鱼邮件检测技术研究[D];南京邮电大学;2012年
4 董润芝;文本中场景识别的研究与分析[D];哈尔滨工业大学;2010年
5 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
6 王宏伟;文本特征与二语写作水平关系研究[D];国防科学技术大学;2011年
7 白新国;基于主题图的教育文献资源组织模型与应用研究[D];华中师范大学;2008年
8 邹星旺;古代戏曲中的用赋研究[D];江西师范大学;2008年
9 于亮;科技文献的文本特征抽取研究与应用[D];北京邮电大学;2009年
10 封超;基于信息熵的文本特征加权方法研究[D];郑州大学;2012年
中国重要报纸全文数据库 前10条
1 蔚蓝;风,穿越细微,覆盖辽阔[N];文艺报;2006年
2 肖自强;列维纳斯:“说”或者“写”[N];中国图书商报;2007年
3 匡钊;批评理论[N];光明日报;2002年
4 杨斌华;性别书写与诗歌想像[N];文学报;2006年
5 ;可搜索的视频:又一座金矿[N];网络世界;2010年
6 晓阳;多元文化视角下的地域文学研究[N];吉林日报;2004年
7 古耜;在生命的河床里披沙拣金[N];文学报;2004年
8 樊发稼 作者系中国社科院文学所研究员;儿童文学生态及其他[N];文艺报;2005年
9 唐建清;破碎的城市 破碎的生活[N];文学报;2005年
10 商报记者 江筱湖;和谐务实高效的“实在”会[N];中国图书商报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978