收藏本站
《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征句抽取的网页去重研究

彭渊  赵铁军  郑德权  于浩  
【摘要】:去除重复网页一直是信息检索领域的一个待解决的问题。本文基于双语文章的内容,提出了一种抽取特征词和特征句,判别跨语言重复网页的方法。并将其运用到了跨语言的重复网页的识别上。实验结果表明:该方法对双语重复网页的识别准确率在86%以上,对单语重复网页的识别准确率在97.5%以上,达到了实用的程度,同时,该方法对于双语平行语料的自动挖掘也有一定的帮助。

【参考文献】
中国期刊全文数据库 前3条
1 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
2 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期
3 李雪蕾,张冬茉;一种基于向量空间模型的文本分类方法[J];计算机工程;2003年17期
【共引文献】
中国期刊全文数据库 前10条
1 吴江宁;王晓欢;;面向呼叫中心的知识导航系统研究[J];大连理工大学学报;2009年06期
2 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
3 闫超;;基于改进的SVM线性可分文本分类算法[J];电脑开发与应用;2010年08期
4 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
5 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期
6 谢科;张辉;陈鹏;庞斌;;文本分类系统关键技术[J];广西师范大学学报(自然科学版);2007年02期
7 罗兴军;白晓波;;基于事件驱动模型的搜索引擎设计[J];电脑知识与技术;2011年28期
8 徐家良;;个性化服务在WAP中的应用[J];福建电脑;2012年02期
9 丁月华,文贵华,郭炜强;基于核向量空间模型的专利分类[J];华南理工大学学报(自然科学版);2005年08期
10 王祖析;;基于网页内容的网页消重高效检测算法研究[J];佳木斯大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前5条
1 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
3 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
4 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
5 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
中国博士学位论文全文数据库 前5条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
2 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
3 周斌;面向公众服务的电子政务研究[D];同济大学;2007年
4 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
5 周婷婷;基于代谢网络的系统发育重建方法研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 蔡颂梅;语义增强的关系相似度度量算法研究[D];华东师范大学;2011年
2 宋双;基于Berkeley DB的图像信息索引机制的设计与实现[D];南京航空航天大学;2009年
3 郝彦彬;基于agent的信息融合与信息过滤机制的研究与实现[D];西北工业大学;2003年
4 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
5 赵银春;用户浏览内容分析与用户兴趣挖掘[D];重庆大学;2004年
6 贝雨馨;基于意义信息增益的文本特征项权重计算方法[D];延边大学;2004年
7 孙小林;金融数据挖掘中的增量聚类算法及应用研究[D];华中科技大学;2004年
8 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
9 马志柔;中文信息检索分类技术的研究[D];北京化工大学;2005年
10 杨蓓虹;基于企业协作信息网平台的信息检索系统的设计与实现[D];苏州大学;2005年
【二级参考文献】
中国期刊全文数据库 前7条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
3 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
4 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
5 解冲锋,李星;补偿型的Sleeping expert文本分类算法[J];清华大学学报(自然科学版);2001年07期
6 周水庚,关佶红,胡运发;隐含语义索引及其在中文文本处理中的应用研究[J];小型微型计算机系统;2001年02期
7 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
【相似文献】
中国期刊全文数据库 前10条
1 刘晨晨;徐一新;;长尾理论视角下基于DCA的网络自助出版推荐系统[J];计算机系统应用;2011年07期
2 江小平;李成华;向文;张新访;;云计算环境下朴素贝叶斯文本分类算法的实现[J];计算机应用;2011年09期
3 徐欣;黄理灿;赵玉虹;;基于粗糙集特征加权的文本分类[J];浙江理工大学学报;2011年04期
4 黄名选;马瑞兴;兰慧红;;面向查询扩展的特征词频繁项集挖掘算法[J];现代图书情报技术;2011年04期
5 周国强;崔荣一;;基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J];中文信息学报;2011年04期
6 胥桂仙;向春丞;翁彧;赵小兵;杨国胜;;基于栏目的藏文网页文本自动分类方法[J];中文信息学报;2011年04期
7 王水利;黄广君;霍亚格;;基于语义分析的查询扩展方法[J];计算机工程;2011年16期
8 黄名选;朱家安;陈燕红;;面向查询扩展的词间正负关联规则挖掘算法[J];计算机工程与应用;2011年26期
9 王艳茹;马万军;温长峰;;相容商空间粒度下的话题倾向性研究[J];硅谷;2011年12期
10 许琦;;一种基于知网的文档语义模型构建方法[J];中国科技资源导刊;2010年04期
中国重要会议论文全文数据库 前10条
1 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
4 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
9 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 周永健;郑玉明;廖湖声;;基于模糊聚类的文本分类器[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
中国重要报纸全文数据库 前1条
1 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
中国博士学位论文全文数据库 前10条
1 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
2 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
3 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
4 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 徐敏;基于数据挖掘的Web信息检索研究[D];南京航空航天大学;2006年
7 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
8 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
9 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 徐静秋;面向搜索引擎的智能个性化研究[D];重庆大学;2008年
2 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年
3 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
4 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
5 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
6 李存青;中文意见挖掘中的特征词提取以及情感倾向分析[D];重庆大学;2010年
7 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
8 黄菲菲;半监督层次协同文本聚类研究[D];西南交通大学;2012年
9 宋明凯;互联网产品评论量化关键技术研究[D];哈尔滨工业大学;2011年
10 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026