收藏本站
《第四届全国信息检索与内容安全学术会议论文集(上)》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题关键词的新闻去重算法

沙芸  周俊武  张国英  
【摘要】:去除内容相同或相近的新闻是提高搜索引擎关键技术之一。提出了一种基于主题关键词的新闻去重算法。该方法可基于小规模语料库识别新词,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出能够表述文档主题的关键词集合。为了在相似新闻中挑选质量高的作为去重结果,需要进行聚类,本文采用动态生成相似文档类别标签的方法进行文档聚类。通过对该类文档总关键词的分析不断调整该类别的文档标签内容,从而适应变化的文档集合。最后,从相似文档类中选出一个或多个作为文档去重结果。本文所采用的聚类方法的好处是无需叠代计算,对文档只扫描一次。实验结果表明与传统方法相比排斥错误率降低了5%左右,运算速度提高了15-20%。
【作者单位】:北京石油化工学院计算机系
【基金】:国家863高科技项目(2006AA06G205)资助。
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
【共引文献】
中国期刊全文数据库 前10条
1 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
2 王雯;廖祥忠;;数字图像作品抄袭鉴定研究[J];大连理工大学学报;2011年S1期
3 刘双明;彭新光;;源程序与文档复制检测系统的研究[J];电脑知识与技术;2010年13期
4 刘韬;李向军;邱桃荣;龚科华;郭传俊;;一种基于相容粒计算模型的文章相似度计算方法[J];广西师范大学学报(自然科学版);2010年03期
5 赵俊杰;谢飞;;基于段落相似度的论文抄袭判定[J];电脑与电信;2008年08期
6 陈静;;基于HowNet的论文复制检测关键技术研究[J];福建师范大学学报(自然科学版);2011年06期
7 吴斐;唐雁;补嘉;;基于N-gram的VB源代码抄袭检测方法[J];重庆理工大学学报(自然科学);2012年02期
8 卢小康;王小华;王荣波;;一种句子级别的中文文本复制检测方法[J];杭州电子科技大学学报;2009年06期
9 胡明晓;DING Leon X;;一种用于抄袭识别的文档距离度量[J];计算机工程与应用;2010年07期
10 陈钒;冯志勇;李晓红;赵庚;;基于语言节奏的大规模文档去重算法研究[J];计算机工程与应用;2011年11期
中国重要会议论文全文数据库 前3条
1 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 ;An Approach to Computing Similarity Degree between Chinese Articles Based on Tolerance Granular Computing Model and its Application[A];Proceedings of 2010 Second International Asia Symposium on Intelligent Interaction and Affective Computing and 2010 Second International Conference on Innovation Management (ASIA-ICIM 2010)[C];2010年
3 ;A Novel Algorithm of Computing Similarity Degree between Chinese Articles Based on Tolerance Granular Computing Model[A];Proceedings of 2010 The 3rd International Conference on Computational Intelligence and Industrial Application(Volume 4)[C];2010年
中国博士学位论文全文数据库 前8条
1 于宝琴;成套电器企业异构数据整合及其物流系统的研究[D];天津大学;2006年
2 李卫;领域知识的获取[D];北京邮电大学;2008年
3 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
4 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
5 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
6 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
7 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
8 龙军;基于信任感知与演化的服务组合关键技术研究[D];中南大学;2011年
中国硕士学位论文全文数据库 前10条
1 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
2 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
3 陈林;基于指令词的软件特征技术研究[D];解放军信息工程大学;2010年
4 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年
5 李继中;基于相似性判定的密码算法识别技术研究[D];解放军信息工程大学;2009年
6 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
7 熊志勇;数据挖掘在反垃圾邮件领域中的应用与研究[D];南昌大学;2006年
8 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年
9 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
10 郭传鹏;计算机操作痕迹清除系统的研究与实现[D];解放军信息工程大学;2006年
【二级参考文献】
中国期刊全文数据库 前2条
1 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
2 卢汉清,孔维新,廖明,马颂德;基于内容的视频信号与图像库检索中的图像技术[J];自动化学报;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 张颖颖;谢强;丁秋林;;基于同义词链的中文关键词提取算法[J];计算机工程;2010年19期
2 尤文建,李绍滋,李堂秋;基于词汇链的文本过滤模型[J];计算机应用研究;2003年09期
3 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
4 程岚岚,何丕廉,孙越恒;基于朴素贝叶斯模型的中文关键词提取算法研究[J];计算机应用;2005年12期
5 张明宝;谢宗旺;;一种基于知网的中文词汇链构建算法研究[J];软件导刊;2008年10期
6 秦鹏;张华平;刘金刚;;基于新词发现技术的关键词提算法的研究[J];微计算机信息;2010年33期
7 谢飞;吴信东;胡学钢;李星华;江兆中;;基于语义联系的新闻网页关键词抽取[J];广西师范大学学报(自然科学版);2009年01期
8 黄水清;程冲;;基于既定词表的自适应汉语分词技术研究[J];现代图书情报技术;2006年05期
9 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期
10 裘江南;罗志成;叶鑫;;语义相关度算法在主题抽取中的适用性研究[J];情报学报;2009年01期
中国重要会议论文全文数据库 前10条
1 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
3 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
7 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
10 张巍;游宏梁;张吉才;;一种基于加权投票的术语自动识别方法[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
4 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
5 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
6 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
7 李绍滋;非结构化对等网络中的信息检索若干关键技术研究[D];国防科学技术大学;2009年
8 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
9 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
10 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 梁伟明;中文关键词提取技术[D];上海交通大学;2010年
2 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
3 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
4 谢晋;基于词跨度的中文文本关键词提取及在文本分类中的应用[D];浙江工业大学;2011年
5 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年
6 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年
7 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
8 肖欣延;基于词汇链和PageRank的多文档自动文摘研究[D];厦门大学;2008年
9 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
10 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026