收藏本站
《第六届全国信息检索学术会议论文集》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Low-IDF-SIG的句子重复检测

俞昊旻  张玥  张奇  黄萱菁  
【摘要】:随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的拷贝检测正是解决这类问题的一个必要步骤。本文提出了一种有效并且快速的句子级别的特征抽取方法——Low-IDF-Sig算法,并基于该算法实现了一个可以高效地找出句子级别拷贝的检测系统。为了对本文提出的方法的精度及效率进行评测,我们还在一个真实的语料库上对提出的方法与其他方法进行了比较。实验结果证明本文提出的方法能有效地提高句子级别的拷贝检测任务的效率和精度。
【作者单位】:复旦大学计算机科学与技术学院
【分类号】:TP391.1

手机知网App
【共引文献】
中国期刊全文数据库 前1条
1 熊忠阳;牙漫;张玉芳;;基于网页正文结构和特征串的相似网页去重算法[J];计算机应用;2013年02期
中国重要会议论文全文数据库 前1条
1 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国硕士学位论文全文数据库 前2条
1 刁宇峰;基于博客的作者声誉度分析[D];大连理工大学;2011年
2 冯胜;基于正文结构和长句提取的网页去重研究[D];重庆大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 黄文集;基于最小序句子的上下文无关语言句子枚举[J];计算机研究与发展;2004年01期
2 小东;听我说[J];网络与信息;2004年06期
3 刘松;蓝鹰;;语言{(I~n)~3|n>=1}的一个文法描述[J];电脑学习;2008年05期
4 ;语言及其表示法[J];计算机工程与应用;1977年Z2期
5 谢金宝,孙介铭;机器翻译中的段、句、字自动切分技术[J];计算机工程与设计;1987年06期
6 李华;商金芳;秦少康;;小规模英语语料库的构建途径[J];中国科技信息;2007年11期
7 李公宜 ,李海飙;论汉字编码的最短极限码长——“一字一键”析[J];自然杂志;1991年06期
8 吴义忠;刘敏;陈立平;;多领域物理系统混合建模平台开发[J];计算机辅助设计与图形学学报;2006年01期
9 曹琼;;LL(1)预测分析程序设计与实现[J];重庆工学院学报(自然科学版);2007年08期
10 张奇,黄萱菁,吴立德;一种新的句子相似度度量及其在文本自动摘要中的应用[J];中文信息学报;2005年02期
中国重要会议论文全文数据库 前10条
1 俞昊旻;张玥;张奇;黄萱菁;;基于Low-IDF-SIG的句子重复检测[A];第六届全国信息检索学术会议论文集[C];2010年
2 康生巧;白宇;韩亚冬;蔡东风;;基于句子相似的古今句子检索[A];第六届全国信息检索学术会议论文集[C];2010年
3 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 鲁川;;信息处理用汉语句子语序的认知研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 曹冬林;李堂秋;史晓东;蔡经球;;机器翻译测评结果的一致性[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 陆俭明;王黎;;句处理中排歧问题补议[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 宁振江;杜利民;;面向语音识别声学模型的汉语语料抽选方法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年
中国重要报纸全文数据库 前10条
1 本报记者 陈磊;语音识别技术,让你“动口不动手”[N];科技日报;2006年
2 刘群 ;机器翻译距离实用还远吗?[N];计算机世界;2006年
3 武晓黎;翻译软件让语言不同的人能彼此聆听[N];中国消费者报;2006年
4 HL;微软拼音又有新技巧[N];中国计算机报;2005年
5 记者 杨麟通讯员 汤波 张晓明 曾尉;父子联手开发一项新输入法[N];湖北日报;2007年
6 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
7 李大庆;CASIA口语翻译系统在国际评测中夺魁[N];科技日报;2007年
8 谌力;第三代搜索,Google的心病[N];网络世界;2006年
9 黄瑾刘洋 刘群;机器翻译的自动评测技术[N];计算机世界;2007年
10 清水编译;选择合适的内容管理系统[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
2 黄文集;形式规约语言LFC的实现和应用研究[D];中国科学院研究生院(软件研究所);2004年
3 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
6 刘玉玲;自然语言信息隐藏研究[D];湖南大学;2008年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
9 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
10 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
中国硕士学位论文全文数据库 前10条
1 俞昊旻;文档部分重复检测研究[D];复旦大学;2012年
2 朱耀;从大规模Web语料中获取常识语料[D];中国科学院研究生院(计算技术研究所);2008年
3 宋艳雪;基于关联规则和图排序的句子情感倾向性研究[D];大连理工大学;2011年
4 林一旻;基于不同特征权重的中文网页自动摘要[D];华侨大学;2007年
5 邵伟;面向查询的多文档自动文摘研究[D];华中师范大学;2008年
6 赵火军;基于引文链的知识元挖掘方法研究[D];西安电子科技大学;2009年
7 王洪;基于句法变换的自然语言文本水印技术研究[D];湖南大学;2008年
8 王敏;音频样例优选与重复检测方法[D];哈尔滨工业大学;2011年
9 康生巧;中医药知识检索系统的研究与实现[D];沈阳航空航天大学;2011年
10 刘小军;基于多语种平行语料库的机器辅助翻译系统[D];北京信息控制研究所;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026