收藏本站
《中国索引学会第三次全国会员代表大会暨学术论坛论文集》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

一个基于特征向量的近似网页去重算法

曹玉娟  牛振东  彭学平  江鹏  
【摘要】:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages)。试验证明,比起其它网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
【共引文献】
中国期刊全文数据库 前10条
1 张玉叶;李连;刘海见;王春歆;;文本过滤中的特征抽取应用研究[J];海军航空工程学院学报;2005年01期
2 邹金凤,林鸿飞,杨志豪;文本分类中多分类器的综合机制[J];计算机工程与应用;2005年26期
3 王秀娟,郭军,郑康锋;文本分类中一种新的特征选择方法[J];计算机应用;2005年03期
4 陈炯,张永奎;一种基于词聚类的中文文本主题抽取方法[J];计算机应用;2005年04期
5 蒋伟贞,陶宏才;基于类别的特征选择算法的文本分类系统[J];计算机应用;2005年11期
6 李艳玲;戴冠中;朱烨行;;基于类别空间模型的文本倾向性分类方法[J];计算机应用;2007年09期
7 李卫;刘建毅;何华灿;王枞;;基于主题的智能Web信息采集系统的研究与实现[J];计算机应用研究;2006年02期
8 李文;王炜立;洪胜华;;基于互信息的特征提取方法在中文法律案情文本分类中的改进及应用[J];科技广场;2006年11期
9 林鸿飞,杨志豪,赵晶;基于内容和合作模式的信息推荐机制[J];中文信息学报;2005年01期
10 万中英,王明文,廖海波;基于投影寻踪的中文网页分类算法[J];中文信息学报;2005年04期
中国重要会议论文全文数据库 前7条
1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
2 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
3 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 唐慧丰;谭松波;程学旗;;监督学习方法在语气挖掘中的应用研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 Zhenxing Wang Jingbo Zhu Institute of Computer Software and Theory,Northeastern University Shenyang,China,110004;Improving K-NN Text Categorization by Bootstrap Technique[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
7 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
3 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
4 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
5 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
6 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
7 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
8 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
9 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 何尧;基于半监督学习的中文文档分类技术研究[D];中南大学;2005年
2 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
3 汤赛丽;常识知识问答系统中知识库构建的研究与设计[D];河南大学;2005年
4 邹金凤;基于综合评价理论的多分类器容器[D];大连理工大学;2005年
5 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
6 骆昌日;基于统计方法的中文文本自动分类研究[D];华中师范大学;2004年
7 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
8 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
9 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
10 汤华丽;SVM中两类常用分类方法的关系研究[D];重庆大学;2005年
【同被引文献】
中国期刊全文数据库 前2条
1 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
中国硕士学位论文全文数据库 前4条
1 郑军;网络舆情监控的热点发现算法研究[D];哈尔滨工程大学;2007年
2 宋飞燕;基于密度聚类算法及其模式评估方法的研究与实现[D];内蒙古科技大学;2007年
3 罗成;Web新闻话题检测与追踪技术研究[D];解放军信息工程大学;2007年
4 杨梅;网络舆情热点发现的研究[D];北京交通大学;2008年
【二级参考文献】
中国期刊全文数据库 前1条
1 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
【相似文献】
中国期刊全文数据库 前10条
1 司响;李秋锐;宋士超;;钓鱼网页特征向量提取方法研究[J];信息网络安全;2011年09期
2 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
3 陈慧娜;陈一鸣;;新闻话题探测技术的研究[J];信息与电脑(理论版);2011年08期
4 王斌;邵华清;刘振;;基于优化类中心分类算法的文本分类研究[J];科技传播;2011年18期
5 原杰;吕鹏举;;基于主成分分析法评估上海世博对就业的影响[J];现代电子技术;2011年16期
6 董丽丽;高山;张翔;;集成学习算法在实体关系抽取中的应用[J];西安建筑科技大学学报(自然科学版);2011年03期
7 焦亚萌;黄建国;侯云山;;一种基于峰均功率比的信源个数检测新方法[J];电子与信息学报;2011年07期
8 李洪涛;贺亚鹏;朱晓华;胡文;;基于特征向量的线性约束最小方差自适应方向图控制[J];南京理工大学学报;2011年04期
9 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[J];机械与电子;2010年S1期
10 王鹏;;垂直搜索引擎及其个性化推荐研究[J];潍坊学院学报;2011年04期
中国重要会议论文全文数据库 前10条
1 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
2 张新培;曹策慧;;随机结构特征值和特征向量统计特性的研究[A];第五届全国结构工程学术会议论文集(第二卷)[C];1996年
3 李连;朱爱红;;降低搜索空间的多媒体信息过滤技术[A];’2004计算机应用技术交流会议论文集[C];2004年
4 林令娟;刘希玉;;基于微粒群优化的快速K-近邻分类算法[A];第三届中国智能计算大会论文集[C];2009年
5 李凯智;阿木古楞;白云莉;;不变矩纹理图像分割的特征向量选择探讨[A];第八届全国信息获取与处理学术会议论文集[C];2010年
6 刘增武;蔡悦斌;;基于K-L变换的船舶噪声特征向量的降维处理[A];中国声学学会1999年青年学术会议[CYCA'99]论文集[C];1999年
7 王伟;刘文涛;;基于小波变换的脉象信号特征提取[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 刘慧明;高齐圣;隋树林;;基于特征向量的鲁棒极点配置算法[A];1996中国控制与决策学术年会论文集[C];1996年
9 陈力奋;宋汉文;王文亮;;确定退化模态可导特征向量转换矩阵的一种新方法[A];振动工程学报(工程应用专辑)[C];2001年
10 霍星;檀结庆;;基于特征向量的三维模型检索[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 清华大学 王俊艳;年龄变化的人脸识别[N];计算机世界;2006年
2 黄岳钧;人才招聘技术中的定量分析[N];中国人事报;2007年
3 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
4 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
5 黄力行陶建华;多模态情感识别参透人心[N];计算机世界;2007年
6 上海海成投资公司 韩洪宇;细化交易行为 量化市场因素[N];期货日报;2007年
7 清华大学数学科学系 刘坤林 俞正光 葛余博;从考研新大纲微调领会考试要求[N];中国教育报;2005年
8 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
9 武汉科技学院纺织服装学院 林子务;设备故障的诊断[N];中国纺织报;2004年
10 叶小文 记录整理;“和”是中国文化的特征向量[N];北京日报;2010年
中国博士学位论文全文数据库 前10条
1 龚世才;图的特征向量的组合结构[D];安徽大学;2010年
2 刘祖根;图像隐写分析算法研究[D];浙江大学;2007年
3 王晓元;经典组合序列的行列式计算[D];大连理工大学;2009年
4 彭德中;MCA神经网络理论与应用[D];电子科技大学;2006年
5 李师广;线性系统参数特征结构配置与振动主动控制[D];上海交通大学;2007年
6 李勇;基于内容的图像检索技术研究[D];吉林大学;2009年
7 阎高伟;基于知识的多智能体思维进化算法及其工程应用[D];太原理工大学;2007年
8 徐忠海;结构特征灵敏度分析若干问题研究[D];吉林大学;2008年
9 张恒博;基于内容的图像数据库检索的技术研究[D];大连理工大学;2008年
10 艾纳基;汽车排气消声系统振动与模态分析[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 张汉珍;谱划分算法中特征向量选取方法的研究[D];西安电子科技大学;2010年
2 潘荣英;关于拉普拉斯特征映射的一些想法[D];上海交通大学;2009年
3 陈哲明;车用三元催化器故障诊断系统的研究[D];西华大学;2006年
4 王雅红;基于LVQ神经网络数字图像边缘检测算法的研究[D];太原理工大学;2005年
5 李小新;两类混合图的特征值与特征向量[D];安徽大学;2005年
6 李艳军;多元线性模型回归系数的主成分估计[D];东北师范大学;2006年
7 王丽娜;基于BP神经网络的药业生产质量预测与应用[D];昆明理工大学;2006年
8 姚学恒;基于SVM遥感数据专题信息提取[D];中南大学;2004年
9 张脂平;因子分析算法的研究及其在Web文本特征提取中的应用[D];福州大学;2005年
10 唐珺;分配格上矩阵的特征向量[D];北京工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026