收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于语句相似度的网页标题抽取方法

李国华  昝红英  
【摘要】:目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取,但是这些方法只考虑到了HTML的统计特点,没有考虑标题与正文信息之间的关系。本文提出一种基于相似度的网页标题抽取方法,充分利用了网页标题与正文信息之间的关系,通过计算两两"单位"之间的相似度和对应的权值,并引入HTTS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对"非标准网页"的抽取达到满意的效果,而且对"标准网页"具有较高的泛化能力。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
2 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
8 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
9 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
10 王少宇,杜娟,秦前清;基于内容的网页信息处理方法[J];计算机应用;2005年04期
11 丁艳;曹倩;王超;潘金贵;;基于Ontology和EM方法的网页分类研究[J];计算机科学;2003年11期
12 JACK;JONES;;搜索结果也能即指即看[J];电脑迷;2005年09期
13 何芷砚;;让更多的人从互联网获益——HBIS在网页信息无障碍领域的探索[J];互联网天地;2007年10期
14 小鲜;织网酷软——网页中不再有秘密[J];网络与信息;2004年12期
15 饶简元;;网页的色彩认知与构建[J];艺术评论;2011年06期
16 梁志荣;;基于URL聚类的新型web筛选机制研究[J];微计算机信息;2006年21期
17 温传伟;让网页不再有秘密[J];电脑知识与技术;2003年20期
18 张茂元;张金隆;卢正鼎;邹春燕;;基于特征相关学习的网页信息提取方法[J];华中科技大学学报(自然科学版);2007年07期
19 ;Firefox加速技巧[J];计算机与网络;2007年15期
20 黄华军;谭骏珊;孙星明;;基于高阶统计的网页隐秘信息检测研究[J];电子与信息学报;2010年05期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
3 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
6 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 杨高峰;杨岳湘;;基于RSS的个性化科技信息聚合门户的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 黄锦辉;任永杰;孟小锋;;Chiql在因特网上的应用[A];第十五届全国数据库学术会议论文集[C];1998年
10 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
4 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
8 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
9 宋鑫莹;网络信息自动化高效抽取技术研究[D];哈尔滨工业大学;2013年
10 王永;在线广告网络的评估与优化[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
4 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
5 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
6 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
7 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
8 买买提依明·哈斯木;基于后缀树的维吾尔文网页聚类算法的设计与实现[D];新疆大学;2011年
9 张晓彦;网页信息隐藏算法研究及应用[D];北京化工大学;2010年
10 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 路人甲;请个专家来贴图[N];电脑报;2005年
3 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
4 湖北 文武;详解缓存[N];中国电脑教育报;2001年
5 劲风;你的电子邮件需要保密吗[N];中国电脑教育报;2003年
6 江苏 肖敏浩;IE中缓存的设置[N];电脑报;2001年
7 于发修;寻找搜索的技巧[N];中国计算机报;2001年
8 张;英汉双向翻译[N];中国计算机报;2001年
9 中国科学院研究生院信息安全国家重点实验室 刘亮 徐海波 中软股份有限公司 尚铭;互联网的“海岸警卫队”[N];计算机世界;2004年
10 ;263客服中心五种方式同时接入[N];中国计算机报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978