收藏本站
《第三届和谐人机环境联合学术会议(HHME2007)论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于多特征的网页内容提取研究

李连霞  马军  陈竹敏  
【摘要】:网页内容提取对Web中的Hub型网页和主题型网页有不同的含义。对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接。网页内容提取的质量将直接影响到信息检索的查全率和查准率,以及对网页分类/聚类的质量。文中提出了基于多特征的网页内容提取算法。该方法的特点是具有鲁棒性和适用于对海量网页的主题内容提取。实验表明,新算法在处理形式各异的网页内容提取中,在提取正确率等指标上明显优于目前已知的方法。

【参考文献】
中国期刊全文数据库 前1条
1 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 陈磊,冯玉珉;一种基于网页自动分类的分类查询搜索引擎[J];电脑与信息技术;2004年06期
2 张春元;康耀红;;基于示例的Web信息自动获取系统的设计与实现[J];计算机应用;2005年S1期
3 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
4 贡正仙;朱巧明;李培峰;;基于相似页面的Web信息抽取系统的实现[J];计算机应用;2006年08期
5 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
6 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
7 王艳;张帆;;基于Web挖掘技术的信息检索系统设计与实现[J];情报学报;2007年03期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 胡冬梅;泰达图书馆个性化信息服务系统的探索与实践[J];现代图书情报技术;2004年10期
10 张健,欧红;应用正则式抽取Google网页内容[J];现代图书情报技术;2005年09期
中国重要会议论文全文数据库 前2条
1 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
3 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
4 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
5 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 丛艳;自动文本摘要方法的研究及应用[D];华北电力大学(北京);2004年
2 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
3 沈建良;基于本体论的个性化信息搜索系统研究[D];哈尔滨工程大学;2005年
4 付克志;基于Web的文本信息检索算法的研究[D];大连理工大学;2006年
5 梁瑞霞;数字图书馆的移动访问及版权管理研究[D];浙江大学;2006年
6 杨春瑜;基于塑料产品意象认知模型的图像检索技术研究[D];浙江大学;2006年
7 张博;基于内容安全的中文网页过滤系统[D];西安电子科技大学;2006年
8 王煜;Internet智能比较购物的研究与实现[D];浙江工商大学;2006年
9 刘军;网页采集、净化与分类[D];浙江工商大学;2006年
10 吴旭东;基于本体的可定制化网页信息智能提取技术研究[D];浙江大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 孙楠;张华伟;;一种新的用于数据挖掘工具的网页净化算法[J];郑州轻工业学院学报(自然科学版);2011年03期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 谷军霞;姚鸿;梁小雨;;早间会商“重点天气提示”的内容提取与检索[A];2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要[C];2011年
中国博士学位论文全文数据库 前1条
1 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
中国硕士学位论文全文数据库 前10条
1 李连霞;基于多特征的HTML网页内容提取的研究[D];山东大学;2008年
2 何恒昌;Web挖掘中信息采集技术研究与实现[D];北京物资学院;2010年
3 管敏杰;WEB文本挖掘系统[D];浙江工商大学;2007年
4 罗公明;网页多主题内容块的识别和提取[D];吉林大学;2005年
5 谢华;Internet网页自动分类技术的研究[D];中南大学;2007年
6 徐冉;网页信息净化方法的研究与实现[D];哈尔滨工程大学;2007年
7 徐超;基于DOM的网页净化方法研究[D];中国石油大学;2009年
8 胡燕;Web信息内容及其特征提取方法研究[D];河北农业大学;2008年
9 苗苗;基于页面分块的网页内容提取的研究与实现[D];武汉理工大学;2010年
10 黄珺;基于音频的电视内容提取与分析[D];北京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026