收藏本站
《第三届全国信息检索与内容安全学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

一种全自动生成网页信息抽取Wrapper的方法

梅雪  程学旗  郭岩  张刚  丁国栋  
【摘要】:web 网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量 Web 网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取 Wrapper 的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应 Wrapper。利用 Wrapper 能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。

【同被引文献】
中国期刊全文数据库 前9条
1 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
2 张蓉;数据聚类技术的研究[J];计算机工程与应用;2002年16期
3 夏天;;汉语词语语义相似度计算研究[J];计算机工程;2007年06期
4 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期
5 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
6 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期
7 宋林飞;社会风险指标体系与社会波动机制[J];社会学研究;1995年06期
8 张海龙;王莲芝;;自动文本分类特征选择方法研究[J];计算机工程与设计;2006年20期
9 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
中国博士学位论文全文数据库 前1条
1 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前5条
1 谭义红;关联规则挖掘及其在概念检索中的应用研究[D];湖南大学;2003年
2 卢健;潜在语义分析在文本信息检索中的应用研究[D];华中科技大学;2005年
3 陈慧芳;文本分类中特征向量空间降维方法研究[D];东南大学;2005年
4 孙春明;高性能特征选择及文本分类算法研究[D];华北电力大学(北京);2007年
5 钟绍军;凸约束广义线性回归模型参数的极大似然估计研究[D];武汉理工大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前6条
1 张小莉;面向丝绸领域的垂直搜索引擎关键算法研究[D];苏州大学;2008年
2 李舒晨;网络信息采集处理平台的研究[D];北京交通大学;2009年
3 吴晓彦;基于结构语义熵的互联网商品信息抽取技术研究[D];复旦大学;2009年
4 张书江;基于Java的垂直搜索引擎的设计与实现[D];安徽理工大学;2009年
5 陈艳;面向web的企业竞争情报获取[D];中国科学技术大学;2009年
6 刘晨;专利信息获取与分析系统关键技术研究[D];北京工业大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026