收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种全自动生成网页信息抽取Wrapper的方法

梅雪  程学旗  郭岩  张刚  丁国栋  
【摘要】:web 网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量 Web 网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取 Wrapper 的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应 Wrapper。利用 Wrapper 能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前6条
1 张小莉;面向丝绸领域的垂直搜索引擎关键算法研究[D];苏州大学;2008年
2 李舒晨;网络信息采集处理平台的研究[D];北京交通大学;2009年
3 吴晓彦;基于结构语义熵的互联网商品信息抽取技术研究[D];复旦大学;2009年
4 张书江;基于Java的垂直搜索引擎的设计与实现[D];安徽理工大学;2009年
5 陈艳;面向web的企业竞争情报获取[D];中国科学技术大学;2009年
6 刘晨;专利信息获取与分析系统关键技术研究[D];北京工业大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978