【摘要】:web 网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量 Web 网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取 Wrapper 的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应 Wrapper。利用 Wrapper 能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。
|
|
|
|
1 |
王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期 |
2 |
;[J];;年期 |
3 |
;[J];;年期 |
4 |
;[J];;年期 |
5 |
;[J];;年期 |
6 |
;[J];;年期 |
7 |
;[J];;年期 |
8 |
;[J];;年期 |
9 |
;[J];;年期 |
10 |
;[J];;年期 |
11 |
;[J];;年期 |
12 |
;[J];;年期 |
13 |
;[J];;年期 |
14 |
;[J];;年期 |
15 |
;[J];;年期 |
16 |
;[J];;年期 |
17 |
;[J];;年期 |
18 |
;[J];;年期 |
19 |
;[J];;年期 |
20 |
;[J];;年期 |
|