基于XPath的Web信息抽取
【摘要】:正1引言以HTML发布的Web信息面向显示,缺乏模式信息和语义信息,为了更有效地管理和组织Web信息,实现对Web信息高效的查询与检索,XML及其相关规范随之诞生了。XML将Web信息的语义与显示分离开来,通过自定义带有语义信息的标记,提供给应用程序所需的语义信息。但是,Web上大量存在的仍旧是HTML信息,为了以结构化和一致的方式访问HTML信息以及方便计算机对Web信息的自动处理,人们采用了信息抽取技术。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|