收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于结构树解析的网页正文抽取方法

刘秉权  王喻红  葛冬梅  李佳  
【摘要】:本文采用一种基于结构树解析的方法来实现中文网页正文的抽取。这种方法利用了中文网页中内容信息结构相似和分布聚集的特性,实现简单,通用性好,可以克服包装器方法需要针对特定数据源的缺点。该方法在分析网页时是利用DOM(Document Object Model)的树结构来进行的,通过把网页解析为DOM树使分散的网页有序化。目前该方法已经应用到面向移动平台的新闻信息自动分类系统中,很好地满足了系统的需求。

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 黎升洪;基于XML的动态网页方法[J];计算机与现代化;2001年06期
2 黄莹,杨明福;使用DOM对象实现XML和数据库的交互[J];微型电脑应用;2001年04期
3 杨鑫阁,冯岩,宋晓燕,刘文捷,王慧强;XML技术在J2EE中的应用[J];自动化技术与应用;2001年05期
4 孙荣胜,李志华,施明辉,徐天鹏;XML与汽车零部件信息采集系统的研究与实现[J];计算机应用;2002年02期
5 韩桂英,李锡祚;基于XML的网络课件标准化问题的研究与设计[J];微电子学与计算机;2002年11期
6 郑晓锋,张倩,张俊,蔡瑞英;基于XML技术的计算机仿真系统数据管理[J];南京工业大学学报(自然科学版);2003年06期
7 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
8 徐薇;姜伏刚;赵建崇;;基于DOM、DEM的闲置土地管理模式探讨[J];城市勘测;2010年S1期
9 何成万,闵华清;一个基于Java和XML的Web应用软件开发模型研究[J];计算机应用;2001年S1期
10 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
中国重要会议论文全文数据库 前10条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
2 丁力行;;2002年全国暖通空调计算机应用研讨会[A];2001年湖南省暖通空调制冷学术年会论文集[C];2001年
3 陈皓;郑利平;刘晓平;;模板在虚拟现实平台中的应用[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 缪峥红;周新蕾;;安全性关键软件的可靠性测试与安全性分析[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
5 石素卿;;京郊新农村发展电子商务的障碍与对策[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
6 于平;李汉彬;高长君;;应用ActiveX技术实现Surfer自动绘制等值线图[A];中国气象学会2007年年会天气预报预警和影响评估技术分会场论文集[C];2007年
7 何大治;谢步瀛;;基于子空间网络的人员疏散模型[A];中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集[C];2007年
8 柏艳平;赵银燕;肖田元;;基于XML的键合图模型交换及重用[A];第十届中国科协年会论文集(一)[C];2008年
9 唐西隆;;用ToolBook制作多媒体课件的技巧[A];第十五届全国图学教育研讨会暨第七届工程制图CAI课件演示交流会论文集[C];2006年
10 王玉洁;张子安;兰彬;朱晓冬;杨荃月;;农业信息化与社会主义新农村建设[A];2006中国科协年会农业分会场论文专集[C];2006年
中国博士学位论文全文数据库 前10条
1 陈守强;丁书文教授用药规律的计算机辅助分析[D];山东中医药大学;2005年
2 杨伟;邮运汽车运输组织优化与信息支持系统研究[D];西南交通大学;2005年
3 李苏红;基于实体模型的工程图样数字化设计的研究[D];吉林大学;2007年
4 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
5 刘杰;泄漏发射的信息重建与防御对策[D];浙江大学;2004年
6 涂蓉;肝CT图像分析的临床与计算机应用研究[D];中南大学;2004年
7 Memon Abdul Ghafoor;[D];浙江大学;2006年
8 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
9 单大卯;人体下肢肌肉功能模型及其应用的研究[D];上海体育学院;2003年
10 姜梅;基于生物免疫系统的计算机入侵检测技术研究[D];南京航空航天大学;2001年
中国硕士学位论文全文数据库 前10条
1 黄文锋;DOM型XSS攻击防范模型研究[D];广州大学;2010年
2 雷群;工程设计数字档案库系统的设计与实现[D];昆明理工大学;2006年
3 范宇;基于DOM建模的网页木马检测的分类器设计[D];哈尔滨工业大学;2010年
4 李涛;粘土矿物/DOM复合体对多环芳烃的吸附特征及其机理研究[D];华南理工大学;2010年
5 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
6 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
7 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
8 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
9 李冬;基于DOM树的Deep Web实体抽取的研究与实现[D];东北大学;2008年
10 王军;皂荚DOM对污染土壤中PAHs的去除及其影响因素[D];福建师范大学;2010年
中国重要报纸全文数据库 前10条
1 卜建设、卢山;市计算机应用学会成立[N];唐山劳动日报;2010年
2 袁钦玲;网吧专用计算机应用标准出台[N];中国计算机报;2006年
3 记者 燕颖;以点带面 互动互补[N];北方法制报;2006年
4 夏冰;计算机应用学习之我见[N];中国电脑教育报;2004年
5 孟婧;创新铸就辉煌 开放成就梦想[N];中国教育报;2006年
6 撰文 西南证券;计算机应用服务业,随大势而动[N];上海金融报;2008年
7 黄秀清 张德浩;计算机应用技术中心二期通过验收[N];中国石化报;2007年
8 本报记者 童海华;网吧节能也大有可为[N];中国经济导报;2006年
9 伊凡;计算机应用上新台阶[N];中国船舶报;2000年
10 ;计算机应用方面存在很大的差距[N];中国汽车报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978