收藏本站
收藏 | 论文排版

王英奎潘无名李孝文谭钱茂  
【摘要】:在 Web 信息提取技术中,有一种方法是基于 HTML 结构的信息提取。这种方法的关键是识别出 HTML 页面的组织模式,用某种合适的模型来建模以进行信息提取工作。本文以此为基础利用 Document Object Model (DOM)树建立网页的结构模型,给出了一个基于树的算法,使用 htmlparser 工具确定查询返回页面中的有效信息区域并提取出有效数据。开发了一个简单的应用此算法的系统,经试验,此算法针对符合 HTML 语法规范的页面具有很高的正确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙全红;张贞贞;;基于树结构的Web表格信息抽取方法[J];华北水利水电学院学报;2011年03期
2 罗健萍;吴海;;数据挖掘技术中基于关联规则算法的研究[J];硅谷;2011年13期
3 蒋晖;陈允锋;;数据挖掘及其一种关联规则算法[J];计算机与数字工程;2011年06期
4 金育婵;;数据挖掘技术中基于关联规则算法的研究[J];科技传播;2011年12期
5 张帆;潘瑞芳;叶福军;荆丽茜;;视频游戏中碰撞检测算法的选择[J];电脑知识与技术;2011年13期
6 高金勇;徐朝军;冯奕竸;;基于迭代的TFIDF在短文本分类中的应用[J];情报理论与实践;2011年06期
7 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
8 李薇;李健;;板料优化排样问题[J];电脑知识与技术;2011年20期
9 赵明;;农业院校本科生计算机图形学课程的研究型教学[J];计算机教育;2011年13期
10 殷超;;删除值相同元素的时间复杂度的改进算法[J];科技信息;2011年21期
11 李丹实;;使用SQL Server2005构建数据挖掘应用程序[J];煤炭技术;2011年07期
12 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
13 朱静丽;;用模拟退火算法求解TSP[J];湖北广播电视大学学报;2011年09期
14 敖友云;;基数排序算法的链表实现[J];科技创新导报;2011年23期
15 黄敏;;k-means算法在教学质量评价结果中的分析研究[J];重庆工贸职业技术学院学报;2011年01期
16 秦德杰;;基于ASP的表格一行显示多条记录的研究[J];电脑知识与技术;2011年16期
17 杨睿娜;;C#开发贪食蛇游戏[J];电脑知识与技术;2011年18期
18 杜丽霞;郝志斌;;大规模三维地形仿真算法的研究[J];兰州交通大学学报;2011年03期
19 谭英丽;郭峰;;数据挖掘在电子商务中的应用研究[J];价值工程;2011年22期
20 刘大鹏;卢虹冰;漆家学;吴巨海;苏毅;;基于多小波变换的医学图像融合算法研究[J];中国医学物理学杂志;2011年03期
中国重要会议论文全文数据库 前10条
1 王英奎;潘无名;李孝文;谭钱茂;;一种基于DOM树的Web信息提取方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
2 罗芳;艾廷华;王洪;;闭合坐标链多边形数据的拓扑关系快速构建[A];全国测绘科技信息网中南分网第二十四次学术信息交流会论文集[C];2010年
3 胥幸燕;徐中伟;;一种站场图逻辑语义解析算法[A];第三届中国测试学术会议论文集[C];2004年
4 潘英豪;范瑞霞;;基于Kohonen网络的图像融合算法的研究与实现[A];2004中国控制与决策学术年会论文集[C];2004年
5 陈曦;李国清;宋吉江;李宏图;;某型军机多功能显示系统的仿真[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
6 陈国栋;李建微;毛烨;郑绍华;余轮;;三维人体模型的骨架提取算法[A];第十四届全国图象图形学学术会议论文集[C];2008年
7 蓝章礼;曹建秋;王华清;;基于动态梯度的指纹图像二值化算法[A];2008年计算机应用技术交流会论文集[C];2008年
8 张少润;吴学军;;分布式数据库系统中探测及消除死锁的算法[A];第十届全国数据库学术会议论文集[C];1992年
9 聂轰;陈湘涛;;一种基于欧氏距离加权的连通聚类算法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 许强;陈妍;高志强;吴鑫宏;;基于虚拟DCS的300MW机组仿真机开发[A];第十届中国科协年会科技创新与工业强市战略论坛论文汇编[C];2008年
中国博士学位论文全文数据库 前10条
1 蔡涛;面向目标识别的图像特征融合提取技术研究[D];中国人民解放军国防科学技术大学;2000年
2 赵锡英;随机进程代数的等价性判定计算[D];兰州大学;2007年
3 李述山;多源多维多类型多精度非线性数据处理中若干问题的研究[D];山东科技大学;2005年
4 许伦辉;面向公路网络规划及智能运输系统交通分配理论与方法研究[D];华南理工大学;1999年
5 韩爱丽;赋权图上优化问题的DNA计算方法研究[D];山东大学;2008年
6 孙元;多媒体语义检索关键问题研究[D];吉林大学;2010年
7 辛士庆;从离散测地问题到动态有序集[D];浙江大学;2009年
8 宁伟;非线性最小二乘测量平差与空间数据误差分析[D];山东科技大学;2005年
9 刘相滨;类圆性颗粒图像分割技术研究[D];湖南大学;2006年
10 金欣磊;基于PSO的多目标优化算法研究及应用[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 高翔;嵌入式三维图形引擎的设计与实现[D];电子科技大学;2005年
2 杨强;基于概念格的数据挖掘方法研究[D];山东科技大学;2008年
3 霍其润;基于B/S模式的雨量等值钱算法的研究与实现[D];河海大学;2003年
4 王叶飞;DEM地形曲率的误差分析[D];长沙理工大学;2005年
5 张冠东;矿山灾害预警应急管理系统的初步研究[D];成都理工大学;2006年
6 周明应;专用短程通信中的自适应均衡技术研究[D];武汉理工大学;2007年
7 黄炜;小波分析在数字水印和目标跟踪的应用[D];厦门大学;2009年
8 宋丹娃;森林资源管理信息系统中数据处理的解决方案研究[D];北京林业大学;2009年
9 郝茹;四次有理Bézier曲线曲面造型的研究[D];哈尔滨理工大学;2009年
10 沈飞;基因组Reversal/Transposition排序的快速计算研究[D];山东大学;2009年
中国重要报纸全文数据库 前10条
1 Vishala Sri-Pathma 赵容 编译;算法交易——市场增长的重要趋动因素[N];期货日报;2009年
2 PALADIN;对算法进行分析(1)[N];电脑报;2003年
3 本报记者 刘霞;当算法统治世界[N];科技日报;2011年
4 PALADIN;对算法进行分析(2)[N];电脑报;2003年
5 重庆 Over-Time;程序=算法+数据结构[N];电脑报;2004年
6 中国虫;算法演义[N];电脑报;2003年
7 PALADIN;算法演义[N];电脑报;2003年
8 PALADIN;算法演义[N];电脑报;2003年
9 ;编程沙龙[N];电脑报;2003年
10 易水;模型驱动的体系结构(2)[N];计算机世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978