收藏本站
《全国网络与信息安全技术研讨会论文集(上册)》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于显示属性的网页信息提取方法

汪建伟  高军  王腾蛟  杨冬青  
【摘要】:在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对 Web 页面文本进行分类,获取所关注文本,从而完成对 Web 页面的信息提取。这种提取方法操作简单、易于实现,不依赖源网页的结构。

【共引文献】
中国期刊全文数据库 前10条
1 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
2 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
3 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
4 李永平,金莉;基于填充标记的自适应Web信息提取[J];华中科技大学学报(自然科学版);2003年11期
5 杜永萍;黄萱菁;吴立德;;模式学习在QA系统中的有效实现[J];计算机研究与发展;2006年03期
6 梁红兵,杨铭魁,黄晓;基于反馈规则学习的医学文献主题自动标引方法[J];计算机工程;2003年11期
7 钟敏娟;郝谦;刘云中;;基于多模板隐马尔可夫模型的文本信息抽取算法[J];计算机工程;2006年02期
8 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
9 李向阳,张亚非;一种军用文图自动转换方案[J];情报指挥控制系统与仿真技术;2004年05期
10 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前10条
1 LI Xiang-yang~1, ZHANG Ya-fei~1, LU Jian-jiang~(1,2), XU Bao-wen~2 1. Institute of Communications Engineering, People's Liberation Army University of Science and Techndogy. Nanjing 210007, Jiangsu, China; 2. Department of Computer Science and Engineering. Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
2 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
3 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
4 Suxiang Zhang,Juan Wen ,Ying Qin ,Xiaojie Wang ,Yixin Zhong School of Information Engineering, Beijing University of Posts and Telecommunications, Beijing, 100876, P. R. China Department of Electronic and Communication Engineering, North China Electric Power University, Baoding, 071003, P. R. China;The Research and Application about the Information Extraction in Chinese Domain[A];第八届国际信号处理国际会议论文集[C];2006年
5 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
6 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于Web主题性信息检索的灾难性事件信息抽取系统[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
4 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
5 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
6 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
10 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前10条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 邓丽;面向主题的XML网页的模式和数据抽取[D];华侨大学;2004年
3 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
4 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
5 吕行;基于XML的异构数据源集成系统研究与应用[D];河海大学;2004年
6 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
7 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
8 李智;基于树结构的网页数据自动抽取方法的研究与实现[D];吉林大学;2005年
9 张玉良;一种基于后缀树的包装器自动生成方法的研究[D];吉林大学;2005年
10 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 孙荣胜,李志华,施明辉,徐天鹏;XML与汽车零部件信息采集系统的研究与实现[J];计算机应用;2002年02期
2 韩桂英,李锡祚;基于XML的网络课件标准化问题的研究与设计[J];微电子学与计算机;2002年11期
3 杨厚群;XML在ASP服务端的应用研究[J];计算机系统应用;2002年02期
4 卢方国,李卫华;使用SAX2分析XML文档[J];计算机与现代化;2003年09期
5 白连军,蒋式勤;XML在构建企业信息系统中的应用[J];微型电脑应用;2003年10期
6 孙霞,程宏斌;基于Java的DOM解析技术[J];计算机时代;2004年07期
7 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
8 何成万,闵华清;一个基于Java和XML的Web应用软件开发模型研究[J];计算机应用;2001年S1期
9 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
10 陈庆章,胡同森;以XML文件为例实现在CORBA结构下对异质性数据的访问[J];计算机工程;2002年01期
中国重要会议论文全文数据库 前10条
1 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 Aymara Fernandez;;Complexation of Arsenite with Humic Acid in the Presence of Ferric Iron[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
3 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
5 王彦敏;卢刚;;基于PixelGrid实现DOM的快速更新[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
6 周亚男;张思玉;陈景文;;DOM敏化抗抑郁药安非它酮间接光解机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
7 黄国城;孟凡刚;周忠波;李建;黄励晖;;河水DOM的生物转化机制研究[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
8 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 刘叶;蔡美芳;乔显亮;;畜禽粪便来源DOM对土壤吸附土霉素的影响[A];第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C];2011年
10 陈健;卢刚;;数字正射影像图的投影变换[A];江苏省测绘学会2007'学术年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
2 中国贸促会;多米尼加汽车零备件销售分析[N];中国民族报;2001年
3 顾晓红;“喜欢那种透明”[N];联合时报;2000年
4 本报记者 唐斌;在管理软件市场中淘金[N];计算机世界;2001年
5 李语实;桑塔纳 价格重组促销灵活[N];中国物资报;2000年
6 孙静;证券业竞争 技术先行[N];中国电脑教育报;2001年
7 本报记者 董明洁;Dom Perignon[N];21世纪经济报道;2010年
8 北京天则经济研究所理事长 茅于轼教授;机构投资者急需建立信用[N];中国证券报;2002年
9 侯青;XML/EDI业务流程国际贸易B2B现状[N];国际商报;2001年
10 ;柬埔寨开发战争旅游[N];中国旅游报;2002年
中国博士学位论文全文数据库 前10条
1 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
2 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
3 王壮;四种人工纳米颗粒物在水相中的转化行为及生态毒理效应[D];大连理工大学;2013年
4 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
5 吴文伶;离子型化合物对菲吸附解吸影响研究[D];南开大学;2010年
6 魏亮亮;改良土壤含水层处理系统对溶解性有机物的去除效能[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 赵萱;我国不同生态型湖泊沉积物有机质赋存形态及其与重金属相互作用研究[D];山东师范大学;2012年
9 李悦铭;冻融作用对重金属污染土壤中黑麦草发芽和幼苗生长特征的影响研究[D];吉林大学;2013年
10 李巍;半结构化数据挖掘若干问题研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
2 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
3 李娟娟;用三维荧光技术研究DOM在人工湿地中的降解及其与染料的结合作用[D];西南大学;2011年
4 岳珂;基于自动机的嵌入式HTML解析器的设计与实现[D];重庆大学;2008年
5 王鑫;基于线特征的DOM与DLG配准方法的研究[D];武汉大学;2005年
6 赵静;基于XML和多层结构理论的营养咨询系统的设计与实现[D];山东大学;2005年
7 姚跃;中职信息技术技能考核系统设计与实现[D];湖南师范大学;2007年
8 石倩;Web信息抽取规则及其学习算法[D];大连海事大学;2008年
9 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
10 孟瑜;基于Schema验证的XML解析器中解析子系统的设计与实现[D];西安电子科技大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026