收藏本站
《Proceedings of the First Conference on Web Information System and Applications》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

A Classification Method for Web Information Extraction

【摘要】:正 Web information extraction is viewed as a classification process and a competing classification method is presented to extract Web information directly through classifica-tioa Web fragments are represented with three general features and the similarities between fragments are then defined on the bases of these features. Through competitions of fragments for different slots in information templates, the method classifies fragments into slot classes and filters out noise information . Far less annotated samples are needed as compared with rule-based methods and therefore it has a strong portability. Experiments show that the method has good performance and is superior to DOM-based method in information extraction.

【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
5 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
6 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
7 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
8 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
9 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期
10 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 甘甜;莫倩;张华平;;基于搜索引擎的人物社会关系抽取研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
10 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
6 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
7 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
8 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
9 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
10 杨奕锦;Web页面用户评论信息抽取技术研究[D];浙江大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026