收藏本站
《全国计算机安全学术交流会论文集(第二十四卷)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

一种获取网页主要中文信息的方法

王春元  张韬  
【摘要】:如何从网页文件中获取中文信息是中文信息处理的一个重要研究课题。从网页上获取主要中文信息的一种方法是找到主要中文信息所处的位置并将其抽取出来,为此提出了用正则表达式对网页进行分区处理的启发式算法,实验结果表明,这是一个准确、高效的方法,具有很好的通用性。
【作者单位】:安徽省公安厅
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 龚真平;基于web文献的数据挖掘研究应用[D];西南交通大学;2011年
【参考文献】
中国期刊全文数据库 前6条
1 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
2 王志琪;王永成;;HTML文件的文本信息预处理技术[J];计算机工程;2006年05期
3 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
4 程冲,黄水清;利用正则表达式解析新闻网页的算法研究[J];农业图书情报学刊;2005年04期
5 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
6 于琨,蔡智,糜仲春,蔡庆生;基于路径学习的信息自动抽取方法[J];小型微型计算机系统;2003年12期
【共引文献】
中国期刊全文数据库 前10条
1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
2 林昌平;郑皎凌;;基于DOM规范的网页分析技术研究[J];成都信息工程学院学报;2007年S1期
3 程仁贵;;带反向词频的中英文词典的设计[J];重庆工学院学报(自然科学版);2008年11期
4 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
5 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
6 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
7 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
8 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
9 唐壹勋;;正则表达式在批量新闻网页处理中的应用[J];福建电脑;2008年03期
10 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
中国重要会议论文全文数据库 前4条
1 马德涛;王锐;张学文;黄毅;;基于自然语言理解的航海通告自动改正技术方法研究[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年
2 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
3 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前8条
1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
2 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 方辉;机械制造信息资源的非规范知识处理技术研究[D];四川大学;2007年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
7 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
8 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
2 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
3 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
4 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
5 陈晶;基于网页的信息抽取的研究[D];西安工业大学;2011年
6 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
7 张春玲;学术期刊电子稿件参考文献自动校验的XML解决方案[D];吉林大学;2011年
8 高永胜;基于树形结构的网页数据抽取模式研究及应用[D];大连理工大学;2011年
9 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
10 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
【同被引文献】
中国期刊全文数据库 前3条
1 李娜;黄孝彬;李琴;姜攀;;数据挖掘软件产品综述[J];大众科技;2010年01期
2 郝占刚;王正欧;;基于潜在语义索引和遗传算法的文本特征提取方法[J];情报科学;2006年01期
3 万志华,欧阳为民,张平庸;一种基于划分的动态聚类算法[J];计算机工程与设计;2005年01期
中国博士学位论文全文数据库 前1条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前6条
1 刘坤朋;数据挖掘中聚类算法的研究[D];长沙理工大学;2010年
2 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
3 尹辉;基于Nutch的搜索系统的研究[D];电子科技大学;2008年
4 黄珍;基于数据挖掘的文献自动推荐研究[D];华中师范大学;2009年
5 龚秋艳;并行网络爬虫设计与实现[D];华东师范大学;2010年
6 孙迪;基于关联规则的数据挖掘算法研究[D];电子科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 余蕾;曹存根;;基于Web语料的概念获取系统的研究与实现[J];计算机科学;2007年02期
2 张文典;LAG—一个词法分析程序的生成程序[J];小型微型计算机系统;1985年08期
3 Gary Chan;Java咖啡馆(9)——一个压缩归档实用软件[J];电脑爱好者;2004年19期
4 张太芳;;基于正则表达式技术的数据验证及应用[J];甘肃科技纵横;2006年04期
5 项润华;段红勇;柳汉雄;;正则表达式的使用以及在VC6.0的应用[J];洛阳工业高等专科学校学报;2006年05期
6 梁里宁;;正则表达式在SQL Server 2000中的实现与应用[J];科技广场;2008年01期
7 李国晶;王景强;;浅析正则表达式[J];科技资讯;2010年04期
8 刘小平;;在Visual C++ 6.0中使用Boost正则表达式库[J];信息与电脑(理论版);2010年03期
9 张申媛;;正则表达式的实现[J];科技创新导报;2010年20期
10 胡海星;;DEL命令问题——2001年12期编程擂台题解[J];程序员;2002年02期
中国重要会议论文全文数据库 前10条
1 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
2 王辉;丁明君;杨进;;正则表达式在企业信息管理开发中的应用[A];2010年MIS/S&A学术交流会议论文集(中国造船工程学会学术论文集)[C];2010年
3 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
4 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
5 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
7 袁真;;构造正则表达式的几种NFA算法的分析和比较[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 李竹;;中文信息处理与现代汉语词类研究[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
10 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 彭福祥 张钧;ASP.NET基本数值处理技巧[N];计算机世界;2006年
7 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
8 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
9 中文信息学会课题组;如何提高国产手机汉字输入法的市场竞争力[N];语言文字周报;2007年
10 广东 子衿;认识Linux中的符号[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 胡圣明;基于内存自动机与模式的动态引擎构造技术研究[D];西安电子科技大学;2009年
2 徐建国;网络化制造系统中虚拟加工若干关键技术研究[D];南京理工大学;2007年
3 钱忠胜;基于模型的Web应用测试用例生成方法[D];上海大学;2008年
4 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
5 孙伟;XML数据库查询优化及相关技术研究[D];哈尔滨工程大学;2006年
6 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
7 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
8 马海涛;Active XML数据管理基础问题研究[D];哈尔滨工业大学;2009年
9 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
10 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 王飞龙;PBE技术在文本搜索中的应用[D];哈尔滨理工大学;2007年
4 温源;基于FPGA的正则表达式匹配引擎的设计[D];哈尔滨工程大学;2009年
5 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
6 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
7 刘一兰;基于SNMP MIB编译器的实现及其生成器技术的研究[D];华中师范大学;2004年
8 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
9 王小朋;基于代理的元搜索引擎的研究[D];辽宁工程技术大学;2005年
10 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026