收藏本站
《民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

藏文网页采集技术研究

戴玉刚  
【摘要】:本文通过分析目前存在的网页采集程序的构造模式,设计了的藏文网页采集模块TibetSpider。提出了采集的藏文网页在数据库中的存储模式和通过URL树的创建来构造相似网页集合的方法,为研究藏文网页信息抽取技术所用的藏文网页资源库的建立提供了工具。

【参考文献】
中国期刊全文数据库 前3条
1 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
3 杜义华,焦文彬;互联网中XML网页的链接解析与信息采集[J];计算机系统应用;2005年07期
【共引文献】
中国期刊全文数据库 前10条
1 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
3 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
6 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期
7 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期
8 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
9 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期
10 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期
中国重要会议论文全文数据库 前3条
1 张二梅;刘辰;杨正球;;基于HTMLParser自动生成测试用例的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
5 秦忠宝;基于混合知识表示的设计创新及知识获取研究[D];西北工业大学;2006年
6 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
7 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
8 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
9 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
10 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
5 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
6 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
7 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
8 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年
9 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
10 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 黄豫清,戚广志,张福炎;从WEB文档中构造半结构化信息的抽取器[J];软件学报;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
2 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
3 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
4 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
5 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
6 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期
7 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
8 丁君军;郑彦宁;化柏林;;国内外属性抽取研究综述[J];情报科学;2011年05期
9 周纯;;垂直搜索引擎技术进展[J];知识经济;2011年09期
10 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
8 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 郭宏蕾;郭志立;;基于模型组合训练机制的特定领域名词性实体识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 王文生;谢能付;;基于Web的农业信息自动抽取方法研究[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
中国重要报纸全文数据库 前7条
1 孙连海 李党恩;浅谈铜管铸扎法加工条码信息管理系统[N];中国冶金报;2006年
2 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
3 谢立宏博士;企业的“黄金眼”数据挖掘决策支持[N];中国计算机报;2002年
4 李玮;空间信息与金农工程[N];中国计算机报;2003年
5 希安;微软试水信息检索[N];经济日报;2004年
6 本报记者 杜一娜;让印刷全面数字化[N];中国新闻出版报;2003年
7 佳能珠海有限公司 覃泽兵;箱号识别[N];计算机世界;2005年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
7 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
8 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
9 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
10 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
3 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
4 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
5 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
6 杨选选;基于概念图和语义角色的多领域信息抽取系统研究[D];西北大学;2010年
7 刘艺琴;基于本体的Web非规范知识处理中信息抽取技术研究[D];昆明理工大学;2005年
8 雷佩莹;基于Web的新闻信息抽取系统设计与实现[D];西北大学;2008年
9 陈亮华;基于网络爬虫的基金信息抽取与分析平台[D];华南理工大学;2010年
10 杨红超;基于HMM和BP网络混合模型的web文本信息抽取研究[D];南华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026