收藏本站
《第一届学生计算语言学研讨会论文集》2002年
收藏 | 手机打开
二维码
手机客户端打开本文

因特网语料自动下载分析软件的设计

朱凯  周杰  何婷婷  
【摘要】:随着计算机应用的发展和普及,特别是因特网的普及,获取语料、建立大规模语料库变得越来越容易。本文讨论了如何从因特网上下载语料,如何解析HTML页面并提取出其中对语料库有用的语料数据的方法。

【引证文献】
中国期刊全文数据库 前3条
1 刘华;;网页信息抽取及建库系统C#实现[J];计算机工程;2006年16期
2 刘建舟,何婷婷,骆昌日;基于语料库和网络的新词自动识别[J];计算机应用;2004年07期
3 刘华;;超大规模分类语料库构建[J];现代图书情报技术;2006年01期
【同被引文献】
中国期刊全文数据库 前10条
1 李勇,郭平;Sigmoid传输函数与三层前馈神经网络的映射能力[J];北京师范大学学报(自然科学版);2001年05期
2 黄绪明;一类改进的遗传算法[J];长沙大学学报;2005年05期
3 李蓉 ,叶世伟 ,史忠植;SVM-KNN分类器——一种提高SVM分类精度的新方法[J];电子学报;2002年05期
4 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
5 张莉,康耀红,王曙光,张春元;中文网页自动分类现状的研究[J];福建电脑;2004年05期
6 何峰,林亚丽;改进的KNN文本分类算法综述[J];福建电脑;2005年01期
7 阚忠良,李建中,杨艳;数字图书馆中文本信息检索技术的研究与实现[J];哈尔滨工业大学学报;2005年07期
8 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
9 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
10 陈清才,王晓龙;一种基于词矢量的汉语语义量化模型[J];计算机研究与发展;2001年02期
中国博士学位论文全文数据库 前5条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
4 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
5 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
中国硕士学位论文全文数据库 前10条
1 易靖;基于信息粒度原理的文本分类方法的研究[D];北京工业大学;2001年
2 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
3 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
4 刘钢;基于神经网络的文本分类系统NNTCS的设计和实现[D];中国科学院研究生院(软件研究所);2003年
5 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 张红霞;渐进式中文文本分类技术研究[D];河北大学;2004年
8 吴绍兵;基于遗传算法的模糊规则获取研究[D];云南师范大学;2005年
9 程传鹏;基于分类的智能信息检索研究与实现[D];云南师范大学;2005年
10 杨柳;中文文本分类技术研究[D];河北大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 周蕾;朱巧明;;基于统计和规则的未登录词识别方法研究[J];计算机工程;2007年08期
中国重要会议论文全文数据库 前2条
1 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 张勇;何婷婷;;基于质子串分解的网络新词汇自动抽取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前4条
1 周蕾;中文未登录词识别的研究及在汉字输入法中的应用[D];苏州大学;2005年
2 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
3 唐杰;信息检索技术在期刊资源整合中的研究及应用[D];中南大学;2007年
4 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
2 扎西加;高定国;;藏语语料库TEI标记规范探讨[J];中文信息学报;2011年04期
3 靳丹宁;;基于语料库调查中动词句型错误探析[J];安徽电子信息职业技术学院学报;2011年04期
4 孙利;张得生;陈萍;;基于多网页信息隐藏算法研究[J];价值工程;2011年23期
5 曹风华;;比较分析XML与HTML[J];电脑与信息技术;2011年04期
6 陈银凤;;XML与HTML整合[J];现代计算机(专业版);2011年13期
7 安见才让;;藏语句子相似度算法的研究[J];中文信息学报;2011年04期
8 许中博;;浅谈如何构建高可用性Web内容[J];信息与电脑(理论版);2011年06期
9 杨雅婷;董兴华;王磊;吐尔洪·吾司曼;李晓;;电话信道维吾尔语口语语料库设计与研究[J];计算机工程与应用;2011年23期
10 钱程;阳小兰;;HTML到XML转换研究[J];计算机与现代化;2011年08期
中国重要会议论文全文数据库 前10条
1 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
2 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
3 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
4 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
5 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
8 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
10 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 范范 编译;HTML5标准将于2014年完成[N];网络世界;2011年
2 ;HTML5新功能引发新的安全问题[N];网络世界;2010年
3 科译;Eolas胜诉可能促使W3C修改HTML[N];中国计算机报;2003年
4 ;将 HTML 转换为 WML[N];网络世界;2000年
5 L.n;让Html编辑器更适合自己[N];电脑报;2002年
6 四川 小菜;HTML增强标记一点通[N];电脑报;2001年
7 河南 张金贵;写出多姿多彩的邮件[N];电脑报;2001年
8 陈维义;HTML如何向XML迁移[N];中国计算机报;2000年
9 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
10 山东 王兰富;妙用IE学习HTML[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 王俭;基于语料库的海明威小说评论研究[D];上海外国语大学;2012年
3 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
4 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
5 何婷婷;语料库研究[D];华中师范大学;2003年
6 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
7 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
8 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
9 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
10 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
7 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
8 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
9 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
10 李艳梅;基于语料库的中国英语学习者与本族语者阐发性话语标记语的对比分析[D];沈阳师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026