收藏本站
《中国计算语言学研究前沿进展(2009-2011)》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

一种利用注疏的《左传》分词新方法

徐润华  陈小荷  
【摘要】:先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。本文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去。

手机知网App
【参考文献】
中国期刊全文数据库 前5条
1 尉迟治平;计算机技术和汉语史研究[J];古汉语研究;2000年03期
2 常娥;侯汉清;曹玲;;古籍自动校勘的研究和实现[J];中文信息学报;2007年02期
3 石民;李斌;陈小荷;;基于CRF的先秦汉语分词标注一体化研究[J];中文信息学报;2010年02期
4 肖磊;陈小荷;;古籍版本异文的自动发现[J];中文信息学报;2010年05期
5 邱冰;皇甫娟;;基于中文信息处理的古代汉语分词研究[J];微计算机信息;2008年24期
【共引文献】
中国期刊全文数据库 前10条
1 徐紫云;徐雪松;;从自动分词角度看先秦与现代汉语词汇区别[J];华东交通大学学报;2009年06期
2 黄建年;侯汉清;;农业古籍断句标点模式研究[J];中文信息学报;2008年04期
3 石民;李斌;陈小荷;;基于CRF的先秦汉语分词标注一体化研究[J];中文信息学报;2010年02期
4 肖磊;陈小荷;;古籍版本异文的自动发现[J];中文信息学报;2010年05期
5 孙德平;《广雅疏证》的计算机处理[J];南阳师范学院学报(社会科学版);2004年07期
6 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
7 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[J];中文信息学报;2012年02期
8 张颖杰;李斌;陈家骏;陈小荷;;基于词典信息的先秦汉语全文词义标注方法研究[J];中文信息学报;2012年03期
9 邱冰;皇甫娟;周新运;;汉语专书词汇研究工作流程的信息化及应用[J];计算机应用;2012年S1期
10 童琴;;《洪武正韵》数字化过程中异体字的处理[J];湖北第二师范学院学报;2010年06期
中国重要会议论文全文数据库 前3条
1 石民;陈小荷;于丽丽;李斌;;基于CRF的古汉语分词标注一体化研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 康生巧;白宇;韩亚冬;蔡东风;;基于句子相似的古今句子检索[A];第六届全国信息检索学术会议论文集[C];2010年
3 张颖杰;李斌;陈家骏;陈小荷;;基于词典的半指导学习古汉语全文词义标注[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前4条
1 汤勤;《史记》与《战国策》语言比较研究[D];华中科技大学;2006年
2 仝小琳;唐五代《切韵》系韵书演变研究[D];华中科技大学;2008年
3 胡杰;先秦楚系简帛语音研究[D];华中科技大学;2009年
4 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
中国硕士学位论文全文数据库 前7条
1 胡芬芬;中国历史文献网络应用研究[D];华中师范大学;2003年
2 甘勇;《广雅疏证》的数字化处理及其同源字研究[D];华中科技大学;2005年
3 姜永超;《说文解字》引“通人说”考[D];华中科技大学;2006年
4 王琪;日本悉昙家所记古汉语声母[D];华中科技大学;2006年
5 宋静;王祯《农书》的数字化研究[D];南京农业大学;2008年
6 陈爱志;中文古典文献的数字化及对其整理研究的影响[D];福建师范大学;2008年
7 康生巧;中医药知识检索系统的研究与实现[D];沈阳航空航天大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 唐武,王乃斌;中文自动校对的原理与实现[J];北京印刷学院学报;1995年01期
2 李国新;中国古籍资源数字化的进展与任务[J];大学图书馆学报;2002年01期
3 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
4 尉迟治平;计算机技术和汉语史研究[J];古汉语研究;2000年03期
5 黄德根;孙迎红;;中文地名的自动识别[J];计算机工程;2006年03期
6 赵作鹏;尹志民;王潜平;许新征;江海峰;;一种改进的编辑距离算法及其在数据处理中的应用[J];计算机应用;2009年02期
7 姜哲,马少平,夏莹;大型中文古籍《四库全书》自动版面分析系统[J];中文信息学报;2000年02期
8 黄德根,岳广玲,杨元生;基于统计的中文地名识别[J];中文信息学报;2003年02期
9 常娥;侯汉清;曹玲;;古籍自动校勘的研究和实现[J];中文信息学报;2007年02期
10 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
中国硕士学位论文全文数据库 前1条
1 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
3 肖文辉;;基于MySQL的全文检索系统的研究与应用[J];广西质量监督导报;2008年06期
4 肖克曦;;在线英语语料库自动分词和分句的实现[J];电脑知识与技术;2010年28期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 许云,樊孝忠,张锋;一种不需分词的中文文本分类方法[J];北京理工大学学报;2005年09期
7 陈福生;;全文检索在网站搜索系统中的应用[J];电脑编程技巧与维护;2009年12期
8 徐九韵,仝兆岐,向逐聪,王新民;数据库汉语查询语言的分词研究与实现[J];中文信息学报;1998年04期
9 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
10 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
中国重要会议论文全文数据库 前10条
1 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
3 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
4 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
2 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
3 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
4 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
5 朱艳;术语解释[N];中国电脑教育报;2000年
6 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
7 郑依华;搜索引擎也开源[N];计算机世界;2006年
8 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
9 清华大学计算机系人机交互与媒体集成研究所 陶建华 蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年
10 ;特殊符号在搜索引擎中的妙用[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
4 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
5 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
6 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
7 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
8 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
9 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
10 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
6 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
7 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
8 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
9 陈焱劼;搜索引擎系统的设计与实现[D];北京交通大学;2011年
10 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026