收藏本站
《中国计算机语言学研究前沿进展(2007-2009)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

归一化的邻接类别方法在基于条件随机场的中文分词中的应用

何赛克  王小捷  董远  张韬政  白雪  
【摘要】:在自然语言处理中,中文分词系统的性能在很大程度上受制于其对未登录词(unknown words)的处理能力。本文提出了一种无监督和有监督相结合的中文分词方法。即:将邻接类别方法引入基于条件随机场的中文分词系统中。并针对邻接类别方法(Accessor Variety,AV)在处理较少的训练数据(training data)时存在的缺陷,提出了一种归一化的改进方法,以减轻计算AV值时产生的波动。此外,其它的一些后处理方法,如:一致性检测和基于转换的错误学习方法(TBL)也被用于提升中文分词系统的性能。

手机知网App
【共引文献】
中国期刊全文数据库 前8条
1 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
2 江爱朋;邵之江;方学毅;郑小青;钱积新;;基于有限存储的简约空间序列二次规划算法研究[J];电路与系统学报;2007年05期
3 于江德;樊孝忠;庞文博;余正涛;;基于条件随机场的语义角色标注(英文)[J];Journal of Southeast University(English Edition);2007年03期
4 顾桂定,王德人;成组Broyden修正矩阵的紧凑形式与成组记忆修正算法[J];高等学校计算数学学报;1998年02期
5 周雪燕;韩建敏;;基于条件随机场汉语分词的语料规模量化研究[J];电脑与电信;2012年07期
6 付三平;于静;韩丛英;;支持向量机子问题的算法研究[J];山东理工大学学报(自然科学版);2012年01期
7 于江德;睢丹;樊孝忠;;基于字的词位标注汉语分词[J];山东大学学报(工学版);2010年05期
8 刘士平;Multiple Schubert's Updating Matrix and Its Compact Representation[J];Journal of Shanghai University;2002年04期
中国重要会议论文全文数据库 前3条
1 王周宏;;符号几何规划的全局解方法[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
2 刘中意;孙文瑜;;大型有界约束最优化问题的子空间有限存储BFGS算法(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
3 李在禾;;等式约束优化的一个子空间算法的下降性质(英文)[A];中国运筹学会第九届学术交流会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 孙霖;人脸识别中的活体检测技术研究[D];浙江大学;2010年
2 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
3 刘浩;大规模非线性方程组和无约束优化方法研究[D];南京航空航天大学;2008年
4 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 仲卫涛;过程系统的大规模优化问题研究[D];浙江大学;2001年
7 熊昕东;轻烃回收分馏过程操作优化理论与技术研究[D];西南石油学院;2004年
8 江爱朋;大规模简约空间SQP算法及其在过程系统优化中的应用[D];浙江大学;2005年
9 张丽;求解最优化问题的非线性共轭梯度法[D];湖南大学;2006年
10 周伟军;拟牛顿法及其收敛性[D];湖南大学;2006年
中国硕士学位论文全文数据库 前10条
1 张新颜;集合多标签文本分类研究[D];辽宁工程技术大学;2011年
2 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
3 宫静;求解大规模非线性界约束优化问题的两个信赖域内点方法[D];北京交通大学;2008年
4 李廷锋;求解大规模无约束优化问题的修正L-BFGS方法[D];河南大学;2008年
5 梁波;一个修正的求解非线性规划问题的有限储存SQP算法[D];南京航空航天大学;2007年
6 徐波;基于条件随机场的口语规范化处理研究[D];南京理工大学;2009年
7 莫凌琳;基于条件随机场的科研论文信息分层抽取研究[D];重庆大学;2009年
8 侯娜;基于条件随机场的元数据自动提取技术研究[D];燕山大学;2009年
9 谭鹏程;大规模过程动态优化算法研究[D];浙江大学;2010年
10 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 王靖;徐向阳;符蓉;;一种优化的用于中文分词的CRF机器学习模型[J];微计算机信息;2010年12期
2 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期
3 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接变化数方法在中文分词中的应用[J];中文信息学报;2010年01期
4 秦颖;王小捷;钟义信;;级联中文组块识别[J];北京邮电大学学报;2008年01期
5 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
6 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
7 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
8 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
9 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
10 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
中国重要会议论文全文数据库 前10条
1 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 计峰;高沫;邱锡鹏;黄萱菁;;中文机构名简称的自动生成研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
7 代翠;周俏丽;蔡东风;;统计和规则相结合的汉语最长名词短语自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
9 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
10 王东波;陈小荷;年洪东;;基于条件随机场的有标记联合结构自动识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前2条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
4 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 禇一平;基于条件随机场模型的视频目标分割算法研究[D];浙江大学;2007年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 许红涛;Web图像语义分析与自动标注研究[D];复旦大学;2009年
10 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
3 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
4 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
5 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
6 孟美华;桌面搜索引擎的设计与实现[D];大连理工大学;2009年
7 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
8 张晓淼;基于神经网络的中文分词算法的研究[D];大连理工大学;2006年
9 谢骋超;基于语义的数据库全文检索系统[D];浙江大学;2006年
10 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026