收藏本站
《CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于词性特征提取的藏文文本分类方法研究

贾会强  刘晓丽  于洪志  
【摘要】:在介绍信息增益、互信息、X~2(CHI)统计量和期望交叉墒4种常用的藏文文本分类提取特征词的基础上,研究了基于词性特征提取的方法和特征词权重计算;同时介绍了基于词性特征提取的算法描述和流程图,并通过引进查全率、查准率和F-测试对线性可分支持向量机分类的准确性进行了评测;最后引进G函数对基于词性特征提取方法提取特征词效率和降低向量维数效果进行检验,实验结果证明基于词性特征提取的方法缩减了特征词的个数,降低了向量的维数,而且分类的准确性大大提高。
【作者单位】:中国民族语言文字信息技术重点实验室
【基金】:国家支撑项目(2009BAH41B00)资助
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前6条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
3 李辉,史忠植,许卓群;运用文本领域的常识改善基于支撑向量机的文本分类器性能[J];中文信息学报;2002年02期
4 邓汉成,王瑛,王敏芳;从检索实例看查全率与查准率之间的关系[J];情报学报;2000年03期
5 胡燕;吴虎子;钟珞;;中文文本分类中基于词性的特征提取方法研究[J];武汉理工大学学报;2007年04期
6 陈玉忠,李保利,俞士汶,兰措吉;基于格助词和接续特征的藏文自动分词方案[J];语言文字应用;2003年01期
中国硕士学位论文全文数据库 前1条
1 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
【共引文献】
中国期刊全文数据库 前10条
1 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
2 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
3 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
4 胡迪;陈运;杨义先;陈悦;;基于支持向量机与余弦夹角法的中文网页过滤的研究与设计[J];成都信息工程学院学报;2011年05期
5 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期
6 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
7 曾华琳;周昌乐;郑旭玲;;A New Word Detection Method for Chinese Based on Local Context Information[J];Journal of Donghua University(English Edition);2010年02期
8 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
9 周如旗;基于扩展Petri网的文本分类模型[J];电脑与信息技术;2005年04期
10 毕静;;自动分类技术研究[J];电脑知识与技术;2009年04期
中国重要会议论文全文数据库 前10条
1 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
2 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
3 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年
4 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
8 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
9 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
10 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
3 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
4 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
5 梁晔平;中文文本自动分类相关算法的研究与实现[D];华南理工大学;2010年
6 陈雅芳;中文文本分类方法研究[D];浙江大学;2010年
7 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
8 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
10 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 刘源,梁南元;汉语处理的基础工程——现代汉语词频统计[J];中文信息学报;1986年01期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 刘涌泉;再读词的问题[J];中文信息学报;1988年02期
6 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期
7 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
8 黄祥喜;书面汉语自动分词的“生成——测试”方法[J];中文信息学报;1989年04期
9 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
10 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
中国重要会议论文全文数据库 前1条
1 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前2条
1 章兰;一种基于VSM模型的动态文本分类器的设计[D];苏州大学;2004年
2 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
【相似文献】
中国期刊全文数据库 前10条
1 李广原;一种特征词权重调整算法的研究[J];电脑与信息技术;2005年04期
2 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
3 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
4 牛强;王志晓;陈岱;夏士雄;;基于KNN的Web文本分类方法的研究[J];计算机应用与软件;2007年10期
5 田昕辉;李成基;;带有短语切分的中文文本分类方法(英文)[J];计算机技术与发展;2010年01期
6 何国辉;吴礼发;;基于机器学习的文本分类技术的研究[J];计算机与现代化;2009年08期
7 方莹;;多角度的特征提取方法[J];郑州轻工业学院学报(自然科学版);2010年03期
8 李文;王炜立;;中文文本理解技术在法律案情文本分类中的应用[J];南昌大学学报(工科版);2007年01期
9 贺一帆;江铭虎;;网络文本分类中基于信息瓶颈的特征提取[J];清华大学学报(自然科学版);2010年01期
10 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
4 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
2 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
3 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
4 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
5 方忠诚;OCR技术及其应用[N];北京电子报;2000年
6 成成;指纹识别 正走入我们的生活[N];山西科技报;2000年
7 ;视频数据中挖“宝”[N];计算机世界;2002年
8 陈丽梅;一指“走”天下[N];光明日报;2000年
9 黄培;企业的生产经营与信息系统[N];中国机电日报;2000年
10 吴思、杨春、王雁凌;掀起多媒体检索革命[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
3 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
4 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
5 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
6 权胜赫;基于形状特征三维模型检索的一些关键技术实现研究[D];吉林大学;2007年
7 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
8 赵武锋;人脸识别中特征提取方法的研究[D];浙江大学;2009年
9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
10 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
2 张淼;基于支持向量机的文本分类系统研究[D];大庆石油学院;2008年
3 陈伟萍;基于语义概念的中文文本分类研究[D];燕山大学;2006年
4 刘亚南;KNN文本分类中基于遗传算法的特征提取技术研究[D];中国石油大学;2011年
5 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
6 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
7 李文;公安执法监督管理中的文本理解技术的研究及其应用[D];南昌大学;2005年
8 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
9 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
10 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026