收藏本站
《第三届全国信息检索与内容安全学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

文本聚类中基于知网的特征抽取方法

王智超  季铎  蔡东风  张桂平  
【摘要】:本文将语义分析引入到文本聚类的任务中,提出了一种基于知网的特征抽取方法。针对词语的一词多义的现象,从全文的角度考察词的语义,结合相关概念场,将词义排歧转化为对相关概念场中的词在全文出现频率的计算。实验证明,经过词义消歧后,将文本中的词语映射为知网中的义原,显著地降低了特征空间的维数,使聚类宏平均 F1值提高了6个百分点。

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 廖莎莎;江铭虎;;中文文本分类中基于概念屏蔽层的特征提取方法[J];中文信息学报;2006年03期
2 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
3 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
【共引文献】
中国期刊全文数据库 前10条
1 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
2 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
3 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
4 陈天莹;陈蓉;潘璐璐;李红军;于中华;;基于前后文n-gram模型的古汉语句子切分[J];计算机工程;2007年03期
5 谈文蓉;符红光;刘莉;杨宪泽;;一种基于贝叶斯分类与机读词典的多义词排歧方法[J];计算机应用;2006年06期
6 张映海;何中市;陈永锋;;搜索引擎结果中Web文档的排序研究[J];计算机与数字工程;2007年02期
7 龚永恩;袁春风;武港山;;基于语义的词义消歧算法初探[J];计算机应用研究;2006年03期
8 刘冬明,杨尔弘,方莹;汉英双语平行语料库的词义标注[J];中文信息学报;2005年06期
9 谷波;李济洪;刘开瑛;;基于COSA算法的中文文本聚类[J];中文信息学报;2007年06期
10 娜步青;;基于统计的蒙汉机器翻译系统研究[J];内蒙古农业大学学报(社会科学版);2006年02期
中国重要会议论文全文数据库 前7条
1 丁江伟;刘挺;卢志茂;李生;;隐马尔可夫模型和贝叶斯模型词义消歧对比研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 刘冬明;杨尔弘;;基于汉英双语平行语料库的词义排歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 曲维光;董宇;陈钟;陈小荷;;基于语境计算模型的词义消歧[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 邹红建;杨尔弘;;面向对外汉语报刊教学的文本难易度分类[A];第三届学生计算语言学研讨会论文集[C];2006年
5 金东日;;在朝汉机器翻译上出现转换的难点[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 钟茂生;;自然语言中的对象及其处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
2 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
3 雷震;基于事件的新闻报道分析技术研究[D];国防科学技术大学;2006年
4 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
5 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
6 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
7 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
8 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
9 方淼;语义单元自动获取研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘冬明;汉英双语平行语料库中对齐方法的研究[D];山西大学;2004年
2 刘亚清;基于词义的汉语排歧方法研究[D];南京理工大学;2004年
3 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
4 刘江;大规模汉语语料库分词一致性检验技术研究[D];山西大学;2005年
5 赵艳芳;面向Internet的个性化信息服务的研究[D];云南师范大学;2005年
6 顾平;一种智能型数码输入技术的研究与设计[D];苏州大学;2005年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 郭妍;基于市长公开电话文本为背景的两种自动分类算法的比较[D];东北师范大学;2006年
9 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
10 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
【同被引文献】
中国期刊全文数据库 前3条
1 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
2 李洋;;K-means聚类算法在入侵检测中的应用[J];计算机工程;2007年14期
3 易高翔,程耕国;Web文本挖掘研究[J];武汉科技大学学报(自然科学版);2005年01期
【二级参考文献】
中国期刊全文数据库 前10条
1 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
2 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
3 傅伟鹏,吴斌,何清,史忠植;一种概念空间自生成方法[J];计算机工程与应用;2002年07期
4 李莼,罗振声,厉宇航;基于语义相关和概念相关的自动分类方法研究[J];计算机工程与应用;2003年12期
5 季姮,罗振声,万敏,高小云;基于概念统计和语义层次分析的英文自动文摘研究[J];中文信息学报;2003年02期
6 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
7 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
8 钱铁云,王元珍,冯小年;结合类频率的关联中文文本分类[J];中文信息学报;2004年06期
9 王萌,何婷婷,姬东鸿,王晓荣;基于HowNet概念获取的中文自动文摘系统[J];中文信息学报;2005年03期
10 李涓子,黄昌宁;基于转换的无指导词义标注方法[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 欣文;;同方知网举办第四届数博会云出版、云数字图书馆论坛[J];出版参考;2011年21期
2 张岩;武玉强;;一种改进的模块PCA人脸识别新方法[J];计算机工程与应用;2011年26期
3 袁国女;;中国知网力推我国数字出版“走出去”新平台[J];中国出版;2011年17期
4 罗夏峰;明曙军;刘永俊;;彩色人脸图像鉴别特征抽取综述[J];常熟理工学院学报;2011年04期
5 徐春明;;一种光滑局部敏感鉴别分析方法[J];计算机工程;2011年13期
6 黄传波;金忠;;基于视觉注意的彩色图像检索方法[J];光子学报;2011年07期
7 奉国和;郑伟;;文本分类特征降维研究综述[J];图书情报工作;2011年09期
8 陈才扣;史骏;侯钰;姜敏;;基于局部均值的广义散度差无监督鉴别分析[J];计算机工程与设计;2011年07期
9 申莹;徐东平;庞俊;;基于概念的中文博客情感极性聚类分析[J];计算机系统应用;2011年08期
10 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
中国重要会议论文全文数据库 前10条
1 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 孙萌;姚建民;吕雅娟;刘群;姜文斌;;基于最大熵短语重排序模型的特征抽取算法改进[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 陈才扣;侯钰;;自适应监督鉴别投影分析[A];中国自动化学会控制理论专业委员会A卷[C];2011年
5 董强;董振东;;基于知网的相关概念场的构建[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 胡佳妮;郭军;徐蔚然;;一种基于短文本的独立语义特征抽取算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 白宇;蔡东风;赵环宇;季铎;;基于语义计算的中文相似问句抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 邓中亮;;雕刻型面的特征抽取机制与自动辩识[A];1998年中国智能自动化学术会议论文集(下册)[C];1998年
10 杨尔弘;米丽萍;郝秀兰;;基于《知网》的词义排岐方法[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 记者 陈磊;中国知网率先推出优先数字出版[N];科技日报;2010年
2 见习记者 廖小珊;中国知网推出优先数字出版 读者可多种数字渠道获取[N];中国新闻出版报;2010年
3 本报记者 杨杨;投资、创业两不误:李童的“新孩子”恒知网[N];21世纪经济报道;2011年
4 记者 王秀萍;“中国知网”集约化印刷华北基地在并建成[N];山西经济日报;2010年
5 程晓龙;中国知网联姻施普林格[N];中国新闻出版报;2008年
6 陈;思科用无线感知网络[N];中国计算机报;2003年
7 李大庆;中国知网与施普林格全面合作[N];科技日报;2008年
8 路华;中华行知网(www.sotrip.com)文化与旅游的契合[N];中国旅游报;2000年
9 高向东;千家数字图书馆对接“中国知网”数字出版平台[N];山西日报;2007年
10 计亚男;中国知网数据库携手施普林格[N];光明日报;2008年
中国博士学位论文全文数据库 前10条
1 赵才荣;基于图嵌入与视觉注意的特征抽取[D];南京理工大学;2011年
2 万鸣华;基于图嵌入的特征抽取与人脸识别研究[D];南京理工大学;2011年
3 曾雪强;偏最小二乘降维方法的研究与应用[D];上海大学;2009年
4 王正群;手写体汉字识别研究[D];南京理工大学;2001年
5 赵海涛;投影分析在人脸识别中的研究与应用[D];南京理工大学;2003年
6 徐勇;几种线性与非线性特征抽取方法及人脸识别应用[D];南京理工大学;2004年
7 刘毅;非平稳信号的小波分析与拟合问题研究[D];山东大学;2006年
8 陈才扣;基于核的非线性特征抽取与图象识别研究[D];南京理工大学;2004年
9 高秀梅;基于核投影分析的特征抽取及应用研究[D];南京理工大学;2004年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 王萌;基于概念向量空间模型的中文自动文摘研究[D];华中师范大学;2005年
2 许超;汉英双语网页资源中相同事件文本对的提取[D];南京师范大学;2005年
3 张静静;基于知网文本相似度的文摘自动评测方法研究[D];中国石油大学;2011年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 尹本雄;中文搜索引擎中的文档特征提取研究[D];广西师范大学;2004年
6 李林林;高炉专家系统中知识库的研究与实现[D];东北大学;2005年
7 蒋冀翔;基于非负矩阵分解的信息获取方法研究[D];东南大学;2006年
8 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
9 苗雪雷;基于条件随机场的汉语词义消歧方法研究[D];沈阳航空工业学院;2007年
10 曹丽;基于流形的特征抽取及人脸识别研究[D];扬州大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026