收藏本站
《第四届全国学生计算语言学研讨会会议论文集》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

一种利用关键词提取的面向查询多文档文摘技术

马亮  何婷婷  陈劲光  李芳  邵伟  
【摘要】:针对面向查询的多文档自动文摘,本文提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分.最后生成文摘。本文将特征融合引入到词语层面,在DUC2005的语料中测试效果很好。
【作者单位】:华中师范大学计算机科学系 国家语言资源监测与研究中心网络媒体分中心
【基金】:国家自然科学基金,编号:60773167 国家社会科学基金,编号:06BYY029 湖北省自然科学基金计划项目,编号:2006ABC011 973国家重点基础研究发展计划,编号:2007CB310804 教育部/国家外国专家局高等学校学科创新引智计划,编号:B07042
【分类号】:TP391.1
【正文快照】:
科虑冗余性的情况下反复抽取出分数最高的句子作为最后的文摘句。该系统在DUCZo07的评测比赛中取得了多项第一的成绩。21 heng Lin等人[2]提出一种构建带时间戳的图模型来模拟人类写作和阅读的过程,从图中寻找关系对句子排序,并采用恻R技术抽取文摘句构成文摘,该系统在DUC2

【参考文献】
中国重要会议论文全文数据库 前1条
1 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
【二级参考文献】
中国期刊全文数据库 前1条
1 王萌,何婷婷,姬东鸿,王晓荣;基于HowNet概念获取的中文自动文摘系统[J];中文信息学报;2005年03期
【相似文献】
中国期刊全文数据库 前10条
1 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
2 王萌;徐超;李春贵;何婷婷;;一种概念同现模型的多文档文摘研究[J];计算机工程与科学;2011年07期
3 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
4 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
5 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
6 王鹏;;垂直搜索引擎及其个性化推荐研究[J];潍坊学院学报;2011年04期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 秦兵;刘挺;李生;;基于子主题的多文档文摘[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
5 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 黄海源;郑德权;赵铁军;;面向特定领域的多文档文摘技术研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
8 姚超;李生;张姝;郑德权;;基于内聚度的多文档文摘句子排序[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
中国重要报纸全文数据库 前1条
1 钟赫;练好十大绝招做好企业微博营销[N];中国高新技术产业导报;2011年
中国博士学位论文全文数据库 前10条
1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
4 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
5 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
6 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
7 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
8 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
9 甄凤超;基于语料库的中国英语外语学习者口语交际能力研究:COLSEC中的预构成语块、图式、语用特征及策略[D];上海交通大学;2006年
10 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 梁伟明;中文关键词提取技术[D];上海交通大学;2010年
2 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
3 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
4 谢晋;基于词跨度的中文文本关键词提取及在文本分类中的应用[D];浙江工业大学;2011年
5 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年
6 任新社;基于改进特征值的语音关键词提取[D];南京师范大学;2012年
7 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
8 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
9 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
10 何金艳;基于内容分析的Blog话题检测方法研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026