收藏本站
《第四届全国学生计算语言学研讨会会议论文集》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

一种利用关键词提取的面向查询多文档文摘技术

马亮  何婷婷  陈劲光  李芳  邵伟  
【摘要】:针对面向查询的多文档自动文摘,本文提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分.最后生成文摘。本文将特征融合引入到词语层面,在DUC2005的语料中测试效果很好。
【作者单位】:华中师范大学计算机科学系 国家语言资源监测与研究中心网络媒体分中心
【关键词】:多文档文摘 关键词提取 文摘句选择
【基金】:国家自然科学基金,编号:60773167 国家社会科学基金,编号:06BYY029 湖北省自然科学基金计划项目,编号:2006ABC011 973国家重点基础研究发展计划,编号:2007CB310804 教育部/国家外国专家局高等学校学科创新引智计划,编号:B07042
【分类号】:TP391.1
【正文快照】:
科虑冗余性的情况下反复抽取出分数最高的句子作为最后的文摘句。该系统在DUCZo07的评测比赛中取得了多项第一的成绩。21 heng Lin等人[2]提出一种构建带时间戳的图模型来模拟人类写作和阅读的过程,从图中寻找关系对句子排序,并采用恻R技术抽取文摘句构成文摘,该系统在DUC2

【参考文献】
中国重要会议论文全文数据库 前1条
1 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
【共引文献】
中国硕士学位论文全文数据库 前4条
1 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
2 李芳;面向查询的多模式自动摘要研究[D];华中师范大学;2009年
3 刘星星;热点事件发现及事件内容特征自动抽取研究[D];华中师范大学;2009年
4 马亮;面向查询多文档文摘的文摘句选择与排序研究[D];华中师范大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 马亮;何婷婷;李芳;陈劲光;邵伟;;以关键词抽取为核心的文摘句选择策略[J];中文信息学报;2008年06期
2 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
3 程岚岚,何丕廉,孙越恒;基于朴素贝叶斯模型的中文关键词提取算法研究[J];计算机应用;2005年12期
4 宋宣辰;刘贵全;;基于主题概念抽取的多文档文摘方法[J];计算机工程;2010年04期
5 秦兵;刘挺;陈尚林;李生;;多文档文摘中句子优化选择方法研究[J];计算机研究与发展;2006年06期
6 秦鹏;张华平;刘金刚;;基于新词发现技术的关键词提算法的研究[J];微计算机信息;2010年33期
7 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
8 云晓燕;王春英;;基于最大树法的多文档文摘子主题划分[J];辽宁科技大学学报;2009年06期
9 沙芸;张国英;孟凡亮;;基于关键词提取的娱乐新闻文档去重算法[J];广西师范大学学报(自然科学版);2007年02期
10 方俊;郭雷;王晓东;;基于语义的关键词提取算法[J];计算机科学;2008年06期
中国重要会议论文全文数据库 前10条
1 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 秦兵;刘挺;李生;;基于子主题的多文档文摘[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄海源;郑德权;赵铁军;;面向特定领域的多文档文摘技术研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 姚超;李生;张姝;郑德权;;基于内聚度的多文档文摘句子排序[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
10 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前8条
1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
4 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
5 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
6 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
7 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
8 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 梁伟明;中文关键词提取技术[D];上海交通大学;2010年
2 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
3 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
4 谢晋;基于词跨度的中文文本关键词提取及在文本分类中的应用[D];浙江工业大学;2011年
5 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年
6 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
7 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
8 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
9 姚超;中文多文档文摘关键技术研究[D];哈尔滨工业大学;2007年
10 张亮;数字图书馆多层次阅读扩展系统[D];浙江大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026