收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题模型LDA的多文档自动摘要

杨潇  马军  杨同峰  杜言琦  邵海敏  
【摘要】:随着Web上文档数量的指数型增长,文档摘要起到越来越重要的作用,近年来使用概率主题模型表示多文档摘要问题受到研究者的关注。LDA(Latent Dirichlet Allocation)是主题模型中具有代表性的概率生成性模型之一。本文提出了一种基于LDA的文摘方法,该方法以复杂度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度。根据LDA模型中主题的概率分布和句子的概率分布提出了两种不同的句子权重计算模型。实验中使用ROUGE评测标准,与代表最新水平的SumBasic和其他基于LDA的多文档摘要在普通多文档摘要测试集DUC2002上的评测数据进行比较,结果表明本文提出的基于LDA的多文档摘要在ROUGE的各个评测标准上均优于SumBasic,与其他基于LDA模型的文摘相比也具有优势。

知网文化
【相似文献】
中国重要会议论文全文数据库 前5条
1 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
2 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 肖华松;何婷婷;邵伟;胡珀;;一种改进K-means聚类算法在多文档文摘中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
2 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
3 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前4条
1 肖欣延;基于词汇链和PageRank的多文档自动文摘研究[D];厦门大学;2008年
2 肖华松;基于自适应聚类的中文多文档自动文摘研究[D];华中师范大学;2008年
3 安迪;基于名实体的自动综述系统研究[D];中国石油大学;2009年
4 云晓燕;多文档自动文摘系统的研究与应用[D];辽宁科技大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978