收藏本站
《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集》2004年
加入收藏

多文档集合中逻辑主题的确定

秦兵  刘挺  高晔  
【摘要】:把多文档集合中具有相同或相似的句子通过聚类的方法归并成一类,每类即为多文档集合的一个逻辑主题。将多文档集合描述为若干逻辑主题的集合,是从理解的角度来描述多文档集合,在此基础上可以提高多文档文摘的质量。本文首先根据标准语料确定划分逻辑主题的阈值,通过层次聚类方法确定逻辑主题的个数,然后利用k 均值方法对各个类别进行迭代调整,从而提高划分逻辑主题的准确率。实验表明,基于层次聚类的k 均值方法得到的逻辑主题正确率比层次聚类方法得到的逻辑主题正确率平均约高8%。
【作者单位】:哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室
【关键词】:多文档集合 最小类间距离 聚类 逻辑主题
【分类号】:TP393
【正文快照】:
1己l自.JL,口「匀互联网的普及使人们的生活方式发生了巨大的变化,在网络带给人们大量信息的同时,人们的需求也随着网络信息的急剧增长不断地发生着变化,从而促进了许多新技术诞生和发展。多文档文摘是新一代搜索引擎问答系统(QA)的组成部分,现有的搜索引擎只是将一系列与用

【共引文献】
中国期刊全文数据库 前5条
1 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
2 杨晓明;罗振声;;模式匹配在中文问答系统中的应用研究[J];科学技术与工程;2006年03期
3 张宇,刘挺,文勖;基于改进贝叶斯模型的问题分类[J];中文信息学报;2005年02期
4 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
5 闫宏飞,陈翀;词汇与中心词的距离信息对问句相似度匹配的影响[J];清华大学学报(自然科学版);2005年S1期
中国重要会议论文全文数据库 前1条
1 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前4条
1 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
2 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年
3 徐宁;基于案例推理的上市公司失败预警系统研究[D];合肥工业大学;2006年
4 黄莉;基于受限域常问问答库的中文问答系统研究[D];昆明理工大学;2007年
【同被引文献】
中国期刊全文数据库 前1条
1 谭俊峰,张朋柱,黄丽宁;综合集成研讨厅中的研讨信息组织模型[J];系统工程理论与实践;2005年01期
中国重要会议论文全文数据库 前1条
1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国重要会议论文全文数据库 前1条
1 秦兵;刘挺;高晔;;多文档集合中逻辑主题的确定[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026