收藏本站
《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集》2004年
加入收藏

多文档集合中逻辑主题的确定

秦兵  刘挺  高晔  
【摘要】:把多文档集合中具有相同或相似的句子通过聚类的方法归并成一类,每类即为多文档集合的一个逻辑主题。将多文档集合描述为若干逻辑主题的集合,是从理解的角度来描述多文档集合,在此基础上可以提高多文档文摘的质量。本文首先根据标准语料确定划分逻辑主题的阈值,通过层次聚类方法确定逻辑主题的个数,然后利用k 均值方法对各个类别进行迭代调整,从而提高划分逻辑主题的准确率。实验表明,基于层次聚类的k 均值方法得到的逻辑主题正确率比层次聚类方法得到的逻辑主题正确率平均约高8%。
【作者单位】:哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室
【关键词】:多文档集合 最小类间距离 聚类 逻辑主题
【分类号】:TP393
【正文快照】:
1己l自.JL,口「匀互联网的普及使人们的生活方式发生了巨大的变化,在网络带给人们大量信息的同时,人们的需求也随着网络信息的急剧增长不断地发生着变化,从而促进了许多新技术诞生和发展。多文档文摘是新一代搜索引擎问答系统(QA)的组成部分,现有的搜索引擎只是将一系列与用

【共引文献】
中国期刊全文数据库 前10条
1 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
2 靳伟;张月清;王芳;;基于本体的分类检索系统的设计与实现[J];河北农业大学学报;2010年02期
3 孟祥燕;余正涛;许洋波;毛煜;郭剑毅;;基于改进贝叶斯的领域问答对自动获取[J];广西师范大学学报(自然科学版);2009年01期
4 毛煜;余正涛;孟祥燕;张志坤;许洋波;郭剑毅;;中文问答对过滤方法研究[J];广西师范大学学报(自然科学版);2009年03期
5 刘汉兴;刘财兴;林旭东;;基于问句相似度的本体问答系统[J];广西师范大学学报(自然科学版);2010年01期
6 钟敏娟;万常选;刘爱红;;基于词共现模型的常问问题集的自动问答系统研究[J];情报学报;2009年02期
7 蒋昌金;彭宏;马千里;林正春;王成;;受限领域中文问答系统问句分析研究[J];计算机工程与设计;2010年11期
8 田甜;张振国;;主观题自动阅卷技术研究[J];计算机工程与设计;2010年16期
9 郭涛;郭浩;;图书信息领域中文问句浅层语义分析技术[J];太原理工大学学报;2009年04期
10 邸书灵;刘晓飞;李欢;;基于分词的语句相似度计算的改进[J];石家庄铁道大学学报(自然科学版);2011年04期
中国重要会议论文全文数据库 前2条
1 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前5条
1 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
2 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年
3 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
2 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
3 杨朝玉;基于知网的受限域问答系统原型的设计与实现[D];华南理工大学;2010年
4 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
5 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
6 张振幸;基于知网的模块化的中文句子相似度计算研究[D];安徽工业大学;2010年
7 蒋志鹏;黑龙江移动客户服务自动问答系统的设计与实现[D];哈尔滨工业大学;2010年
8 徐宁;基于案例推理的上市公司失败预警系统研究[D];合肥工业大学;2006年
9 黄莉;基于受限域常问问答库的中文问答系统研究[D];昆明理工大学;2007年
10 王银丽;限定领域内智能问答系统的研究与实现[D];内蒙古大学;2008年
【同被引文献】
中国期刊全文数据库 前2条
1 吴昊;耿焕同;吴祥;;一种基于聚类分析的BBS主题发现算法研究[J];安徽师范大学学报(自然科学版);2009年01期
2 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
中国重要会议论文全文数据库 前1条
1 丁秉公;黄昌宁;黄德根;;文本主题识别研究及应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 陈婷婷;方滨兴;郑军;;基于层次自组织特征映射的网络异常检测系统数据分析器[J];计算机应用与软件;2006年05期
2 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期
3 闵敏;;基于聚类协作过滤的商品个性化推荐系统的实现[J];制造业自动化;2010年02期
4 陈谦;高茂庭;;基于SOM的入侵检测方法研究[J];电脑知识与技术;2010年21期
5 李斌;网络的聚类效果[J];管理科学文摘;1999年08期
6 王晓国,朱炜,黄韶坤,李启炎;一种E-mail挖掘方法及其在CRM中的应用[J];计算机工程;2003年15期
7 张健沛,刘洋,杨静,代坤;搜索引擎结果聚类算法研究[J];计算机工程;2004年05期
8 石明洪;罗永军;白英彩;;基于聚类的对等网络负载优化算法研究[J];计算机工程;2006年13期
9 张静舟;刘燕;;RBF神经网络在入侵检测中的应用[J];河南机电高等专科学校学报;2007年02期
10 赵元媛;;Web挖掘与个性化服务研究[J];商场现代化;2007年17期
中国重要会议论文全文数据库 前10条
1 秦兵;刘挺;高晔;;多文档集合中逻辑主题的确定[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
3 陈明;鹿旸;;基于语义相似度的P2P平衡路由网络[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
4 戴宣;丁伟;;一种基于索引的TCP数据流存储模型及其应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
5 赵艳杰;杨波;;基于数据挖掘的网络入侵检测系统的研究[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 曹雷;杜辉锋;;基于Web挖掘的个性化推荐模型的研究[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 燕飞;张铭;谭裕韦;唐建;邓志鸿;;综合社会行动者兴趣和网络拓扑的社区发现方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 霍英;陈志刚;;结合地理位置与语义聚类的P2P叠加网构建[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
10 张相於;陈继东;李玉坤;孟小峰;;TEXEM:一种基于实体的邮件任务提取策略[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前4条
1 钟卫东;IPv6协议——下一代互联网的核心[N];人民邮电;2001年
2 主持人:徐勇;IPv6协议——下一代互联网的核心[N];人民邮电;2002年
3 汤大权 张维明 邓苏 肖卫东 李勇;主动信息服务[N];计算机世界;2001年
4 ;IPv6的寻址和路由方法[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
2 黄发良;Web信息网络社区挖掘的关键技术研究[D];华南理工大学;2011年
3 杨博;网格任务调度与优化机制研究[D];中南大学;2008年
4 白云;P2P环境中基于语义的资源自组织、发现及推荐研究[D];西南大学;2008年
5 褚瑞;基于虚拟计算环境的内存资源共享技术研究[D];国防科学技术大学;2007年
6 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
7 钱卫宁;对等计算系统中的数据管理[D];复旦大学;2004年
8 张龙昌;面向复杂上下文的组合服务决策方法研究[D];北京邮电大学;2011年
9 王建荣;对等网络中的查询搜索机制与信任模型研究[D];天津大学;2009年
10 熊家军;基于数据挖掘的入侵检测关键技术研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
2 张锦;关于一种混合式入侵检测系统的研究与设计[D];沈阳工业大学;2006年
3 杨德刚;基于数据挖掘的实时入侵检测技术研究[D];重庆大学;2004年
4 庞传军;基于聚类的复杂网络中社团发现算法的研究[D];青岛大学;2009年
5 张莹;基于数据挖掘技术降低入侵检测系统误报率的研究[D];山东大学;2005年
6 姚醒;基于数据挖掘的入侵检测未知攻击识别框架研究[D];浙江大学;2006年
7 林晨;异构环境下非结构化对等网络路由算法研究[D];同济大学;2006年
8 俞琰;基于隐马尔可夫模型的Web信息抽取研究[D];南京工业大学;2005年
9 刘震;分布式入侵检测的若干问题研究[D];汕头大学;2005年
10 张雪琼;基于博弈论的入侵检测系统[D];华中科技大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026