收藏本站
《全国网络与信息安全技术研讨会论文集(下册)》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

面向互联网的话题发现技术研究

邱立坤  陶然  龙志祎  程葳  
【摘要】:话题发现与跟踪(Topic Detection and Tracking,TDT)是一项由国际公开评测驱动的研究,旨在依据事件对语音和文本信息进行分析和组织。自1996年启动以来,该研究受到普遍关注,取得巨大进步, 也遇到诸多困难。大部话题发现与跟踪研究着眼于 TDT 评测的需要,以提高在 TDT 语料上的精度为目标, 在面对实际数据时效果难以令人满意。本文将各种常用的聚类方法和比较策略组合起来形成四种实验方案, 并针对四种实验方案在处理实际数据的表现进行比较分析。实验结果证明在面向实验数据时,带缓冲的改进 single-pass 方法和 average-link 的组合能取得较好的精度;分治聚类方法的引入则可以大幅度减少时间消耗。

【引证文献】
中国重要会议论文全文数据库 前1条
1 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国硕士学位论文全文数据库 前1条
1 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
2 谢林燕;戚银城;孙卓;;地点信息在话题检测中的应用[J];电子科技;2012年01期
3 武军娜;戚银城;杨迪;张华芳子;刘明军;;时间信息在话题跟踪中的应用[J];电子科技;2012年07期
4 王敏杰;;话题检测与跟踪技术[J];黑龙江科技信息;2012年23期
5 逯万辉;马建霞;赵迎光;;爆发词识别与主题探测技术研究综述[J];情报理论与实践;2012年06期
6 陆蓓;程肖;谌志群;;互联网舆情挖掘研究述略[J];情报资料工作;2010年02期
7 洪宇;张宇;范基礼;刘挺;李生;;基于语义域语言模型的中文话题关联检测[J];软件学报;2008年09期
8 洪宇;仓玉;姚建民;周国栋;朱巧明;;话题跟踪中静态和动态话题模型的核捕捉衰减[J];软件学报;2012年05期
9 易平;刘宗田;周文;;人物传记研究综述[J];计算机工程与设计;2009年14期
10 王振宇;吴泽衡;唐远华;;基于多向量和二次聚类的话题检测[J];计算机工程与设计;2012年08期
中国重要会议论文全文数据库 前5条
1 陈都;郑玲;;基于反馈学习的自适应搜索机制的研究[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
5 钱铁云;许承瑜;王丽娜;尹为民;;一种基于社区划分的科技主题识别算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前9条
1 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
2 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
3 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
5 单建芳;面向事件的文本表示研究[D];上海大学;2012年
6 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
7 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
8 文军;新闻视频故事单元跟踪关键技术研究[D];国防科学技术大学;2008年
9 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
2 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
3 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
4 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
5 和婷;面向机械产品设计领域中自然语言理解的动词聚类[D];西安电子科技大学;2011年
6 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
7 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
8 吴泽衡;基于话题检测和情感分析的互联网热点分析与监控技术研究[D];华南理工大学;2011年
9 刘旭;基于互联网数据的话题发现及追踪技术研究与实现[D];复旦大学;2010年
10 袁吕;基于话题检测与跟踪的话题搜索技术研究[D];哈尔滨工业大学;2010年
【同被引文献】
中国期刊全文数据库 前7条
1 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
2 冷若冰;;网络BBS的议题特征及其建构[J];东南传播;2009年05期
3 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
4 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
5 吴昊;耿焕同;;基于潜在语义分析的BBS主题发现算法研究[J];电脑知识与技术;2008年29期
6 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
7 陈宁,陈安,周龙骧;基于密度的增量式网格聚类算法(英文)[J];软件学报;2002年01期
中国重要会议论文全文数据库 前1条
1 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前2条
1 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
2 张岩;基于TSE专业领域搜索引擎研究与实现[D];吉林大学;2008年
【二级引证文献】
中国期刊全文数据库 前2条
1 李弼程;林琛;周杰;王允;;网络舆情态势分析模式研究[J];情报科学;2010年07期
2 余传明;张小青;陈雷;;基于LDA模型的评论热点挖掘:原理与实现[J];情报理论与实践;2010年05期
中国博士学位论文全文数据库 前1条
1 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前10条
1 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
2 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
3 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
4 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
5 李超;基于Web的实例知识条目自动构建方法[D];哈尔滨工业大学;2010年
6 刘旭;博客热点话题挖掘方法[D];哈尔滨工业大学;2010年
7 彭卫华;互联网新闻热点挖掘系统的研究与实现[D];哈尔滨工业大学;2010年
8 李博;网络热点事件挖掘及特征描述研究[D];国防科学技术大学;2010年
9 席耀一;论坛话题检测与追踪技术研究[D];解放军信息工程大学;2011年
10 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
【二级参考文献】
中国重要会议论文全文数据库 前1条
1 王会珍;朱靖波;陈文亮;季铎;张斌;;基于一元语法模型的中文话题追踪[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 傅华忠;茅剑;;基于DBSCAN聚类算法的Web文本挖掘[J];科技信息;2007年01期
2 潘延军;基于浏览内容研究的一种改进的聚类算法[J];中国科技信息;2005年14期
3 汤寒青;王汉军;;改进的K-means算法在网络舆情分析中的应用[J];计算机系统应用;2011年03期
4 欧有远;张海粟;孟晖;李德毅;;基于复杂网络社团划分的Web services聚类[J];计算机应用研究;2009年06期
5 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
6 郭玉滨;;Web文本挖掘技术及其应用的研究[J];电脑知识与技术(学术交流);2006年08期
7 王晓斌;温春;石昭祥;;基于独立分量分析的隐蔽Web领域聚类[J];计算机工程;2009年07期
8 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 陆榕,谢康林;搜索结果优化中基于层次型分类的聚类方法研究[J];微型电脑应用;2005年08期
中国重要会议论文全文数据库 前10条
1 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
2 王云龙;李逊;;基于数据场的数据挖掘方法在入侵检测中的应用[A];第十九次全国计算机安全学术交流会论文集[C];2004年
3 李涵;;一种改进的聚类方法在异常检测中的应用[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
4 付焕焕;李俊;张洁;;入侵检测中机器学习算法的集成[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
5 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 袁冠;夏士雄;张磊;李月娥;肖经验;;基于兴趣度的Web用户聚类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
7 高学东;周磊;;Web点击流数据聚类算法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
8 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
9 张迪;郑德权;赵铁军;于浩;;Blog网页分类与识别技术研究[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
10 张洁;李俊;付焕焕;;基于报警管理的分布式入侵检测系统模型[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
中国重要报纸全文数据库 前5条
1 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
2 IDG电讯;IBM数据库技术有突破[N];计算机世界;2001年
3 ;NEC Solutions展示安全软件[N];计算机世界;2003年
4 Molex公司供稿;布线:如何选择介质?[N];计算机世界;2002年
5 熊雄;数据恢复帮你挽回损失[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
2 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
3 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
4 白云;P2P环境中基于语义的资源自组织、发现及推荐研究[D];西南大学;2008年
5 刘贵松;入侵检测的神经网络方法[D];电子科技大学;2007年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 李景涛;P2P环境下的信任模型与副本方案研究[D];复旦大学;2006年
8 杨洪山;基于本体的网格元数据模型及其相关技术研究[D];东华大学;2008年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 司加全;网络安全态势感知技术研究[D];哈尔滨工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
2 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年
3 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
4 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
5 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
6 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年
7 周鑫;带噪声的文本聚类及其在反垃圾邮件中的应用[D];广东工业大学;2012年
8 吴孙丹;基于聚类的入侵检测方法的研究[D];华中科技大学;2007年
9 闫瑞;博客数据特征提取与基于分类的垃圾博客过滤[D];中国科学技术大学;2009年
10 王少鹏;基于网页标识的图像内容过滤防火墙的设计[D];山西大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026