收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

云环境中的近似复制文本检测

许君  王朝坤  刘立超  王建民  刘璋  
【摘要】:如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分.在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担.针对云计算环境,提出了一种基于MapReduce的近似复制文本检测算法,它能够在给定的文本集合与相似度阈值条件下,经过过滤与验证操作后返回所有相似程度不低于该阈值的文本对.真实数据集上的实验结果表明,与现有工作相比,所提算法能更为高效地返回相似文本对,提高了总体性能.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李朝晖,余英林;基于边缘信息和LH的视频文本自动检测[J];计算机应用研究;2004年12期
2 李朝晖,余英林;基于小波形态学的文本自动检测[J];计算机工程与应用;2003年14期
3 李朝晖,余英林,张为,邹艳碧;小波-神经网络在视频文本自动检测中的应用[J];广州大学学报(社会科学版);2001年05期
4 朱成军;李超;熊璋;;视频文本检测和识别技术研究[J];计算机工程;2007年10期
5 徐鹏民;王海;盖凌云;;基于流量波动规律的校园网络异常发现算法及实现[J];计算机应用与软件;2008年06期
6 叶茂锹;周武能;朱黎博;;基于Mean-Shift的图像文本信息提取[J];微型电脑应用;2009年01期
7 叶茂锹;周武能;朱黎博;;基于Mean-Shift的图像文本信息提取[J];微型电脑应用;2009年07期
8 张靖波;李萌;吕英华;马志强;;一种在图像和视频帧中检测文本的新方法[J];东北师大学报(自然科学版);2008年03期
9 彭培华,曲波,陈荣胜;基于支持向量机的小波域视频字幕检测与提取[J];华南理工大学学报(自然科学版);2004年S1期
10 卢海彦;程义民;何兵兵;张玲;;基于自适应阈值的视频文本检测方法[J];计算机仿真;2008年09期
11 李朝晖,余英林;一种视频文本自动定位、跟踪和识别的方法[J];中国图象图形学报;2005年04期
12 朱成军;欧阳元新;盛浩;熊璋;;基于边缘和颜色的视频文本图像分割方法[J];系统仿真学报;2008年23期
13 王建,周源华;一种基于纹理能量的JPEG图像文本定位算法[J];上海交通大学学报;2004年09期
14 黄剑华;唐降龙;刘家锋;徐莉莉;;一种基于Homogeneity的文本检测新方法[J];智能系统学报;2007年01期
15 晋瑾;平西建;张涛;陈明贵;;图像中的文本定位技术研究综述[J];计算机应用研究;2007年06期
16 孙红星;赵楠楠;徐心和;;基于小波变换和SVM的文本区域定位[J];东北大学学报(自然科学版);2007年02期
17 郑翠翠;王兴起;;基于边缘信息和局部直方图的视频文字检测法[J];机电工程;2009年10期
18 黄剑华;颜子夜;唐降龙;;基于小波重构的视频图像文本检测方法[J];哈尔滨工业大学学报;2006年09期
19 蒋人杰;戚飞虎;徐立;吴国荣;;基于连通分量特征的文本检测与分割[J];中国图象图形学报;2006年11期
20 黄同城;丁友东;;基于高频小波系数分类器的图像文本信息的非监督检测[J];湖南农业大学学报(自然科学版);2006年02期
中国重要会议论文全文数据库 前10条
1 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 朱辉;李在铭;;视频图像中文本检测与分割技术研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 于佳;王燕;;基于SOM的视频中人工文本区域检测方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 宛根训;黄磊;刘迎建;;一种改进的并行细化算法[A];第八届全国汉字识别学术会议论文集[C];2002年
5 刘杰;王光飞;;体视化中的自动分类方法[A];2004年CT和三维成像学术年会论文集[C];2004年
6 孔平;严广乐;;基于分形维数的二值化算法在车牌识别中的应用[A];第十一届全国非线性振动学术会议暨第八届全国非线性动力学和运动稳定性学术会议论文集[C];2007年
7 李华;程伟;;一种改进的小波模极大值检测与消噪算法[A];2009中国控制与决策会议论文集(3)[C];2009年
8 宋宇;张元平;周海军;;基于小波变换的图像去噪中两个关键问题研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
9 郑康;;时变OFDM系统中参数化时域信道估计的改进[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
10 高建军;陈小宏;;凸集投影重建方法中的阈值集合模型设计研究[A];中国地球物理2010——中国地球物理学会第二十六届年会、中国地震学会第十三次学术大会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘楠;视频广告内容分析与理解[D];北京交通大学;2012年
2 彭青松;Bayesian网及其在图像分析中的应用研究[D];合肥工业大学;2005年
3 李朝晖;基于视频文本检测和视频对象分割方法研究[D];华南理工大学;2004年
4 黄剑华;自然场景中文本信息提取方法[D];哈尔滨工业大学;2007年
5 黄晓冬;基于特征融合的视频文本获取研究[D];北京邮电大学;2010年
6 周景超;视频文本检测算法研究[D];中国科学院研究生院(自动化研究所);2008年
7 余金华;电阻层析成像技术应用研究[D];浙江大学;2005年
8 Zhao Peixin;[D];山东大学;2005年
9 唐煜;均匀设计的组合性质及其构作[D];苏州大学;2005年
10 吕翔;波长路由光网络相关问题研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈丽娇;基于极大稳定极值区的视频文本检测算法研究[D];大连理工大学;2012年
2 于佳;基于SOM的视频中人工文本检测方法研究[D];哈尔滨工程大学;2010年
3 赵妍;视频文本检测研究[D];南京大学;2012年
4 王瑾;局部轮廓信息描述结合学习分类的文本检测技术研究[D];燕山大学;2010年
5 孙小亮;基于多帧融合的视频文本检测[D];北京邮电大学;2011年
6 肖鹏元;基于GPU并行计算的重复文本检测系统[D];浙江大学;2011年
7 叶茂锹;彩色图像的文本信息提取研究[D];东华大学;2009年
8 蔡卓;车流视频标识文本检测与识别技术研究[D];电子科技大学;2003年
9 张丽;基于小波的视频中人工文本检测方法研究[D];哈尔滨工程大学;2007年
10 高华;基于边缘和灰度的视频文字提取方法的研究与应用[D];北方工业大学;2011年
中国重要报纸全文数据库 前10条
1 PALADIN;算法中的NP问题[N];电脑报;2003年
2 ;机器人激活算法和程序设计教学[N];中国电脑教育报;2004年
3 记者 侯建华;会计所算了经济账又算法律账[N];重庆商报;2001年
4 汪蔚;用算法改变世界[N];中国计算机报;2008年
5 PALADIN;算法演义[N];电脑报;2003年
6 南京 朱罕非;一种实用单片机多字节除法的算法[N];电子报;2004年
7 胡英;高安全行业应考虑SSL VPN算法[N];计算机世界;2007年
8 复旦大学国际政治系博士 沈逸;谷歌的权力与生意[N];东方早报;2010年
9 记者 雷敏 张旭东 刘铮;我国人均GDP仍在世界100位之后[N];新华每日电讯;2005年
10 格非;不以“饭量”算“房量”[N];中国房地产报;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978