收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本抄袭检查技术的研究

郑天宏  许杭杰  董黎刚  
【摘要】:该文介绍了一种基于字符串匹配的中文文本抄袭检测方法——k-grams算法,并指出了选取常用语句降低了其判别的准确性。提出了利用基于统计的中文分词技术实现对k-grams算法的改良。实验结果表明改良后的算法判断抄袭的准确性得到了提高。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
2 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
3 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
4 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
5 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
6 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
7 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
8 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
9 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
10 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
11 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期
12 齐红;官莹莹;刘亚波;;面向中文文本的玉米病虫害本体学习研究[J];计算机工程与应用;2011年20期
13 何岸;胡伟刚;;中文文本数字水印算法的研究[J];中南林业科技大学学报;2011年08期
14 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
15 田卫新;郑胜;;一种基于特征选择的主观性文本分析方法[J];计算机系统应用;2011年08期
16 佟兴帆;邓辉宇;李志明;;上海光源产品管理系统及其全文检索子系统的改进[J];核技术;2011年07期
17 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
18 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期
19 陈国华;汤庸;彭泽武;李建国;;基于学术社区的学术搜索引擎设计[J];计算机科学;2011年08期
20 周聚;李培峰;朱巧明;;一种基于二元模型的分层文本过滤方法[J];计算机应用与软件;2011年07期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
9 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
8 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
9 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
10 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
2 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
3 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
6 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
7 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
8 郭庆贺;中文文本姓名识别的研究[D];东北师范大学;2009年
9 许林杰;中文文本分词研究[D];山东师范大学;2003年
10 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
4 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
5 记者 李霆钧;国内首个“影视剧植入广告分析系统”出炉[N];中国电影报;2010年
6 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
7 ;健康、成本兼顾[N];中国计算机报;2004年
8 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
9 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
10 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978