摘要:抄袭检查是知识产权保护的重要组成部分。有很多识别方法和系统。本论文基于复印检测技术的概要,对数字指纹识别和频率统计以及复印识别系统的定义。我对这个领域的主要研究方案进行了分类和比较。他最新的研究为下一个研究提出了新的课题和想法。
关键词:复印检查和抄袭识别数字指纹伴随着数字图书馆和互联网的快速发展,涉及到数字文件的触手。近年来,人们经常报道学术抄袭现象。公众人物公开欺诈事件的曝光更是引起了学术上对舞弊行为的关注,其行为的危害引起了各界的关注。
如何有效预防和抑制抄袭成为了话题。随着各种抄袭检查技术的深入研究,各种学术舞弊检查系统应运而生。在本文中,我们研究了复印识别技术和检测方法。1研究背景抄袭存在的原因是多方面的。
首先,各种利益的驱动或自身能力的限制使抄袭者主观有意。毫无疑问,互联网的广泛使用和搜索引擎的强大功能是抄袭等。这种行为提供了便利性。网上大量文献和各全文数据库向抄袭者提供了原材料。抄袭检查工具的应用还没有流行。改善机能,使剽窃成为幸运。应用领域的复印件可能是学术论文、博客、程序代码等。
正文主要关注中文学术论文的抄袭。从技术上来说,抄袭可以从两个方面开始。:写入时被屏蔽,在发言中检测出其他内容。
“检测”方法的设计使得不管文章是如何完成的,都可以判断最终文件中是否包含了剽窃。显然,使用检测方法来确定较强的操作性。
2抄袭检查技术概要自然语言抄袭检查技术核心是文件复制检查技术。检测文档复制的基本类型有两种。:一种基于字符串比较的方法,另一种是基于词汇的统计。基于
字符串比较的方法也称为数字指纹识别方法。该方法使用几个排序策略,将文档中的一些字符串用作“指纹”,将指纹映射到散列表,最后用散列表计算相同数量的指纹。或将比例作为文本相似性的基础。基于
字频率统计的方法也被称为基于意义的方法。语数统计方法是从信息检索技术中的矢量空间模型导出的。该方法首先计算各文档的单词的出现次数,根据单词的频率形成文档的特征向量。
最后使用点积、余弦或类似物。测量两个文档的特征向量作为文档相似性的基础。3抄袭检查技术的发展使用电脑进行抄袭识别的研究。首先分析数字文件。数字文档可以分为两种类型。即自然语言文本和形式语言文本。
形式的语言文字通常是计算机程序的源代码。虽然有很多剽窃事例,但是从标准化的语法和文章结构特征来看,分析和处理比较容易。
对于这种抄袭识别的研究也很快。自然语言文本(例如论文)的复印检测技术比程序复制检查慢了20年。
年,亚利桑那大学的Manber提出了“指纹近似”的概念。在此基础上,提出sif工具,通过字符串匹配来测量文件之间的相似性。斯坦福大学的伯林他们。
首先提出对应于COPS系统的算法,并改进了SCAM原型。SCAM利用信息检索技术中的矢量空间模型,使用基于文本频率统计的方法测量文本类似度。
香港科技大学的Si和Leong利用统计关键字的方法测定文本的类似度,确立了CHECK的原型,在相似性计量中首次导入了文件的结构信息。2000年,Monostori等。使用后缀树查找字符串之间的最大子字符串,并创建MDR原型。直到
年,所有美国教育工作者都会在课堂上了解段落样本、网络搜索工具和反拷贝技术的组合,以抑制非法来源。3关于中文论文的剽窃识别,有更多的困难。中文和英语的区别在于,是以文字为基础的写入单元。
个单词和单词之间没有明确的区别。因此,中文的分词是中文的文件处理的基础。
中文文本的剽窃识别系统首先必须将单词作为最基本的模块。因此,中文的文本分割的质量在一定程度上影响了剽窃识别的精度。另外,计算机对自然语言的理解不足,不仅限于复印,难以实现正确的复印识别。因此,解决中文纸张抄袭识别问题不能完全复制国外技术。北京邮电大学的张焕炯在代码理论中使用汉明距离的计算公式计算文本的类似度。
计算中国科学院,以属性理论为理论基础,计算矢量之间的匹配距离以获得文本相似性。基于汉字数学式理论,程玉柱等将字符类似度计算转换为空间坐标系矢量余弦余弦的计算问题。交通大学西安宋抓捕豹开发出CDSDG系统,采用基于词汇统计的叠加度量,计算出粒度不同的整体意义重叠和结构重叠。
算法不仅检测到数字体的总体非法拷贝行为,还检测一些非法复制活动,例如子集副本或传送部分的副本。晋耀红基于上下文框架,类似度计算算法考虑了对象之间的意义关系,从意义角度给出了文本之间的类似关系。
大连金博、史彦军、滕弘飞是理工大学独特的学术论文结构,学术论文的论文结构分析,然后通过数字指纹识别和语数统计计算学术论文之间的类似性。张明辉提出了一种基于分段的分割签名近似镜算法用于复制网页。基于网格的文本复制检测系统例如鲍军鹏提出了语义序列核法的复制检测技术。
金博、史彦军、弘飞滕滕滕赋予基于意义检测的复制检测系统的体系结构,核心是基于HowNet单词类似度的计算,将应用范围扩展到段落。聂企划及其他基于主体的纸的复印检测系统,意味着使用Web主体技术构建纸主体,计算纸的类似度。
4抄袭检查系统的应用利用信息技术打击抄袭是规范中国学术行为的有效措施之一。在外国,从20世纪70年代初就开始研究防止软件剽窃,1
有很多广泛的使用和代表性的软件。例如,纸质复印检查平台TurnItIn是由iParadigms开发的。这个系统使用基于数字指纹的剽窃检测方法。
检测资源包括网络资源ProQuest纸张组和纸张操作库。英语防剽窃服务目前提供2500多所大学和研究机构,包括美国加利福尼亚大学伯克利、杜克大学、德国汉堡大学和90多个国家。
达到650万。这个网站阻止了世界上近600万学生和教育相关人员的抄袭,在利用高峰时期每天都会收到20000篇论文。CrossRef和iParadigms共同开发的剽窃检查平台CrossCheck于2008年6月19日正式发售。CrossCheck的功能由两个部分构成。
:巨大的全球学术