● 摘要
随着信息时代的到来,学术论文电子数据库的广泛使用和互联网的发展,科技论文的抄袭变得更加便捷和隐蔽,同时由于种种利益的驱使,抄袭行为屡禁不止,出版发布机构审稿编辑层次的抄袭检查工作面临带来越来越大的挑战,传统的审稿专家和编辑把关方式已难以满足要求,计算机辅助科技论文抄袭检测问题亟待解决。 鉴于此,本研究针对中文科技论文抄袭检查方面遇到的困难,根据中文科技论文的特点、抄袭行为的特点和我国相关法规给出的抄袭认定标准,结合中文文字信息处理领域研究相关问题的理论和方法体系,充分继承和应用已有成果,并在检测策略和算法上进行创新,给出了一种基于多相似度组合的中文科技论文抄袭检测系统。该系统以大量已有论文组成的比对论文库作为参照,按一定的流程,结合多种相似度算法,以较小的计算量,将待检论文的各部分与比对论文进行比对,并将比对结果给出精确到句子的标示和量化的分析,提供给用户,使用户可以此作为辅助,方便高效的完成抄袭检查工作。 本研究着重在抄袭检测策略和算法上取得新的进展,给出了基于多种相似度结合的中文科技论文抄袭检测系统方案,给出了利用中等逆文本频率的中文词的分布律进行的汉明相似度算法和将汉语词分为3类后进行的句子抄袭检测方式,并将此抄袭检测系统通过原型系统实现。通过使用某学术期刊稿源库作为语料的进行了试验,验证了该中文科技论文抄袭检测策略和算法的有效性,为进一步构建实用的中文科技论文抄袭检测系统打下了基础。