● 摘要
随着计算机科学技术的发展以及计算机技术应用的广泛普及,计算机软件的规模越来越大,计算机软件的复杂程度也是越来越高。这就要求软件工程管理系统能对这些软件进行跟踪管理。中文软件系统含有大量使用汉语编写的软件文档,例如需求文档、设计文档、用户手册、测试文档、维护文档、系统日志等。这些文档与软件源代码之间存在着不同程度的关联关系。发现和维护源代码与软件文档间的关联关系,对需求追踪、变更分析、程序理解等许多软件工程活动都能提供很多帮助。本文调研了国内外在提取软件文档与源代码之间关联关系的方法研究方面的现状,分析了研究中存在的几个问题。本课题旨在研究中文软件文档与源代码间关联关系的提取方法,并实现一个自动提取中文软件文档与源代码间关联关系的原型工具。为此,本文提出了一种基于信息检索的中文软件文档与源代码间关联关系的提取方法。该方法基于潜在语义索引模型和向量空间模型,使用了四种策略:引入数据词典分词和翻译、调整特征项的权值、按软件文档偏序关系实现反馈、基于语义空间过滤词汇,实现了对中文软件文档与源代码间关联关系的自动提取。首先,分别对中文软件文档和源代码文件进行预处理。对于中文软件文档,按软件文档类型确定文档之间的偏序依赖关系,之后切分文档、提取文本信息、进行分词,得到文档块向量。对于源代码文件,提取其中的注释、标识符、类名等文本信息,经过分词后得到源代码向量。然后,利用检索模型计算文档块向量与源代码向量间的相似度,并以此作为软件文档块与源代码的相关度。最后,利用Cut-Point方法对结果进行筛选。通过实验表明,本文所提出的方法,以及使用的策略都是可行的。基于该方法,本文设计实现了一个自动提取中文软件文档与源代码间关联关系的原型工具QEDoC。此外,本课题在进行研究中文软件文档与源代码间关联关系提取方法的同时,还利用需求、设计等不同类型文档之间的偏序依赖关系提取了软件文档间的关联关系。此外,本文还从中文软件文档与源代码间关联性的角度,探讨了对软件文档和源代码的关联关系进行审查的方法,审查对象包括源代码中的注释量、软件文档对代码中类名的描述情况和软件文档与源代码中的共同词汇量,这有助于发现软件文档与源代码之间缺乏关联的可能原因。
相关内容
相关标签