● 摘要
在日益激烈的市场竞争中,用户驱动的软件演化更具有实际意义。为了让用户成为未来系统的实际设计者,需要充分利用用户反馈数据,帮助开发人员进行功能扩展和质量改进。随着Web 2.0的兴起和普及,在线评论凭借覆盖用户广泛、内容丰富、时效性强等优势,迅速成为软件演化需求获取的重要反馈资源。如何根据大规模评论数据的特点,准确高效地获取有建设性的用户反馈信息,并从市场发展的经济视角为未来系统选择一组合适的需求是需求工程领域面临的一个新挑战。
为解决上述问题,本文提出一种基于在线评论挖掘的软件演化需求获取技术,提供系统化的研究框架以及一系列的方法和过程,完成从无结构的评论数据到综合的用户反馈信息,再到需求演化推荐方案的逐步精化。本文的主要研究内容和贡献如下:
1) 为了支持用户驱动的软件演化,本文提出一种基于在线评论的需求演化分析方法框架,利用文本分析技术进行软件演化需求的获取,提升大规模评论数据的处理能力,并引入经济学理论和分析方法预测需求演化的趋势,降低软件在市场环境下演化的风险。该框架为本文的后续研究奠定了演化需求推荐的基础。
2) 由于评论所反映的是离散、复杂的用户意见,且内容质量良莠不齐,筛选能够代表某一用户群意见的高质量评论数据是提高演化需求获取可信性的前提保障。本文针对需求获取问题定义了评论有用性的概念,提出一种基于复杂网络的在线评论有用性分析方法,根据评论间的语义相似性建立网络模型,将评论数据筛选问题转化为评论网络中节点重要性的评价问题,从宏观上融合用户的主观评价和网络拓扑结构的客观影响来发现能够反映一组评论数据中心内容的有用评论。实验验证在该方法产生的高有用性评论数据集上进行需求识别能够具有较高的准确率和覆盖率。
3) 经过筛选的评论数据仍然是非结构化的自由文本,如何从这些评论中挖掘用户意见是演化需求获取的关键。本文借鉴了新闻挖掘领域的统计实体-主题模型CorrLDA2,定义了针对意见挖掘问题域的关联LDA模型(Correlated Latent Dirichlet Allocation)——SCorrLDA,分别对软件特征和情感倾向建模,实验验证SCorrLDA降低了意见挖掘主题建模采用特征-情感联合方式造成的用户意见混杂程度,从而提高了意见挖掘的准确率。在此基础上提出一种基于句法依存关系的传播方法SRDP+,用于扩展特定领域的意见词,实验结果表明SRDP+提升了意见挖掘的召回率。最后通过一个对比实验说明所生成的综合用户反馈模型能够支持分析人员进行演化需求获取。
4) 为了实现用户利益和企业利益的双赢,本文提出一种面向收入最大化的需求演化经济分析方法,利用计量经济分析手段和遗传算法从市场因素与技术水平均衡的角度给出需求演化的最优方案。通过一个移动应用领域的实例,验证了该方法能够发现更具经济价值的待演化特征,辅助分析人员更加全面、合理地修订未来系统的需求。