● 摘要
概率图模型作为将图论与概率论相结合的统计建模工具,已经在诸如生物信息学,金融分析,机器学习等许多领域得到了广泛的应用。本论文将关注概率图模型在机器学习领域的应用。在互联网时代,随着数据量和数据复杂度的剧增,简单的机器学习模型在很多情况下已经不能满足我们的需求,然而复杂的模型可能存在着成千上万的变量,如何表示和建立这些复杂的模型以及如何在模型上进行高效的运算是目前机器学习领域的研究的重点。概率图模型允许我们将模型进行有效的分解使得无论从分析和计算上都可以大量简化我们的工作,从而使得这些模型能够真正用于实际环境。
本论文基于一般到特殊的研究方法,首先讨论概率图模型的一般性质及其近似推断算法的特点,随后将通过学术界和工业界广泛使用的一种概率图模型的特例---概率主题模型---去深入研究其模型的构建和推断算法的原理和实现。目前学术界对概率主题模型的研究大多基于对所分析的文本集属于一个聚类的假设,即文本集被认为来源于同一个主题概念,文档与文档之间的相似性在现有的概率主题模型中没有得到有效的利用。本论文通过深入分析现有的概率主题模型的缺点,提出新的基于聚类的贝叶斯非参概率主题模型使得文本集中的文档之间的相似关系得到有效的利用从而提高所生成的主题的质量以及文本聚类的准确度,而且模型的主题个数,聚类个数都不需要人工指定,完全通过训练数据去确定。与此同时,本论文推导了基于变分法的近似推断算法去解决所提出的模型的参数推断问题。本论文的研究贡献主要体现在以下几个方面:
对概率图模型及其近似推断算法的优点和缺点进行了深入的研究。
对现有的概率主题模型进行了深入的研究并分析其不足之处。
改进现有模型的缺点并提出新的基于聚类的贝叶斯非参概率主题模型。
开发了高效的近似推断算法(变分法)对所提出的模型进行训练和参数的学习。