● 摘要
移动互联网时代,新闻媒体和社交网络平台蓬勃发展,在每天产生的数以PB计的海量数据中,蕴含着大量有用的人物社会网络信息。如何有效地查找、组织和利用这些社会网络信息,是目前基于互联网的社会网络分析研究的一个重要问题。本文的主要工作是以社会关系抽取和关系实体提取为重点,基于重名消解、指代消解、实体识别和基于特征的机器学习,设计并实现了一个面向个体的社会网络搜索引擎。其具体工作包括:社会关系抽取、关系实体提取、社会网络库的构建与扩展。
在社会关系抽取部分,本文研究了当前用于关系抽取的若干模型和方法,决定采用基于特征的有监督的学习方法进行关系抽取。然后针对社会关系的特点,定义了8种社会关系类别。接着改进自动爬取和标注语料的工具,使用它来获取训练语料。最后基于支持向量机理论,结合之前的研究工作,确定了关系特征词、人物实体到关系特征词的语法路径作为句子的关系特征,实现了社会关系抽取,并进行了训练参数调优和实验。同时,考虑到夫妻/情侣类社会关系的不稳定性,本文还研究和训练了针对该类别的分类模型,对关系人物间这一特定关系是否结束作出判别。
在关系实体提取部分,本文以面向个体的某一类社会关系为出发点,对关系类别进一步细分,加入对时间因素的考虑,结合元搜索引擎、重名消解、指代消解,获取并过滤、优化指定个体的相关社会关系语料。接着将命名实体识别与社会关系抽取相结合,筛选出严格符合该类社会关系的语料。然后设计和实现了人物实体过滤提取模块,对语料中的关系实体进行过滤、统计和提取,并进行了统计参数和筛选阈值的实验和调优。最后扩展到8类社会关系,得到该个体的社会关系网络。
在社会网络库的构建与扩展部分,本文通过对比当前重名消解的多种方法,确定了基于向量空间模型的文本聚类算法来实现重名消解。然后在社会关系抽取和关系实体提取的基础上,构建社会网络抽取模型,设计了一种社会网络库构建与扩展的方法。
本文实现的系统主要包括语料获取和预处理模块、社会网络抽取模块、社会网络库构建扩展模块和用户界面。本文详细阐述了系统的设计原理和实现机制,并对有效性、召回率和准确率等进行了测试,验证了本系统具有良好的可用性和可扩展性。