当前位置:问答库>论文摘要

题目:一种面向社会网络的分布式搜索引擎研究与实现

关键词:搜索引擎、社会网络、社会关系抽取、分布式计算

  摘要

随着互联网成为信息的主要载体,其数据呈现出爆炸性的增长。而社会网络服务SNS(Social Networking Services)的迅速发展则使得互联网信息中个人信息和社会关系信息所占的比例越来越大。如何有效的查找、组织和利用这些社会网络信息,成为了一个挑战性问题。面向社会网络的垂直搜索引擎,能将互联网上的相关信息进行处理和提取,从而转化为结构化的社会网络信息库,为相关的社会网络研究提供了数据支撑基础。 本文的主要工作是以重名消解、人物实体关系识别和基于特征的机器学习为基础,结合分布式计算模型,研究并实现了一种面向社会网络的分布式搜索引擎。其具体工作包括:社会网络扩展和构建、社会关系抽取、分布式算法的实现。 在社会网络扩展和构建部分,本文研究和对比了当前重名消解的若干模型和方法,决定采用基于向量空间模型的文本聚类算法来实现重名消解。然后结合中文分词和人物实体关系识别技术,设计了一种社会网络扩展和构建的方法。 在社会关系抽取部分,本文通过对比当前关系抽取的多种方法,确定了基于特征的有监督的学习方法进行关系抽取。然后针对社会关系的特点,定义了8种社会关系类别。接着实现了一个自动爬取和标注语料的工具来获取训练语料。最后基于支持向量机理论,确定了关系特征词和人物实体到关系特征词的语法路径作为句子的关系特征,实现了社会关系抽取,并进行了训练参数调优和实验。 在分布式算法的实现部分,本文学习和对比了当前主流的分布式计算模型,并结合现有实验条件,选择了MapReduce模型作为本系统的分布式计算模型。并对社会网络扩展和构建方法和社会关系抽取方法进行了分布式的实现。 本文实现的分布式系统主要包含两个核心功能:1、系统引擎自动抓取互联网信息,扩展已有的社会网络,供用户查询和使用。2、当用户查询的人物对在已有社会网络中不存在时,可以实时的从互联网上搜索该人物对之间的关系类型和人物的部分信息。系统主要的功能模块为网页搜索和预处理模块、重名消解模块、社会网络扩展模块、社会关系抽取模块和用户界面。最后,本文通过实验验证了本系统具有良好的可用性和可扩展性。