● 摘要
随着Internet技术的不断发展,互联网逐渐从以信息提供商为中心的Web1.0向以用户为中心的Web2.0转变,用户不再仅仅是网络信息资源的消费者,同时也是信息资源的生产者、描述者、组织者,他们可以根据自己的理解,以自由词汇作为标签(Tag)对网络资源进行标注,而以标签为基础的大众分类法(Folksonomy)则成为了Web2.0最重要的资源组织方式。对于一个Web2.0网站,用户对相关知识资源的标注信息组成一个协同标注系统(Collaborative Tagging Systems),它具备以下特征:①知识传播的协同性;②社区的自组织性;③社区专家的自然涌现。但标签作为一种原生态的自然语言,其固有的语义模糊性、同义词、多义词等特性,使得大众难以按照统一规范的语言对知识资源进行描述;再者,对于同一个知识资源,不同的用户由于关注点、兴趣爱好不同,会采用不同的标签对其进行标注,因而导致了使用标签检索到的信息,查全率和查准率都比较低,使得系统用户在面临问题时,无法快速的寻找到所需的知识文档及相应的专家,进而影响到协同标注系统中知识协同的效率。 针对以上问题,本文在综合国内外学者研究成果的基础上,对知识协同、协同标注、社区发现以及专家推荐四方面进行了深入研究。在深刻分析协同标注系统标签特点及用户标注行为的基础上,提出了基于协同标注的虚拟实践社区发现方法,利用标签间的共现信息,采用Jaccard系数衡量其相似度,之后采用改进的基于可变阈值的凝聚式层次聚类算法实现标签的聚类,在协同标注系统中挖掘出多个主题社区,同时识别社区中的知识资源和用户。 在社区专家发现与推荐方法中,本文定义了社区内知识资源权威度与用户中心度的计算方法,将知识资源的质量通过标注用户数以及标签数量进行量化,在此基础上根据用户标注的知识资源权威度均值衡量用户中心度,进而发现社区专家,而后以用户知识需求为前提,借助协同过滤推荐思想,进行专家推荐。最后,采集协同标注系统del.icio.us中的部分数据作为测试集,验证了虚拟实践社区发现方法和专家发现与推荐方法的有效性及结果的准确性。本论文的研究成果为协同标注系统中知识协同活动的深入研究和实践提供理论框架和基本分析方法上的支持,可以在一定程度上解决用户无法利用协同标注平台进行有效的知识协同的问题,进一步拓展了知识协同理论的应用范围。