当前位置:问答库>论文摘要

题目:开放内容系统若干关键问题研究——基于Wikipedia

关键词:开放内容;Wikipedia;链接分析;知识发现;复杂自适应;Anti-spamming

  摘要

本文为国家自然科学基金项目:“面向虚拟企业协作的网格知识服务系统研究”研究成果的一部分,以Wikipedia为代表的开放内容系统为主要研究对象,针对其演进序化模式,知识发现以及反垃圾信息(Anti-spamming)三个主要方面进行探讨。对于国内开放内容工程的发展和实践,从模式到一系列技术细节,本文的研究成果都具有较高的实用性和可操作性。本文的主要工作包括:针对开放内容系统演进序化,基于Wikipedia相关统计数据,利用数量模型描述和预测其演化趋势。并以复杂适应系统理论为基础,利用Swarm平台对开放内容系统中用户协作以及内容质量控制机制进行仿真,对其序化过程做出合理解释;针对开放内容中的知识发现,在复杂网络主题聚类方法研究基础上,提出基于链接结构分析的主题聚类模型,基于Wikipedia快照数据设计实验,测试模型知识定位精度用户意图理解准确度的提高程度。并提出基于将主题聚类结果扩展至一般知识搜索引擎思路,聚类产生的知识主题树作为用户意图识别和主题覆盖参考,进而提高搜索引擎的搜索效率;针对开放内容工程中的Spamming问题,综合分析Spamming手段和目前Anti-spamming方式,提出两阶段Anti-spamming 框架方案。和以往同类研究相比,本文的创新之处在于:1)从知识全球化的角度分析了开放内容系统的发展,并对中美两国发展情况做了调查及对比分析。2)分析Wikipedia自我抑制因素并提出使用Gompertz模型拟合其发展趋势。3)在复杂自适应理论基础上使用Swarm平台仿真Wikipedia用户协作关系并解释其内容质量提高过程。4)提出基于链接分析的主题聚类模型,提高开放内容系统中的知识发现效率。5)针对Wikipedia设计Anti-spamming框架,为开放内容反垃圾信息提供思路。