● 摘要
伴随着网络和通信技术的飞速发展,目前基于WWW (World Wide Web)的远程教育系统在国内外逐步发展起来,许多大学建立了自己的远程教学站点。但是这种基于WWW的远程教学站点有两个明显的缺点:现有的远程教育站点基本上都是静态的;现有的远程教育站点不能根据学习者本人的情况进行因材施教,缺乏个性。但是,在站点上却积累了大量有用的教学信息,因此解决这些问题的一个途径就是将传统的数据挖掘技术和Web结合起来,进行 Web 数据挖掘。
Web 数据挖掘又分为三类,其中Web使用挖掘的对象主要是Web服务器上的信息,包括日志文件、用户注册信息等内容,其挖掘的结果通常是用户群体的共同行为和共同兴趣、个人的访问偏好、习惯和模式等,它有助于网络信息的合理组织和服务质量的改进,可用于发现系统性能瓶颈,优化站点结构,提高系统安全性,提高用户访问的有效性,发现用户的需要和兴趣,提供智能化服务等。
首先,本文总结了数据挖掘的概念和功能,从Web数据挖掘的分类引出Web使用挖掘,并详细介绍了Web使用挖掘的过程。在分析了日志数据来源之后,重点讨论了Web使用挖掘的预处理过程,在预处理过程中引入了过滤条件表、启发式规则、最大向前路径等内容,分析总结了数据清理、用户识别、会话识别、路径补充以及事务识别等几个步骤的算法,并举例说明实现过程。
其次,本文重点讨论了关联规则算法,关联规则就是要挖掘出在某次会话中最经常一起出现的相关网页,而这些网页之间可能并没有超链接直接相互连接。对于其经典算法Apriori算法,在分析其原理和性质的基础上,从连接步和剪枝步两方面进行了改进,使其在时间性和有效性上都有了明显的提高。
最后,本文将Web使用挖掘的基本理论应用到远程教育过程中,在分析Web使用挖掘在远程教育中的系统构架后提出了Web使用挖掘在远程教育中的应用模型,并对其各个模块的功能做了阐述,这个模型的优点在于利用日志信息、学习者用户信息等内容进行挖掘,得到有趣的模式,并根据这些模式应用到远程教育系统中,提高个性化服务,可以更有利于学习者的学习,同时,也有利于网站拓扑结构的改善和内容的更新,体现了比普通的远程教育更多的动态性和个性化。在本文研究阶段,充分地将理论研究和实际应用结合起来,做到了理论和实践的相结合。
相关内容
相关标签