● 摘要
随着互联网技术的发展和B2C模式的电子商务网站的普及,越来越多的用户选择通过互联网浏览商品信息并进行交易。电子商务所带来的好处是显而易见的:可选择的商品数量远大于传统的购买模式,通过特定的关键词查询可以精确定位某一个产品集合,网站对商品更新信息的推送更加具有及时性。与此同时,B2C电子商务网站也有一定的局限性,同一个商品信息零散的分散在多家电商网站中,直接通过传统搜索引擎很难得到搜索结果的统一合集,这就为电子商务用户的实际使用造成了不便。本文以研究电商网站页面为切入点,针对面向电子商务的异构数据进行了一系列的研究,提出了一套包括数据获取、分析、纠错和展示在内的数据分析技术。本文对解决检索数据分散和异构的问题进行了理论研究,并通过实验进行了验证。本文主要论述内容如下:1. 提出基于词法分析和网页布局的页面主题相关性分析。这种分析方法结合了词法分析和页面布局分析,通过词法分析验证页面文本与主题的相关度,并且通过在URL过滤的基础上对页面布局进行二次验证的方式,过滤出主题与电子商务网站相关性极高的页面地址,优化数据获取的效率。分析测试表明,上述方法在数据获取阶段可以有效地检测出主题强相关的页面。2. 提出基于简化Dom Tree数据裁剪策略的页面数据提取方法。通过对网页文本结构进行构建和剪枝,避免无关数据内容影响数据分析中关键信息的获取,提升了分析的速度和准确度。同时引入白名单机制,确保可以通过人工干预的方式保证数据的正确性。分析测试表明,上述方法可以显著提升页面分析效率,同时数据损失保持在可接受的范围内。3. 提出基于关键词模型的相关数据提取策略,在简化Dom Tree模型的基础上,使用上下文比对的方法,提取出具有价值的非结构化数据。分析测试表明,上述方法所获得的文本信息可以作为数据分析的补充内容,具有很高的参考价值。4. 采用人工干预机制与自动分析相结合的方式,对异构数据进行分析。本文设计并实现了一种采用B/S模式的人机交互工具,从而有效地对异构数据页面进行数据验证和归一化处理。
相关内容
相关标签