● 摘要
随着城市化进程的加快,公共交通成为了城市中客流的主要承载者。为了进一步提高公共交通出行的智能化和便捷化,需要对日常产生的海量交通数据进行记录和分析。这必然要求有能够应对庞大数据量的数据管理及检索机制与之相适应。从海量数据存储和处理的角度考虑,传统的关系型数据库只能在一定数据量基础上维持数据操作的稳定并且在存储容量上缺乏有效扩展;从海量交通数据快速检索的角度来度量。现有的索引结构没有考虑交通各类数据之间的特征差异,建立的通用索引结构会索引大量无用空间,造成空间浪费和查询性能低下。
本文从分析公交服务的数据需求出发,基于海量数据分布式处理机制,通过将数据本身所具有的时、空特征融合到数据存储模型设计和数据检索之中,设计实现了一个集数据处理、数据检索、数据模型化处理和数据存储于一体的公交运行规律挖掘支持系统。
本文取得的主要成果如下:
1) 在分析公交GPS数据可用性和准确度基础上。提出了用于提高公交数据质量的链路匹配、上下行纠正、下一站站序算法,进而利用并行框架提升了算法效率。
2) 通过分析基于公交车GPS数据的典型公交业务,给出公交应用对支持系统的数据检索需求。
3) 结合公交应用的数据需求和公交GPS数据时间、空间特征,建立了基于网格的公交车数据索引树模型并将海量公交数据进行数据格式重组。实现了面向公交数据的区域检索机制。
设计并实现了公交运行规律挖掘支持系统。使用大量、真实的公交GPS数据验证索引模型的适用性与有效性,并且对系统在处理海量交通数据时的效率提升做了测试验证。
相关内容
相关标签