● 摘要
公交出行特征是乘客在其出行过程中所产生的若干可量化的参数,通过对公交出行特征的提取和分析,可以得到乘客出行规律等有价值的信息,对城市公交建设和规划有重要意义。目前,国内外研究者提出了很多方法来分析研究公交出行特征,但是这些方法大多不是针对大数据集上的实时分析而提出的。北京作为特大城市,其公交系统每天产生大量数据,需要对大规模数据进行实时处理和分析。
本文在对现有公交出行特征提取方法和内存计算技术进行研究的基础上,提出了一种利用分布式内存计算技术,处理大规模历史数据并快速提取公交出行特征的方法,设计并实现了基于分布式内存计算架构的公交出行特征提取系统。
本文取得的主要成果如下:
(1)研究了利用分布式内存计算技术快速提取公交出行特征的方法。该方法使用基于朴素贝叶斯分类模型的降维算法对高维公交数据进行降维,使用基于混合权重的算法对公交数据进行划分,解决了大规模公交数据无法全部预加载至分布式缓存的问题。该方法使用基于Apache Spark实现的OWLQN算法,对公交出行特征进行训练,解决了训练速度慢、特征模型可解释性弱(维度高)的问题。
(2)设计实验并对比分析了Redis和Spark RDD两种缓存系统在分析型工作负载和随机存取型工作负载下的性能。在此基础上提出了一种基于双缓存空间的缓存机制,来优化公交出行特征提取的效率。
(3)设计并实现了基于分布式内存计算的公交出行特征提取系统。该系统根据分析人员自定义的出行模式,自动进行快速目标人群匹配、训练样本生成、特征模型训练等操作,最终提取出公交出行特征。该系统还提供公交出行特征的实时检索用户接口。
(4)使用真实北京公交一卡通数据作为数据源,设计实验验证了基于分布式内存计算的公交出行特征提取方法,结合基于双缓存机制的缓存方案可以明显提升公交出行特征提取的效率。