● 摘要
市公安局文件平台的文本数据管理系统,能够整合市局各类文件资源,提供文本数据的查询功能,有效提高市局办公室的文件管理能力。设计与实现一个准确高效的文本数据管理系统。其中的重难点是:差异性格式文本解析模块的实现;基于改进型HDFS(Hadoop Distributed File System ,Hadoop分布式文件系统)的公安文件存储技术的实现;文件标题与内容的键值对存储。
本文对公安局文件平台文本数据管理系统的需求分析、相关技术、系统架构以及设计与实现等方面进行了详细论述,同时对采用的关键技术进行了研究。第一,差异性格式文本解析模块要将来自不同专网、各种文件格式的文本内容解析为统一格式,为准确高效的查询做好准备。这就要求该模块要定义一个标准解析函数接口,对于不同种文件格式应用对应的实现类,通过文件流及文本解析方法完成差异性格式文本的解析功能。第二,公安局文件平台处理的文件具有:日产生量大;小文件数目多;读写请求频繁等特点,传统存储方式已不能符合要求。为了实现公安文件管理和信息有效关联,通过优化HDFS分布式文件系统和改进元数据缓存策略,应用基于改进型HDFS的公安文件存储技术,构建一套低成本、高效率、高安全性的文件资源平台的存储方式。第三,为使公安信息文件在查询时更具安全性、精准性、可扩展性。文件标题与内容的存储要更合理,这涉及到Hadoop的分布式框架,采用MapReduce分布式程序设计模型、key-value模型的HBase数据库,以分布式文件存储之后,通过MapReduce分布式部署的过程当中,对文件的标题与内容进行提取和整理。最后,通过功能测试,性能测试,及其他相关测试的结论证明了本系统达到了设计要求。
文本数据管理系统是公安局文件平台项目的一个重要功能系统,公安局文件平台项目已投入运行,项目实施后,为提高市局办公文件信息资源管理水平和提升业政府信息资源的综合优势起到了促进作用。