● 摘要
本文通过了解和分析一些使用分布式存储和分析的系统,研究Hadoop技术及本身的需求提出了基于Hadoop的图片存储和分析系统。 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的分布式系统。它将硬件的损坏作为常态来进行处理,增加了容错性,所以是可靠的。它将分析计算以并行方式来处理,因此是高效的。它可以动态的添加和删除物理机器,因此是可伸缩的。Hadoop集群的物理机器可以使用普通的Linux机器因此成本是低廉的。本文的主要研究内容和创新点是:
通过对现有的存储方式进行分析和总结,得出现有的存储方式的不足 。提出使用Hadoop这种分布式系统作为存储系统。
根据现有的图片分析需求提出了基于Hadoop的MapReduce方式进行分析的图片分析模型。提高在大数据量的前提下的图片分析速度。
了解Lucene的原理,由于Hadoop未提供进行搜索的api,提出基于Lucene的方式来提供完善的文件搜索方法。
最后通过对集群的搭建和测试,验证了本文提出的系统的可行性。
本课题针对图片存储和分析提出了使用Hadoop图片存储和分析的系统。该系统具有成本低,可扩展,高容错,快速分析的优点。通过实验的方式验证了使用Hadoop作为图片存储和分析的系统的合理性。
关键词:Hadoop,分布式,Lucene,图片分析。
相关内容
相关标签