● 摘要
随着互联网技术的深入应用,在企业当中为了跟上信息化的脚步开始更多的使用网络进行办公,产生了越来越多的数据,这些结构化、非结构化的数据共同反映了企业过去的经历,还隐藏对于企业目前发展所需要的经验等。在信息化开始阶段由于硬件、软件以及人们观念的缘故,在数据的收集、归类并且再利用上体现出很大不足之处,这些沉积在企业内部系统里面的数据除了占用了磁盘空间和增加了企业的成本之外很难起到其他作用。当前越来越多的企业逐渐重视起企业的内部自有数据,并且开始整合这些数据,希望能从中获益,提高企业的核心竞争力。所以企业内部搜索的需求也逐渐受到关注,这其中对于企业内部数据的收集技术是至关重要的。
本文对服务于企业搜索的爬虫系统的软硬件环境、需求分析、系统架构以及设计与实现等方面进行了详细论述,同时对爬虫系统设计与实现所选用的关键性技术进行了深入研究。在需求分析中,详细阐述了企业当前内部系统的特性,以及数据在系统当中的表现形式。在系统概要设计中,以分布式为主导思想,设计出系统的主从结构,并详细介绍这种结构在数据抓取过程中的优点。随后以整个系统的实现做了详细的介绍,并进一步阐述了对于爬虫的效率、目标系统的登录、动态页面的处理、去重、内容更新等方面的新方案。最后,通过功能测试,性能测试,及其他相关测试的结论证明了本系统达到了设计要求。
系统已投入运行,系统实施后,为提高企业内部数据的利用率,促进形成企业的内部核心竞争力起到了良好的作用。