当前位置:问答库>论文摘要

题目:网贷交易平台数据采集系统的设计与实现

关键词:P2P网贷;网络爬虫;数据采集;Web抽取;页面解析

  摘要


    本文是针对多家基于网络进行贷款交易的金融平台,讨论如何采集这些平台的交易相关数据以便于进行分析处理。数据采集的内容主要是显示在网贷平台上的交易数据以及网站的一些基本信息,比如借贷的金额、借贷的利率、偿还的方式和期限、网站的名称、总的交易量、借款人信息等。

    本系统所要采集的数据是在网贷平台网页上所显示的数据,这些网贷平台的交易数据会以“进行中”和“已完成”的两种形式保存在网页上面,给我们提供了采集网贷数据的基础条件。通过搜集几十家有代表性的网贷交易平台的数据可以统计出以下信息:网贷平台的平均综合年利率、网贷平台的平均借贷期限、网贷平台的总交易额。根据前期的技术调研,本课题最终需要达到由网络爬虫和页面解析共同组成的系统,其中网络爬虫能够爬取网贷网站的url信息,页面解析可以根据不同的页面抓取到理想的数据。整个系统主要分为三个模块,有系统登录模块、爬虫参数配置模块、数据采集模块,登陆模块主要的功能是限制系统使用的人员,只有使用正确的用户名和密码才能进行系统的使用;爬虫模块主要的功能是对爬取的条件进行设置,比如爬取的线程数、爬行的初始站点、和爬虫的个数,并根据设置好的参数成功抓取到网站上含交易数据的url并保存到数据库中;数据采集模块的功能是当爬虫模块抓取到网站上的url时,根据url对应的网页并且利用提前配置好的网页模板对网页进行分析,从而达到自动采集网站上交易数据的目的。

    论文主要介绍了数据采集的研究背景和研究现状,网络爬虫的相关技术和信息采集的基本原理,介绍并分析网页结构;然后提出系统设计方案,详细设计和功能模块的实现,最后进行系统测试成功实现了所有预期的功能并且在一段时间内系统运行良好。该系统已经进入一期运行阶段,截止目前,已成功抓取三十个网贷网站的数据,并且部分网站已经抓取了半年的数据。