● 摘要
近年来,随着Internet技术与经济全球化的迅猛发展,C2C电子商务模式迅速兴起。作为一种新兴的电子商务交易形态,正逐渐走向成熟并日趋成为重要的电子商务模式。但与此同时,C2C网站的顾客投诉案件日渐增多,使C2C网站成为网络欺诈最为密集的交易形态,阻碍了C2C网站的发展。如何能有效、快速、准确地识别出C2C电子商务欺诈交易已成为目前业界普遍关心的问题。本文首先介绍了数据挖掘技术及数据挖掘技术在欺诈识别领域上的应用,接着深入地研究了C2C电子商务欺诈的形成原因、欺诈规避的机制,对C2C欺诈线索进行分析,指出通过对交易者账户信息与交易信息相结合的数据进行挖掘,对交易进行分类,可以对欺诈交易进行识别。随后本文针对欺诈数据的分布不平衡及单一分类技术的欺诈识别效能低下两个问题,提出了通过随机抽样的方法对多数类样本进行分割的方法解决数据分布不平衡,构建AdaBoost + C4.5的组合分类器模型,并使用投票法对分类结果进行融合。最后使用淘宝网的数据,对本文构建的C2C电子商务欺诈识别模型进行实证研究,并将识别结果与在样本分布不平衡的情况下及使用单分类器模型情况下的分类结果进行了对比,证明本文中所构建的模型适合进行C2C电子商务欺诈识别。在实证过程中,还提出了通过网络爬虫的技术从互联网获得研究数据的方法和思路。