图神经网络(Graph Neural Network,GNN)是指使用神经网络来学习图结构数据,提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割、生成等图学习任务需求的算法总称。图神经网络(GNN)拓展了已有的神经网络模型,用于处理图或者网络结构的数据。图神经网络已经是一个AI未来重要的发展方向。它的算法思想是基于节点的局部邻居及其自身特征信息对节点进行表示学习(Node Representation Learning)。本质上是通过神经网络对聚合节点及其邻居节点的特征信息做非线性变换。图神经网络有很多变种,可以从图的类型、训练方法和传播步骤等多方面进行变种分类。
新兴的网络购物催生了一种叫退货保险的新型保险。它提供退货邮费补偿,以解决电子商务平台上买家和卖家之间产品退货纠纷。然而,故意滥用保单可能会导致严重的损失。
据Seel的COO刘张思农估计,成千上万的潜在欺诈性索赔没有被之前基于规则的欺诈检测系统发现,迫切需要更智能、更灵活的欺诈检测解决方案。
2022年9月,刘张思农带领AI技术团队开发了一个基于图学习算法的欺诈检测,以区分正常客户和有组织的欺诈客户。该解决方案在Seel的应用,与之前部署的基于规则的分类器相比,准确率达80%以上,可疑账户覆盖率增加44%,每个月可以节省1w多美元。
电商退货保险索赔中的欺诈问题可以看作一个有监督的二元分类问题。保险账户可分为:欺诈性保险账户和定期保险账户。训练的账户标签从以前部署的基于规则的系统中获得,该系统有一定的可信度,但是并不是充分可信的。
为了解决系统的可信度问题,刘张思农带领AI技术团队研发该项目的目标是发现比规则系统更多的欺诈用户,同时保持高准确率。为此,刘张思农构建了设备共用图、交易图和友谊图,同时应用node2vec和基于GeniePath的两种图学习算法来挖掘这些信息。通过实验比较,描述了实现设备共享图和GenienPath算法的完整的欺诈检测解决方案。
欺诈检测面临的挑战:概念漂移、标签不确定性和过多的人力。
概念漂移:随着时间的推移,出现新的欺诈类型,并且越来越难以预测的现象。这是因为保险理赔历史、运输历史和购物历史中提取的账户行为是非平稳行为。一些系统通过使用自适应学习算法对这种非平稳行为建模来解决概念漂移问题。刘张思农团队通过添加更多的静态关系来解决这个问题。团伙欺诈者之间可以通过设备共享图自然地说明,并使用图学习算法建模。
标签不确定性:基于规则的欺诈系统为账号输出“高风险”、“低风险”和“无可观察风险”。“高风险”账号可以确定有问题,但是“无可观察风险”账号是否存在风险是不清楚的。刘张思农团队拥有的训练数据是由少量的正样本和大量的未知样本组成的。为了构建训练数据,从“无观察风险”类别中随机抽取样本。
图的实验对比:从图中可以看,交易图和友谊图中对距离并不敏感。因此并不满足实际需求。距离无法区分正常用户与欺诈用户。
图神经网络方法
刘张思农使用的欺诈检测算法基于GeniePath,堆叠自适应路径层,以便在图中进行广度和深度搜索。
(1)广度搜索可以理解为GAT的变体,强调了具有相似账户特征的邻居重要性,并根据重要性对邻居进行聚合。
(2)深度搜索可以理解为对每层的聚合的信息再进一步的提取,相当于过滤掉每层聚合数据中的噪声。
整个算法的聚合过程在业务场景中可以这么理解:欺诈用户的关联用户并不一定是欺诈用户,刘张思农希望聚合的特征的用户都是欺诈用户,因此非欺诈用户的特征数据在聚合过程中就成了干扰项,需要过滤。
刘张思农设计的退货运费保险索赔检测工作流程图
刘张思农设计的电商退货运费保险索赔检测系统收集过去几个月的提交索赔的账户,并以每天更新的批量模式对它们进行分类。分类结果由Seel专业人员定期评估。随机抽样的结果显示相比于之前的基于规则的分类器,该方案实现了超过80%的精度,同时覆盖了44%可疑的账户。目前,刘张思农设计的退货运费保险索赔检测系统被广泛应用于各类在线保险。(作者:邱小梅)