“薅羊毛”行为防不胜防,人工智能反欺诈如何实现?

来自:gongxiangcj.com 归档时间:2017-03-24
近年来,随着移动互联网的兴起,各种传统的业务逐渐转至线上,互联网金融,电子商务迅速发展,商家针对营销及交易环节的推广活动经常以返利的形式进行。由于有利可图,此类线上推广迅速滋生了针对返利的系统性的优惠套利欺诈行为,俗称薅羊毛。由于移动设备的天然隐蔽性和欺诈行为的多变性,传统的防范手段,比如规则系统等就显得有些笨拙和捉襟见肘了,使得薅羊毛看起来仿佛防不胜防。但是正所谓魔高一尺,道高一丈。在实践中,我们发现,一个基于统计和机器学习的多层动态风险评分体系和决策系统能有效地抵御“羊毛党”的攻击。那如何打造这样一个系统呢?
 
首先,我们来了解下此系统的核心部分之一:特征工程。
 
特征工程,又称特征学,是学习一个特征的技术的集合,将原始数据转换成为能够被机器学习来有效开发的一种形式。通俗地讲,特征工程对原始数据进行加工,将其转换为精确的,可量化的数据。
 
著名法国小说《小王子》中有这样的描述:“如果你对大人们说‘我看到一幢用玫瑰色的砖盖成的漂亮的房子,它的窗户上有天竺葵,屋顶上还有鸽子……‘,他们想象不出来房子有多好,必须对他们说‘我看见了一幢价值十万法郎的房子’他们才能理解房子有多好。”文中,从房屋模糊的文学性描述到“十万法郎”就是一个特征学习的例子。
 
特征工程转换后的数据能被更好的理解和运算,方便我们从貌似渣乱无章的原始数据中找出那些可疑的异常数据。它是机器学习中很重要的一步,也许是最重要的一步。在机器学习领域里有一个不成文的共识, 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
 
在反欺诈的实践中,我们发现从网络及设备终端、用户行为信息、业务事件频次,欺诈网络图谱这四大维度提取特征,并在此基础上对有组织的薅羊毛行为层层筛查,对风险加以甄别,就能让羊毛党无所遁形。
 
设备终端与网络
 
设备终端与网络层面的特征是防范羊毛党的第一道防线,为了规避筛查,或者方便适用自动化工具,欺诈者首先选择在终端做手脚。他们或者适用PC或服务器以脚本或模拟器冒充终端设备,或者在终端设备上,Root, 越狱,打开调试模式,安装一键新机软件,按键精灵等等,也有的正常用户不幸安装了木马程序,而沦为任人摆布的肉鸡。除了终端,网络也是欺诈者最常摆弄的,他们经常适用代理,VPN, 或和一些机房的网络管理人员合作,分散IP,进而冒充来自不同的地域。
 
为了对抗上面所提到的种种作弊行为,在实践中,我们通常按下面的方法来构造一个设备指纹系统:1)根据收集到的历史数据,形成操作系统签名数据库。这个数据库被用于判断一个设备的操作系统签名是否和声明的操作系统及厂商,型号等吻合,进而判断设备是否是脚本程序或模拟器伪装,是否使用了代理或VPN,是否篡改了UA等设备信息等等;2)对设备的IP来源进行分析,看是否有可疑行为的历史,是否来自机房,从而判断其自动化或作弊的可能性;3)根据设备相关的三十多个特征将设备进行关联,赋予其唯一的身份识别符,此ID是上层特征,即用户行为、频次及欺诈网络图谱的基础。
 
用户行为信息
 
在坚实的设备指纹的基础上,需要在会话和账号两层采集和提取用户行为信息。在会话的层面上,借助基于概率的聚类模型和模式挖掘算法(sequential pattern mining),将用户的行为模式,比如事件发生的次序以及事件发生的间隔时间,归为几类。并在此基础上识别出异常行为模式。这些标示特征为区分正常用户和欺诈者或自动化工具提供了重要信息;更进一步,在账号的层面上:首先以账号为索引,将会话层面上提取到的行为信息特征按时间串联起来,得到账户层面的异常行为标示特征。其次根据账号相关联的历史行为数据,提取出用户的偏好属性,比如是否为僵尸账号,相邻登录的平均地理距离等。最后,我们将这些信息综合起来,形成特有的用于反欺诈的用户画像。
 
当一个账号再次出现在业务中时,用户画像中的特征就可以帮助我们评估对应业务事件的风险。在实践中,我们还发现,由“羊毛党”控制的账号,通常具有某些相似性,比如所用手机号码都来自某个号段,用户名都由三个小写字母,五个大写字母和四个数字组成。据此,我们就可以定义账号之间的相似度。这样即使一个账号首次出现,我们也可以使用用户画像,对其风险做一个大致的评估。
 
用户画像除了本身能直接应用于欺诈行为的判断外。还可作为网络图谱模型的输入,为欺诈网络的发现提供线索和依据。
 
业务事件频次特征
 
典型的薅羊毛行为的特征表现为短时期,小欺诈额,高频次。从业务角度上来看:由于薅羊毛的欺诈行为有别于正常用户的行为模式,会引起业务事件在某些颗粒度的时间+空间上分布异常。从反欺诈的防范要求角度上来看:需要对异常事件能快速响应,这就要求对客户行为做实时或者近实时的统计、计算。并且综合时间序列分析,个体差异分析以及当前趋势分析这三方面的评估,实时并动态地对异常频次数做标记。
 
欺诈网络图谱
 
羊毛党经常通过网络发起组织,在一些单点特征上,同正常用户一样呈现出分散的特点,使得单点特征防御难以奏效。但如果将用户行为用网络的形式建模展示,会发现在一些特殊的图形特征上,欺诈行为明显异于正常行为。实践中,我们借助于图学习(Graph Learning)的一些模型,发现网络图谱模型对于羊毛党的发现特别有效。当然欺诈网络发现依赖于设备指纹以及建立在其基础上的同人模型。
 
以上,我们对网络及设备终端、用户行为信息、业务事件频次,欺诈网络图谱这四大维度的特征工程做了一个简单的介绍。在反欺诈实践中,这些提取出来的特征,结合多层动态模型,能有效地识别出高风险薅羊毛行为,帮助企业打击“羊毛党”。
 
基于多层动态模型的风险评分体系和决策系统另外两个特性:
 
• 全栈被动式设备指纹
 
• 生成式概率风险评估模型
 
全栈被动式设备指纹
 
设备识别是反欺诈技术的基础。传统的身份识别技术从PC互联网时代演化而来,至今已历两代。
 
• 第一代设备识别技术主要是通过IP地址和cookie来实现对用户设备的标识和跟踪。由于移动互联网的发展,IP地址多变且重复率高,基于IP的设备识别召回率和精准度都达不到要求。由于苹果和谷歌在智能手机上的隐私保护,以及移动用户更多倾向于使用原生应用,基于cookie的设备识别在移动互联网时代日趋捉襟见肘。
 
• 第二代设备识别技术被称为主动式设备指纹技术,一般采用Javascript代码或SDK,在客户端主动地收集与设备相关的信息和特征,通过对这些特征的识别来辨别不同的设备和相关用户。
 
这种主动式设备指纹技术有其特有的优点和适用场景,但其缺陷也相当突出。
 
首先,存在明显的用户隐私侵犯,并因此可能导致被Google和苹果Apple Store下架。
 
其次,主动式指纹不能实现App和mobile web间,不同浏览器间的设备识别。另外,主动式设备指纹所取特征均暴露于客户端,欺诈者可轻易通过一些一键新机等工具篡改相应特征信息,从而使指纹无效。
 
猛犸反欺诈专利的全栈被动式设备指纹技术,从数据包的OSI七层协议中,提取出这台设备的操作系统、协议栈和网络状态相关的特征,并结合机器学习算法以标识和跟踪具体的移动设备。相比于主动式设备指纹技术,猛犸全栈被动式设备指纹技术™在适用范围和灵活性上,有着不可比拟的优势:
 
1)更大的适用范围,由于被动式设备指纹技术完全工作在服务器侧,一些无法植入SDK或JS的场景也可使用;
 
2)跨Web/App,跨浏览器的识别;
 
3)完全不侵犯用户隐私,避免了被AppStore下架的风险。
 
生成式概率风险评估模型
 
由于薅羊毛行为的隐蔽性和多变性,为了更好的防范欺诈,提取了上面列举的四大维度的特征。要做到多个特征综合使用,就会涉及到特征权重分配和阈值设置这两个问题。与传统的基于静态规则和权重的传统模型不同,猛犸反欺诈的风险评估模型统一在一个基于概率的异常度的框架下,从而不依赖于拍脑袋式的权重分配和阈值调整。模型也因此更加动态,适应性强,不易受行业,应用以及场景(如促销,秒杀)等的影响。
 
以上就是猛犸反欺诈利用其专利的全栈被动式设备指纹技术,针对薅羊毛的特性,打造了一套基于多层动态模型的风险评分体系和决策系统。
 
总结一下,此系统的几大特性:
 
1)依托于设备指纹技术强大的设备及身份识别能力;
 
2)基于生成式概率模型的特征学习,形成了统一的多层特征模型,对欺诈风险进行综合评估,规避传统静态规则所面临的适应性差,综合性差等问题;
 
3)依托图数据库,利用高效的图聚类算法,对欺诈网络进行动态实时的发现。(零壹财经/周辉)

有关于“薅羊毛”行为防不胜防,人工智能反欺诈如何实现?

诈欺猎物160万+ 同盾科技、猛犸等诈欺猎人们的反击战

由中国互联网网络信息中心2月28日发布的数据可知,截至去年年底,我国网民数量规模达到8.29亿,手机网民数量规模为8.17亿,互联网普及率高达59.6%。 以此为前提带来了不少事件,好的一方面是,人们的生活方式在一定程度上得到了很大的升级,实现了“地球村”,实现了“人在家中坐,可知天下事”等。坏的

诈欺猎物160万+,同盾科技、猛犸等诈欺猎人们的反击战

由中国互联网网络信息中心2月28日发布的数据可知,截至去年年底,我国网民数量规模达到8.29亿,手机网民数量规模为8.17亿,互联网普及率高达59.6%。 以此为前提带来了不少事件,好的一方面是,人们的生活方式在一定程度上得到了很大的升级,实现了“地球村”,实现了“人在家中坐,可知天下事”等。坏的

秦苍科技买单侠:反欺诈技术精准定位需求人群 打击黑色产业链

  近年来,消费市场规模成倍的增长,居民消费水平也呈现了高增长趋势,消费金融领域态势一片火热,资本为了满足市场需求,开始源源不断的注入消费金融产品,以此来释放隐形的消费潜力、促进产业升级。虽说市场一片利好,但是决定消费金融成功持续运营的根本在于一个良性、可持续性的风险防控业态。   房屋、汽车、医

币圈不倒,撸到老 | 文末彩蛋

文 | Honey 性感、有趣的 韭菜常常 沦陷于此 央视春晚小品,宋丹丹为了给老伴织一件毛衣,利用给生产队放羊的便利条件,揪羊毛搓毛线,被称为“薅社会主义羊毛”。这就是“薅羊毛”的来源。 「“羊毛党”指的是这群涌往各个平台上占小便宜的人。」 在线下时代,他们常常为抢打折商品、“限时特供”而排

58同城神奇矿 距火牛视频仅有一步之遥

58同城修改“矿石”价格有两种可能,第一种可能:加大“薅羊毛”难度,“羊毛党”只有拉更多的新人进来,才能获取和之前一样的利润;另一种可能,仅是一种链营销手段,借高价“矿石”吸引“羊毛党”获客,然后不断降低“矿石”价格,直至归零,取消和人民币的任何关联。 2018年9月底,58同城刚推出了区