【第六届中国大数据应用论坛】梁堃：大数据在互联网反欺诈中的实践

2017-07-18 09:32:27 来源：CIO时代网抢沙发

2017-07-18 09:32:27 来源：CIO时代网

摘要：2017年7月16日，“第六届中国大数据应用论坛”在北京大学中关新园隆重举行。数美时代联合创始人兼CTO、第二届北大互联网CIO-CTO班学员梁堃发表了题为《大数据在互联网反欺诈中的实践》的主题演讲。
关键词：大数据反欺诈

　　2017年7月16日，由中国新一代IT产业推进联盟指导，CIO时代学院主办，北大软件工程研究所、全国高校大数据教育联盟、北达软协办，CIO时代APP承办的“第六届中国大数据应用论坛”在北京大学中关新园隆重举行。数美时代联合创始人兼CTO、第二届北大互联网CIO-CTO班学员梁堃发表了题为《大数据在互联网反欺诈中的实践》的主题演讲。以下为演讲实录：

数美时代联合创始人兼CTO、第二届北大互联网CIO-CTO班学员梁堃

　　谢谢大家！很荣幸给大家做报告。我们一直在反欺诈服务领域里做了不少实践，这次的报告主要是把我们对这个领域的一些最新理解及用到的最新技术为大家做个汇报。副标题“构建立体的防御体系”是这次报告的核心。

　　一、背景介绍

　　随着移动互联网的发展，我们可以认为欺诈已经是无所不在了，从任何一个服务的推出，如App、网页的推出，从推出第一天开始贯穿整个生命周期都遍布着各种各样的欺诈。比如当App、服务推出了会出现虚假流量、虚假点击等。用户来了会有注册，会出现大量的机器人或垃圾注册，登录时会有盗号登录、账号攻击。还有很多行业竞争是非常激烈的，厂商会有竞争活动，会有刷优惠、刷单等机器人出现。互联网服务会允许用户产生UGC内容，比如换头像，其实这里也会存在广告等其他垃圾信息。

　　近三年，互联网金融或金融本身的业务发展非常快，从理财端逐渐发展到了借贷、消费金融端。那么借贷时的风控，比如一个人申请分期消费，那么他会不会是一个骗贷的或是诈骗团伙的一部分，即便不是，那么它的还款意愿和能力又是什么样的？因此，整个生命周期各个阶段都暴露给了欺诈分子大量的可趁之机。

　　我们希望对于正常用户而言，正常用户无感知，体验不到它的存在。第二方面，我们想做到的是，反欺诈系统一定要精准，能够实时并且准确的识别出这些欺诈行为或欺诈用户。在做到这两个目标的时候其实面临着非常多的挑战，个人理解两个最主要的挑战：

　　第一，灰色产业的技术水平和专业程度都是不断提高的。用行业里的一句话说，和我们作对的这些欺诈团队，他们都是上班打卡的，也可能是正式公司，他们会有专门的人去搞定手机号，如购买这些手机号、身份证号，会有专门的人去专门负责搞定手机号、身份证号，搞定这些资料后开始出售，会有专门的一组人去搞定设备。如果我想做坏事，一定要有硬件设备或虚拟机设备，还有人专门去做包装。比如买了银行卡、手机号这样一组资料，会有正常银行卡消费流水、甚至备注里还包括工资名义的转帐。这组人是做包装的，还有一组人去发现所谓的“口子”，他们会去探测各个行业风险的漏洞，出售这些“口子”，做坏事的人从第一组人那买资料，由第二组人包装等一系列环节，做批量欺诈。你会发现人家的技术水平和专业化程度非常高。

　　第二，单一的模型策略很难同时做到高召回率和低误杀率。这个非常难做到。

　　二、内容反欺诈

　　由于人停留在互联网、移动互联网上的时间越来越长，网上充斥着各种不好的内容。当有流量、有注意力时就有利益，就有发诈骗信息的情况，比如这时的头像、个人描述、评论会充斥一些垃圾信息，这些信息有的是文本，当你发现文本做到一定程度时，又会出现图像、视频这样的内容。这有两个核心难点，首先是语义理解。中文、自然语言是一个很奇特的东西，同一句话、同一个词，在不同的语义环境里表达的含义是完全不同的。我们做这件事情时用两种东西，一个是传统的支撑向量机，就是做短窗口内的语义理解，同时还必须得理解非常长的上下文，这也是业界的难点，我们用深度神经网络来做这件事情，去识别理解超过30个字、一个篇章、一个段落、对话长程的上下文语义。通过这些相结合去理解当前的内容是否有问题，当然这是长短语境上来分的。同时对于不同方面，包括色情、广告等等会建立不同的模型系统。第二个很难搞定的东西，因为我们是有对手的，有对手就意味着对方跟你做对抗，当你能处理这种问题的时候，他们会不断想办法绕过你的策略、干扰你的模型，最常用的就是变体和干扰。另外，它在里面会插很多奇怪的东西，试图干扰你的模型。包括插花纹符号等等。比如当我们识别变体时，很早就使用了深度学习技术，它们是计算各种变体距离，把变体识别出来。我们排除干扰用的是传统机器学习方法CRF，将变体标注出来排除掉。

　　三、行为反欺诈

　　传统上我们也有统计方法去检测作弊，比如渠道留存率、版本更新比例，但今天基本都失效了，因为灰产这帮人做得很专业，他会在合适的时候，再次让用户在上面活跃，使得你的7日留存、次日留存很正常。同样的道理，他会通过篡改软件把这批机型改成与正常机型占比一样。比如苹果占15%，他也占15%，使得低价机型比例也和正常机型一样。

　　搞定这些问题的核心问题只有一个，就是图灵测试或人机识别。要搞定的一件事情就是找出来、识别出来在网络的那一端执行当前操作的物体到底是一个人、一个机器，还是一个程序。识别欺诈行为的核心就是识别机器人，模拟人的程序。坏人做坏事无非是几种手段：虚拟机或通过一批设备不停的对他的信息进行篡改，以及设备农场，为什么叫设备农场呢？它就像种庄稼一样，没有别的作用，长出来租给这个团伙去申请骗贷，明天再租给其他团伙。

　　首先我们真的需要收集端上面的各种特征，包括软件特征、当前进程地址空间、OS版本、系统服务。举个例子，其实每个文件系统在格式化的时候都会生成编号，每次格式化时的东西都是相对随机的，可以认为是文件系统的指纹。当然还有其他的，包括行为特征、环境特征、硬件特征。再比如一个手机，手机姿态长时间处于不动的状态，那这个手机是非常危险的。这个策略现在开始逐渐失效了，因在农场设备的架子上会带一个底座，定期的转一下那个手机。这些列的都是一些经典模型，我们采用GBM等建立虚拟机识别模型，采用异常点检测、设备相似性识别信息篡改设备，采用聚类分析、GBM等识别农场设备。

　　四、反欺诈体系

　　真正要做的体系是反欺诈，从我们现在的理解来看，永远不要寄希望于说有一个非常多的模型、非常复杂的策略、专家系统，或是简单的一个结合，用这种方法的同时搞定误差率和召回率，这件事情是非常困难的，你需要付出非常大的代价。因此，我们做反欺诈时会采取另外的侧率，并不要求每一个模型准确率、召回率都那么高，但我们会搭建一个体系，像一个网格一样，一道一道筛选这些作弊行为，这会带来一个额外的好处，就是灰色产业探测你的体系时，他的成本是非常高的，因为当你几个东西组合在一起时，需要探测的就有很大的增长了。

　　首先我们要形成数据体系，比如基础数据，包括UGC样本、设备画像库、手机号、IP、每日新增等等。还有关系图谱，即数据之间的关联。比如一个人申请借款时填了一个紧急联系人的信息，而这个人的信息和另外一个发生了逾期人填的紧急联系人的信息一样，这个风险就非常大。

　　其次我们要有策略体系。最下面一层是基础引擎，每个基础引擎从一个特定方面识别风险，比如广告模型就看广告风险，IP风险引擎就看IP风险等等，我们有大概20个基础引擎。每个基础引擎职责是什么？首先在自己的方面给一个风险评分，在自己的方面提出一些高级特征，将这些交给高级引擎，高级引擎会综合评判下面所有引擎的结果，给出一个综合结果。在这一层我们引入了一个规则引擎规则，引擎的好处就是可以植入人工的规则。如果是一个虚拟机，我就什么都不看了，如果得分超过0.9，就直接拒绝。这个规则系统也是非常重要的，因为我们是在与灰色产业做对抗，所以你不能依赖于模型不停的每天训练或每个小时训练，你必须有实时的手段能实时的和对手做对抗，这就是规则引擎非常重要的一点。而策略体系存在的第二个好处就是相互可以提供特征，比如注册可以给内容提供特征等等。

　　数美科技就是通过建立数据体系和策略体系这两种体系，做到了非常高的召回率和准确率，获得了客户的肯定，目前已服务数百家客户，覆盖直播、金融、支付、社交、电商、游戏、O2O等行业，其中包括中信银行、360、小米、58同城、爱奇艺、酷狗、用钱宝、点融、挖财、闪银、熊猫直播、花椒、唱吧等知名企业，并与知名云服务品牌金山云达成战略合作。数美自成立之初即致力于利用大数据技术和人工智能技术帮助企业消除欺诈风险，我们非常注重技术和数据的积累，并不断升级，使得漏过的坏人、误杀的好人都会非常少。

　　这就是我报告的一个核心思想，谢谢大家！

第三十五届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：houlimin

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。