2018年7月22日,一年一度的“第七届中国大数据应用论坛”活动在北京大学隆重举行。本次活动由中国新一代IT产业推进联盟指导,CIO时代学院、北大软件工程研究所主办,全国高校大数据教育联盟、北达软、万山数据协办,北大CIO班学员、CIO时代学院学员、全国高校大数据教育联盟成员、其它大数据领域专家和管理者等近两百人参加了这次论坛活动,此次活动的主题为:大数据时代的数据保护与利用。数美科技技术总监关涛发表了主题为“大数据时代的智能风控”的演讲,以下为演讲实录:
数美科技技术总监、第五届互联网CIO-CTO班学员 关涛
关涛:大家好,我非常荣幸来到母校跟大家做分享。今天我给大家讲的是大数据时代的智能风控。因为大数据时代和以前的传统风控是完全不一样的,所以我给大家简单的分享一下。
背景介绍。我们是来自于一个高速发展的金融科技公司,我们互联网基因是比较强的,短短三年时间我们已经有1000多家客户了。
行业趋势。我们现在这个行业大家都很清楚,现在行业趋势就是互联网金融发展速度越来越快。预测2019年大概会有26万亿在网上进行移动支付,现在大家买东西都是支付宝、微信,金融方面的互联网化是越来越快。
现在欺诈越来越猖獗。2016年的欺诈,互联网诈骗案例达到平均每个月十几万次了,而且网络欺诈造成的损失大概有0.63%占GDP,大概是四千多亿人民币,损失也是巨大的。
另外,欺诈种类越来越多。举一个今年典型的例子,今年5月25号光大银行做了个决定,把人的信用额从1万升到15万,他是想促进大家消费,但是就这么一个决定在5小时之内导致他损失了25亿。为什么?因为有黑产,当时直接用自己养的很多卡号,直接去套现,用完了钱之后把这个卡废掉,5个小时之后他才赶紧把策略停掉,但是已经造成巨大的损失了。
还有一个行业趋势是黑产已经成为一个巨大的产业链。有人专门做开发,他们开发一些软件和系统,还有人专门把这个软件进行批发。还有一群人专门使用这些软件进行诈骗,还有一帮人进行销赃。他们已经形成了产业链。
现在传统风控有什么样的不足呢?现在的风控基本上都是依赖于简单的黑库,准确率是比较低的,依靠简单的规则,去简单的判定它是否有问题。此外,现在的风控主要是欺诈个体的识别,团体作案是很难识别的,最后是自学习能力比较差,不是实时的。银行办业务需要填很多表,审核速度是很慢的。这就是现在风控的主要问题。
风控产品能够把风控的问题逐渐解决掉。整个金融借贷流程,第一是进行注册,注册之后申请借贷,然后进行可信度分析,再进行放贷。贷中也会进行检查,还有贷后预警。数美风控主要是三个方面:第一是内容的风控,也就是说文字、文本、图片,比如说申请一个东西你前面的文字是不是正确的,填的姓名有没有问题。其次,上传的图片是不是真实的图片。最后,是欺诈的风控,你是不是在诈骗?还有就是信用风控。主要这三个方面的风控。
内容风控怎么做?首先,文本挖掘。其实我们也是用深度学习挖掘的方法、监督学习的方法来进行判定。图片的风控很常用的方法就是CNN,深度学习网络。视频怎么做呢?是把视频截成一个个的图片进行处理。网页是把网页内容拆分成文本和图片来进行处理。
欺诈,这边左侧是事件,我们通过一个时域关联网络来判断它是不是欺诈行为。还有欺诈体系。我想说一下我们大数据的基础架构是什么样子,还有欺诈行为检测。我们这边还有设备检测,判定你这个设备是不是有问题的设备。你的App装了我们的SDK,就判断你的虚假性。黑产用的是虚假设备,也有可能是真实设备但是装了作弊软件。同时还可以进行数据挖掘,通过关联关系进行判定。
信用分析,我们判定一个行业关系名单,还有多平台借贷判断你是不是在多个平台有借贷,以及你的可信度是什么样子的。
前面介绍的是风控相关的产品,但我们怎么才能快速实现这些产品以及怎么快速的解决风控的问题呢?需要什么样的风控基础架构呢?这就是我将要介绍的我们的基础架构是什么样子的。我们的系统如何支持上千家公司进行风控的。
其实设计这个系统需要抓住它最核心的地方,化繁为简。与传统风控思维不太一样的是,我们要跑的很快,很繁杂的地方我们要找到核心问题是什么。核心问题有三个层次的问题,第一个就是行为层次的风控,这次行为是否有问题,这时候我们需要研发一个实时决策引擎。第二个是实体层次的风控,比如你这个人干了很多坏事,那我把你这个人进行封杀,这时候要有实时画像引擎。还有一个是全方位关联的风控,比如说人和手机、手机和人之间的关系。这种情况下我们有一个关联网络的引擎。这是我们的核心系统。
这个是我们的整体架构。最上面是主接口,我们称之为网关,是进行安全验证的。第二是业务逻辑层,进行业务的相关逻辑的处理。第三是核心服务层,就包括实时决策引擎、实时画像引擎、时域关联网络引擎。第四就是基础服务层,包括模型服务、图像识别服务、名单服务、统计引擎等等,这是基础模块。我们分层是以微服务研发方式进行开发。每个微服务是每个人进行负责,这样迭代速度就会快。互联网就讲究高速迭代。还有一个就是数据分析平台,数据分析平台就是构建规则库,分布式画像库,关联网络。分布式画像库就是用一致性hash算法来实现水平扩容。
还有就是核心的地方,就是实时决策引擎。它有两个特点:一个是通用性,一定要灵活。不同产品整个流程不一样,要自动生成自己的数据流图,不同场景配置不同的规则策略。变则通,要善于变化。还有一个就是一定要快。这取决于什么方面?实时计算实时决策。刚刚说的一个例子,5个小时时间一个策略上的漏洞直接损失25亿,所以要快才能损失少。第二是系统升级一定要快。通过可视化的配置,简单的配置一下,相关的规则就生效了。所以这个地方时效性一定要求快,俗话说得好:天下武功唯快不破!
那我们怎么做到这一点呢?用户请求过来以后,第一个模块是工作流计算引擎,是通过你这个产品、业务配置什么样的变量,然后我这个计算引擎就会有自己构建出来的流程度。还有调度引擎,最后是规则引擎,也就是加载决策规则库,就可以进行规则的判定。
我们看一下内部的结构,第一是工作流计算引擎。配了四个变量,自动生成了调度流程图。生成流程图之后,调度引擎根据每个阶段进行自动调度。
再介绍一下规则引擎(Inference Engine)。人工智能有两个分支,一个是基于统计学的,我们经常用的深度学习。还有一个是专家系统,通过推理判断出来的,你给定规则和知识,我们用正向演绎法,通过事实来进行驱动。一个基础事实出发,不停应用这些规则产生新的事实,就这样持续地去处理,一条一条的就会产生很多新的结论。最终给出一个最后的结论,你就可以决定对这个人是否可以放贷、放贷多少。这是自动推理的。Work Memory就是事实,Rule Base是规则库。还有模式匹配器,就不停地进行匹配,匹配之后得到需要计算的结果放到议程器(Agenda),然后放到执行器里计算。我们用的是正向演绎法。
正向演绎法有一个叫做规则引擎的计算。规则计算虽然它是通过知识库和规则一条一条进行匹配的,但是线上实施的是什么方法呢,构造了两层网络:α网络和β网络。这个叫RETE算法。通过RETE算法可以并行计算很多规则,然后计算出一个最后的结果。还有实时决策引擎,可以配置变量、模板、简单的规则,这几个条件。现在配置规则条件得出相关结论,自己就可以上线了。这就是规则引擎的强大之处。
另外,实时画像引擎可实现多环节联动联防。实时画像结合各业务场景的弱特征形成一个强特征把这个人识别出来。实时画像引擎也一定要做到实时,所以我们有个发现规则库,还有实时数据沉淀引擎,你需要实时的存储到画像库里,这里需要根据你的配置决定写入到对应的数据库,根据你的配置进行实时写入。
决策引擎会给一些数据到实时画像引擎,实时画像引擎会进行同步服务,同步到异地、多地。要在多个灾备中心同时提供服务,所以有个同步服务把相关实时数据写入到实时画像里面。每一个机房节点自己内部也是一个小的分布式系统。
时域关联网络。假设一个人有风险,通过使用风险传播算法找到更多风险。关联网络是怎么进行计算的?比如说有个节点,周围有个分数,比如说0.8分、1.0分等等。这个算法是空间计算每个节点的风险数。在这一刹那间空间拓扑把每个节点风险计算出来。还有就是通过时间上的传播,一个时间节点能计算出来每个节点风险情况,还有时间上的,通过时间的每个顺序,可以进行进一步计算。
数据分析平台。业务分析,可以进行可视化展示,进行分析,包括画像数据、事件、历史等等,还有业务趋势。数据分析平台,使用ELK技术搭建实时日志分析平台,这是很成熟的方法。数据分析平台一般分搜索与聚合或聚合与统计。
跟黑产斗争,我们解决一部分问题之后他总是攻击最薄弱的地方。所以一定要是立体式防控。这是我们典型案例,还有策略循环迭代,就是根据数据样本进行不停的分析策略,不停的上线。还有架构经验的心得,尤其是对于初创公司,我们为什么几年之内有上千家客户使用我们的产品,很重要的一点就是设计足够合理,一定要抓住核心本质,要具有化繁为简的能力,去解决他的核心问题,这样你的系统才会越做越好。不会说做很多无用的东西,弄的自己很繁忙很累,而事实上没有解决核心问题。
这就是我的分享!谢谢大家!
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:liukai
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。