随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,大数据蕴藏着价值信息,但数据安全面临严峻挑战。11月19日下午,由中国新一代IT产业推进联盟主办、CIO时代学院承办的“第五期金融CIO论坛:走进奇虎360”在奇虎360总部顺利举行。360企业安全集团大数据应用事业部总经理李虎做出了题为《业务导向,安全可靠的大数据体系》的主题分享,他从大数据的思考和观点、大数据总体架构的考虑和搭建及案例三个方面分享他关于数据技术的体会。以下为演讲实录:
360企业安全集团大数据应用事业部总经理 李虎
各位专家下午好,非常开心借此机会与各位专家分享360在大数据方面的一些探索和思考。我们都知道在360数据驱动安全的理念下,运用大数据的思想、理念和技术做出了许多实践,刚才已举了很多案例。接下来我从三个方面分享我们在大数据方面的一些体会。
一、对大数据的思考与观点
为什么要谈观点?因为最近这几年“大数据”这个词十分火热。其实我们非常坚信数据的力量之大,大数据技术应用是大势所趋,这是毫无异议的。但近几年也是泥沙俱下。大家对大数据抱有十分高的热情、十分大的投入,但实际产出效果、实际落地产生成效,相对投入产出比而言到目前为止还是远远不够的,至少没有预期的大。为什么会产生这个问题?这是值得我们思考的。因此,我们认为首先要对大数据正三观,观念要正确,在此分享一下我们对大数据的看法。
(一)大数据是工具、手段而非目标。
我们谈大数据时可能是为了大数据而大数据,但却忘了用它来做什么。所以必须想清楚,它再厉害也是工具,就像是倚天剑、屠龙刀,关键是有人去操作。最后解决问题才会有效。
(二)坚持业务导向,有效解决实际问题是关键。
我们做过很多实践,大数据是大技术大投入,需要投入很多、积累很多,需要投入高端的人员、资源,但能不能解决实际问题才是关键,对大数据的体系很重要。我们的思考角度便是如此,不是纯技术的角度,而是业务+技术的角度。
(三)大数据工程化
大数据首先是作为一个技术、算法提出来的,但我们坚信一点,任何一项优秀的技术如果实现不了工程化它就很难实现产业化,如果不能产业化就不可能运用到很多的场合、发挥很大的作用。这里我们提出大数据工程的概念。如今提到的机器学习、大数据技术、算法很多,但从工程角度思考也非常重要。
例如在30多年前,那时写程序时的程序代码量很小,都是一些高手,就像如今的极客,那些程序员很厉害,都讲一行代码有多强的表达能力能做多少事情。直到90年代初,大家都认为PC机有256K的内存是很大的,原因是什么?程序很小,所以跑的动。但经过二三十年的发展,软件工程的出现是件很重要的事。将极客小众精英的玩法变为工程化、体系化、产业化的事,其最后的价值还能充分发挥。有人专门做算法研究,但也需要关注工程化。
(四)大数据体系
因为需要采集、存放很多数据,经过深加工之后将原来潜藏在深层次的规律、关系都找出来,它的价值非常大,但其敏感性很强,因此,它本身的安全是极其重要的,在构建大数据的体系时,首先要考虑全面安全的防护、监管等。这是我们看中的观点。
二、大数据总体架构如何考虑与搭建
基于大数据体系的观点,我们构建了360业务导向安全可靠的大数据体系。大家都在讲大数据体系,那360的大数据体系有什么特点呢?有两个关键词:业务导向、安全。一般做IT的朋友习惯说看架构图,且从下往上看,下意识的一层层向上看。但今天我提倡倒过来看,从业务角度出发来。因此解读这个架构时候我们倒着说。我们将这个架构分成四层,从上往下分别为应用层、模型层、数据层和基础设施层。我们在做任何事情前需要明白业务场景是什么、将大数据用到什么地方、希望它产生什么效果。
(一)应用层
这里举一些例子,如金融行业反欺诈、信贷风控、企业内部内控、员工行为分析、不良贷管理等。公安行业中的维稳、反恐、治安、情报分析等也是实际应用。以及其他行业,包括网络安全领域也是一个典型的应用场景,这是应用层。同时,应用层面不仅仅只是有模型结果,我们希望变成持续化的闭环。以反欺诈为例,从事前预防、事中干预阻断、事后分析研判三个步骤展开,分析研判的结果再返回到预防形成闭环,这是从应用层角度来分析问题。
(二)模型层
模型层的关键是需要通过模型算出结果,无论是预警还是提示,模型很重要,但一般体系化模型层只写算法,如神经网络、决策数等。但我们认为模型算法只是其中的一块,我们更看重建模能力,一定要将算法充分利用,建立有效的模型来解决实际问题,这里便体现了刚才谈到的大数据工程理念。以软件工程为例,其中有很多建模工具和开发工具,我们希望依托大数据工程的理念在这一层建立相应的建模工具平台,即天智平台。它整合贯通了大数据的全生命周期,从建模目标的确定到数据资产的管理、数据准备、数据预处理、数据特征的探索、特征工程直至模型投产运行,整个过程是全生命周期端到端的支持。同时,我们希望这个平台本身也应用大数据的技术和知识学习的理念,以及推荐的算法、模型提炼出来的案例等,都是不断演进的,而且可以越来越智能,可以积累一个单位建模的能力,且不断持续提升这个能力。
(三)数据层
拥有模型后,建模还需要基础,因此需要数据层。数据层的核心是数据融合层,这是天合平台。不论是结构化数据还是非结构化数据都需要融合到一起。我们会发现在传统的应用场景中,结构化的数据往往会起到骨架的作用,但血肉是不够丰满的,导致模型不准或无法判断,如果将非结构化数据提炼出来,综合到一起会产生更多的信息维度,这种模式会更有效。
(四)基础设施层
基础设施层,是Hadoop、Spark等。从上往下看是一层层推导出来的。整个大数据体系的安全保障与监管。如我们整体的安全态势感知、威胁情报、数据安全、云安全、网络安全、应用安全等一整套体系,我们会保护好核心资产,随着未来的发展,大数据体系是非常核心的资产,如何从一开始便将它保障好且与时俱进地持续保障它的安全,显得非常重要。因此,整个体系我们称之为4+1。左边的四层,右边是一条,整体构成大数据体系。而且我们特别强调业务导向,安全可靠。这是整体的体系架构。
三、案例分享
接下来我与各位专家分享三个案例,其中前两个案例是应用层案例,一个是金融行业、一个是公安行业。第三个案例是天智平台的介绍。
(一)金融行业案例
近几年互联网金融较为火爆、良莠不齐,出现了不少P2P平台骗贷、跑路事件。9月24日互联网金融管理办法出台,要求各地的金融监管机构——金融缉金融办,对辖区内所有的P2P平台进行监管。但监管的话一定要有抓手,因此我们用大数据的技术帮对方实现,代表金融办对行业进行监管的例子。
首先看P2P平台,我们是代表监管层看待问题。其中涉及的主体,第一个主体是P2P平台本身,涉及到很多借款项目、借款人、投资人、担保人等主体,每个平台上会有很多借贷的项目。从监管层角度要看到辖区内所有的P2P平台究竟发生了什么、哪些平台可能产生了较为严重的违规问题。对方要及时处置,不能恶化。为便于理解,我们重点识别监管哪几类平台呢?四类:疯子、骗子、矮子、瞎子。疯子是什么呢?是指他本身并不是想骗钱走人,但为了业绩、吸引VC,进行一些操作使他的一些业绩长大,吸引更多的投资人。那么骗子是存心不良,一开始就想骗钱,易租宝便是一个典型,经查证后,他不资不抵债,他是直接将钱挥霍了。这种类别一定要识别出来,其危害非常大。我们发现有些P2P平台中的某些投资人是老年人,将他的退休金、养老金拿出来,而且涉及量非常大,便会是一个非常严重的社会问题。还有矮子、瞎子,说他的能力不足,或看着钱好赚就进来了,我们对这一类的关注度相对低一些,其危害会小一些。因此这个平台的重点是要识别和尽早发现疯子和骗子。
怎么做呢?我们用大数据来计算,总结为一套智能模型、一组标准体系、一个数据平台或一个数据中心,以及一个应用平台,最终将模型做成一个功能,让监管层可直接使用的一组功能。因时间关系,我重点为大家介绍一下智能模型。我们的模型分为三个层次:数据元模型、异常识别模型、风险评估模型(量化评估模型),它们是相互递进、相互关联的关系。
1.元模型
可能各位专家对元模型非常熟悉,因为银行大多做了仓库,远离是相同的,我们用元模型技术描述P2P业态,将它的特征描述出来,大概有7个主题域、34个关键实体及600多个关键属性。
2.异常识别模型
有了这个描述后,我们建立了异常识别模型,即通过大数据的方法,其中的办法既用了传统的专家经验、规则系统,也用了机器学习,综合建立了一系列模型,这些模型经过训练调优后将之投产,扫描实际运行的P2P平台中各方面的数据,然后进行分析。我们使用的数据除P2P平台本身的数据外,还采集了工商、税务、诉讼、互联网舆情、政府公开信息等,很多是将非结构化数据全汇聚到一起进行发现。
3.风险评估模型
风险评估模型,即量化指标模型。它其实参考了很多风险,包括信用评价等,综合P2P特定场景做了一套风险评估指数模型。
这三组模型之间是相互关联的,元模型是基础,异常识别模型是实际应用,然后再进一步综合量化评估便可进行总体态势的把握和感知。
这是第一个案例,我们这有一些DEMO数据。通过风控平台,首先告诉你监管的P2P平台服务了多少借款人、投资人,募集了多少资金,投资获利如何。可以很直观看到代表的是贷还资金增长趋势,贷还量增长非常快,一方面说明其业务更加蓬勃,但风险也增长也非常快,出问题的可能性也比较大。接着做风险指数,对每个平台进行评分,可进行排名,分析哪个平台风险比较高。刚才谈的风险指数包括五个关键方面。其中借款人结构性风险是较为严重的问题。因此我们要进一步关注背后的问题是什么。
以自担保的问题为例。自担保是明令禁止的,但我们通过机器学习的方法,找出人与人之间的关系。下面是借款人,上面是担保公司,直接看他们是没有联系的,他们通过投资关系、法人关系、高管关系,背后是有关联的。他们通过四度关联建立起联系,最后属于自担保的事情,这是非常危险的。
还有一个来自金融融的例子,这个例子非常危险,x某是xxx法人股东,这个公司又是yyy金融信息有限公司的一个股东,yy金融又开办了一个P2P平台,他怎么做的呢?x某在P2P平台上借钱,不断地向投资人投,实际上都是借给他。他将钱又投到xxx公司中。一旦这个xxx出现问题,其资金链就断了,他定会跑路。所以找清楚他背后的问题后,便可以判断出直接关停。因此,溯源很重要。
(二)天智平台案例
我们主要的想法是什么呢?即我们自己在做大数据时便发现,要将大数据智能建模做好,路上有很多拦路虎。因此会导致一个现象,其中有很多潜在价值需要挖掘。大数据也是无处不在,需求一定是巨大的。但目前的情况是什么?它的价值还远远没有发挥出来,也就是说,目前有效的应用还是较少的,主要原因是实施难度非常大,关键瓶颈在建模能力、投产复杂性,满足不了需求广泛性与响应及时性的实际要求。
建模人员需要综合能力,对业务、数据、IT了解,这种人永远是稀缺资源。即便软件工程发展了几十年,优秀的系统分析师一定是稀缺资源,将一个系统分析设计好是非常难的。与他的成长经历、天赋都有关。这就导致门槛很高、数量很少,可需求量很大,怎么办呢?我们就想做个建模中心,由对方提需求。可这样周期非常长,而且少数人服务多数人的需求,根本赶不上发展。第二个问题是投产的复杂性很大,在建模时,要对数据做各种变换、数据预处理,当投产时,意味着要对生产数据做全面的处理,才能将模型用上去,否则模型无法运行,这两个环节难度很大,导致周期很长。
实际的例子,如欺诈类问题,犯罪分子经常捞一票就换手法,他在打游击、捉谜藏。等我们花半年、几个月的时间将模型建出来投产,他已经消失了,跟不上时效,没有意义。因此我们称之为精英模式,小众长周期是他的特点。只有很少的人能做到这件事,而且事情设计周期很长,包括数据协调、获取数据等都有很多困难。你可以说是一个内部管理问题,但同时也是一个工程问题。
我举几个例子说明它为什么很难。第一个问题是拦路虎。如何将业务目标转化为建模目标,看起来不用细讲,但其中的鸿沟之大就好比软件工程将一个业务需求转化为一个系统需求,其实大家都知道鸿沟之大,不同水平的人做出的转化率是不同的,这是第一道难关。如非本人交易,如果是有经验的建模师听说你要做非本人交易,这肯定是二分类的问题,你要进行识别。然后再了解数据情况,如果数据量较大,那可以用机器学习,数据少还不够。另外,已有的样本中哪些是有标记、哪些无标记。如果没有做标记,只能做无监督学习。可这个精度较差,因此会存在很多问题。这个过程在特别有经验的建模师看来是瞬间完成的。但对于绝大部分人而言,掌握的过程可能要积年累月,甚至很久都掌握不了,因此第一关就无法走下去了。什么时候选什么模型,选神经网络还是回归,都有很多麻烦事。
还有一些实际的问题,银行数据量、表和字段数量级,表可能是几十万上百万数量级,建模需要收入采用哪些手段做输入,那么多数据存在什么库中?语义是什么?时间久了数据字典也不一定及时更新,因此可能都说不清楚,那怎么办?这些都是实际的问题。我们的平台希望识别出关键的问题,千方百计降低门槛。
数据资产可视化管理以LDM为基础,但不仅局限于LDM,因为将来可能需要从外部采集数据,这些数据用直观可视化的方式汇聚到一起。例如其中的每一个球代表一张数据表,球体积越大代表字段或与它有关联的表越多,然后还原成可视化状态。以非本人交易为例,首先当事人是一个关键,筛选便可筛出若干张表都涉及当事人,然后再以其为中心进行探索,找出与他相关的资料,最后便可以进行标记,选哪些数据作为输入、构造特征的备选项,可以生成数据需求清单。因为即使有大数据平台,也不可能将全行的数据灌输上去,一定是有选择的,但一定要知道从哪些库去选择哪些。客观而言,数据在数据中心,但业务隶属关系上的数据属于这条线,有个人业务、企业业务、卡中心,你调用数据也不是那么容易。通过数据需求清单便知道需要什么字段,最后将这些数据加载在建模平台上。
数据规律可视化探索也是一个典型的例子。例如,我找到一个非本人交易,我从一个点入手分析他的交易特征,如交易对象、交易终端、资金流向等,最终可找出很多相关的因素,便可以作为构造特征的参考。如果说一个人通常发现他所有的交易特点,基本上每个人的交易都有一个往来圈子,不会有任何随意的交易,除非网购。当突然出现一个从来没有过资金往来的人时,这是一个特点。第二个特点,交易终端,例如,一个人通常在ATM上转帐,说明这个人年龄较大,但突然用手机App转给陌生人,这是一个备选项。
我们提出一个概念,通过这个平台想达到什么目的呢?即建立一个普惠模式。让更多人参与、更多人受益。我们原来的需求很大,但实现的很小,通过普惠模式,便可以通过天智平台使得更多需求释放出来,甚至一线业务人员也可以参与其中一些步骤,形成全行资源配合。
四、结语
简单做个小结,首先我们坚信大数据肯定是大势所趋。但不是说它一下子就一步到位或包治百病,但它的价值绝对非常大。坚持业务导向,业务导向是初心,不忘初心,方得始终。从技术到工程是大数据产业化的必由之路,这便是为什么建天合、天智的原因。一定要将大数据工程化,降低它的门槛,让更多人参与进来。中国人特别聪明,你有机会让他去玩,玩个一年半年一定可以构建起来。因此,天智平台是帮助大家构建大数据的能力。选择一个恰当的切入点,脚踏实地开始积累是最佳的选择。我们每做一件事都要有较好的切入点,而且最好每年有一个小的目标可以达成,让它产生价值,不断的迭代。谢谢!
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。