海致金融业务副总裁 杨娟
人工智能演进的速度远超过所有人的想象,围棋——这个人类智慧最后的堡垒,已经被人工智能快速攻破了。AlphaGo Zero的成功预示着没有样本的非监督学习获得了历史性的突破,预示着AI在行业的应用即将迎来不可限量的发展规模和速度,也许是我们现在无法想象的爆发点,但我们正站在这个爆发点的前夜。
知识图谱是人类认知世界的基本框架
世界是由物元、事元、关系元组成。这三个基本的维度互相交织,不断变动。我们从时间和空间的不同维度去观察它们,捕捉它们,进而了解它们的运行,预测它们未来的发展变化,然后采取我们的最优行动。
AI的本质是什么? AI的本质是要让机器替人做决策,做行动。机器在做决策之前,首先要理解世界,诠释世界,之后才能改变世界。
知识图谱将物元、事元、关系元清晰的展现出来,是人类认知世界的基本框架。我们将人类认知世界的模型传递给机器,让机器也能够像人一样理解世界,之后再去做决策,做行动。
例如乐视事件,据不完全统计,包括乐视网在内的乐视体系近几年融资额(直接融资+间接融资)高达728.59亿元,然而不断地依赖融资为债务输血。在交易方面,2016年乐视系交易额中有44%是关联交易,即有44%的营业额其实是发生在乐视系以及其相关企业之间。
从机器的角度来判断该事件,这已经符合了一切高风险特征,即实际控制人在不断套现,不停占用新的融资偿还债务;交易、营业额当中有将近一半是关联交易。如果是机器来做决策的话,结果显而易见。而人在做决策时可能受到感性因素的影响,所以在聚光灯下万众瞩目的企业,依然骗了很多人。
那么对于成千上万并不在聚光灯下的企业,银行应该怎么办?
每一家商业银行至少有几千家对公客户,上万甚至十万以上的小微企业客户,十万、百万,甚至上亿的个人客户,对于这么多数量的客户,我们怎么样防范风险、挖掘价值呢?这已然不是人力能够覆盖的事情,却正是知识图谱、人工智能能够发挥价值的地方。
知识图谱将成为商业银行标配
有专家曾经表示,知识图谱是人工智能的基石。如同人工智能历经了多年的发展起伏,知识图谱的发展也不是一蹴而就的。
20世纪70年代,知识图谱的前身——专家系统诞生,它积累了大量的某个领域专家水平的知识与经验,根据知识和经验,模拟人类专家的决策;
1998年语义网诞生了,它是NLP(自然语言处理)的前身,不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值;
2012年,谷歌推出了KnowledgeGraph,知识图谱正式诞生;
2013年,百度推出了中文知识图谱,海致的首席科学家即来自于百度中文图谱创始团队;
2015年,海致团队开始垂直研发金融知识图谱,成为金融知识图谱的开创者;
2016年8月,海致帮助招商银行总行建立国内首个金融知识图谱平台;而后,又陆续帮助兰州银行、青岛银行、南京银行、长沙银行等商业银行建立金融知识图谱平台。
可见这是一个加速发展的过程,金融知识图谱将会成为商业银行的标配,用于防控风险、精准营销,也将成为FinTech、监管金融当中的中坚力量。
从百度中文知识图谱转向金融知识图谱,是海致进入知识图谱领域的转折点。这是从通用知识图谱到行业知识图谱进行转化的过程,它的顶层基础是相通的,都是海量数据处理、语义识别、复杂关系的建立、机器学习和算法进行标签化的提取以及更复杂的模型;但它们之间也有一些不同之处,这也是海致在构建金融知识图谱的过程中取得核心竞争力的地方,即面向特定的业务领域,基于行业知识构建知识图谱,以知识的深度而非广度取胜。
海致智能金融知识图谱1.0整体架构
海致专注向金融产业进行垂直化的深度研发,以知识图谱技术为底层,挖掘风险与营销信息的产生与传导、打造风控与营销模型、探索人工智能与机器学习的实践场景,推出海致金融知识图谱1.0平台。该平台是一个模块的组合,可以灵活的进行拆分与对接,并且是开放式的框架,能够和现有的金融机构大数据框架、开源技术进行对接和整合。作为业界首个行业知识图谱平台,海致金融知识图谱1.0将能够帮助银行更好地迈向智能金融。
海致智能金融知识图谱1.0的总体框架分成三层,底层是海致核心的技术引擎,包括自然语言处理、图分析与图挖掘、机器学习。在这三个引擎之上,融合了互联网的数据,金融机构内部的数据,第三方合作的数据,以及业务积累。在与银行业务进行结合之后,海致形成了三个重要的智力资产,即海致金融语料库、海致金融算法库、海致金融标签库。在核心资产之上,海致形成了四类知识图谱,反欺诈知识图谱、风险管理知识图谱、智能营销知识图谱、反洗钱知识图谱。这四类知识图谱支撑着不同的业务系统,如金融机构已有的CRM系统、信贷管理系统、风险预警系统、反欺诈系统、反洗钱系统、移动营销系统,甚至OA系统等。
也就是说,海致智能金融知识图谱1.0既可以独立成为一个知识管理的平台,也可以无缝融合行业已有的业务系统、业务流程,最大限度地接入到日常工作场景中。
海致智能金融知识图谱十二大功能简介
(1)企业股权关系、一致行动人、实际控制人等挖掘
企业股权关系查询能够查询任一企业与关联企业之间的投资关系,在此基础上进行了企业股权关系、一致行动人、实际控制人等的挖掘。
(2)任意两企业之间关联关系查询
20个以内的企业可以进行秒级反馈,查询出企业间的最短的关联路径。
(3)担保圈、担保链、担保群挖掘
担保链、担保圈、担保群是信贷工作中需要密切关注的业务场景。过去由于计算技术以及模型的局限,信贷工作主要靠人力操作或者通过实时程序编写进行查询。现在通过图挖掘和图分析算法,可以进行实时、深度的圈、链、群挖掘,并且智能地推送给相应的责任人。
(4)企业集团、企业派系挖掘
企业派系非常的复杂,有时会涉及到几百甚至上千企业。企业派系以及企业集团关系的深度挖掘,是银行进行风险管理、贷后预警中的重要武器。
(5)黑名单企业传导分析
黑名单企业传导分析是通过银行已有的种子黑名单库、黑名单企业,或者黑名单个人,找出和其相关联的可能涉黑或者涉灰的企业和个人,同时根据关系亲疏程度和重要程度,以及量化指标,评估出关联企业或个人的涉黑概率。
(6)授信集中度指标分析
授信集中度指标分析是银行在授信审批环节中评估现已发放的贷款的集中程度。对于银行来说,一般授信集中度有一个上限,越过上限或者即将到达上限需要提前发出预警。
(7)疑似欺诈交易发现及欺诈团伙追踪发现
反欺诈领域特点之一是数据量非常之大,通常是企业场景的几何级倍数;另外,对于实时性要求也非常高,一旦发现是可疑交易,就必须快速发出信号阻断交易。海致在兰州银行知识图谱二期项目上就进行了类似的重点部署,通过大数据以及实时性欺诈检测,帮助零售金融部以及电子银行部等进行风险防范。
(8)风险事件库与风险事件智能推送
海致构建了风险事件库,以及内嵌风险事件智能推测规则。
(9)标签库
标签最早是用在电商行业,用来识别不同消费者的偏好,进行消费者画像的构建。如今海致把标签的理念贯彻在了银行对公业务领域,用标签的方式标识企业、企业主以及企业的领导。标签分为不同的层次:基础标签、业务规则标签、智能标签。基础标签包括生命周期、贡献度、交易行为等;业务规则标签包含营收增长、累计利润、贷款评级等;智能标签包括风险、营销、派系、供应链等。通过标签化的方式,银行能够最大程度把数据、信息知识化、智能化,转化成直接的业务决策和行动。
(10)语料库
因为构建知识图谱的数据中,部分来源于互联网数据,部分来源于企业的财报、年报、舆情等,也可能来自于行内的尽调报告、拜访记录、群众意见等,大多是非结构化的文本数据。对这些数据进行提取,一方面需要良好的基础技术,另一方面需要在建立语料库方面有丰富的积累。
海致目前在语料库有通用类的基础语料,有和信贷报告类、研究报告类、制度类、日常营销以及互联网相关类的语料,同时也在不断丰富和完善中。
(11)词法分析
海致正在和兰州银行进行授信文本解析这项工作,它用机器的方式自动解读文本,提取关键要素用来做自动化、监管、审计,实现了大幅的效率和风险控制上的提升。
(12)算法库
算法库分为基础平台、通用算法、金融算法三个层次。
基础平台包含图算法、机器学习算法等;在此基础之上的通用算法包含社区检测、关键节点分析、关联度分析、特殊结构发现、逻辑回归等。海致专注于金融知识图谱领域,所以在通用算法之上结合业务逻辑、业务理解和业务理念以及在业务的实践、体验,积累了相关金融算法,包括客户忠诚度、客户贡献度、实际控制人、一致行动人、集团派系、客户风险评估、违约概率传导、行业风险、授信集中度、营销价值评估、黑名单传导等。在实践当中,算法库有在金融机构之间一致通用性,再根据每家金融机构不同的情况进行微调和配置。
知识图谱助力金融机构拥抱AI
金融知识图谱的核心技术包括自然语言处理、图分析和图挖掘、机器学习以及领域理解。
大数据、人工智能时代有很多数据来源,大多是非结构化的。未来我们可能也会把音频、视频这些数据都纳入到金融知识图谱数据源当中,自然语言处理技术是银行提升效率与智能水平的关键技术之一;基于关系和基于图的分析和挖掘是非常新兴的领域,它的应用正呈现出旺盛的增长趋势;机器学习,无处不在,在自然语言处理中,语料的训练需要用到深度学习模型;在图分析和图挖掘中,最短路径等算法都是机器学习的范畴;还有最重要的是领域的理解,知识图谱技术与金融业务在实践中进行结合的深入程度,决定着智能金融发展进程的快慢。
海致作为中国金融知识图谱开创者,是目前国内拥有银行客户案例数最多的金融知识图谱大数据公司。通过在与客户合作的过程中,积累了深刻的领域理解与技术经验,致力帮助金融机构拥抱金融科技,拥抱人工智能,寻求变化,追求创新。
第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:content
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。