2016年7月17日,以“大数据与人工智能”为主题的第五届中国大数据应用论坛在北京大学英杰交流中心成功举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,数美时代、章鱼大数据和北达软协办,CIO时代网承办。此次活动主要讨论了大数据与机器学习技术,以及这些技术在各个行业的应用。
高端对话环节由中国新一代IT产业推进联盟副秘书长、北达软运营总监王娇主持对话环节。以下为精彩实录:
王娇:终于到了论坛的最激动人心也是最高峰的对话环节。非常感谢今天能坚持到会场现在的朋友,我相信大家留到最后也是想听听除了专家领导讲的之外,还有正在应用大数据企业里面最真实的感受和建议。接着鲁老师讲的,大数据的应用最后肯定是要落到传统企业里面来,这也是因为大数据的应用,除了刚才讲的遇到的坑儿,有哪些难处、痛点,有了很多做大数据的建议,但是我想大数据的应用它是非常具有行业特性的。虽然它和云计算是秤不离砣、砣不离秤的关系,但是它在行业和领域的应用里是千差万别的。接下来就有请高峰对话的嘉宾入座,从不同行业、不同领域的大数据应用来具体探究大数据的落地问题。有请:
数美时代联合创始人兼CTO、第二届北大互联网CIO-CTO班学员梁堃;
北京燃气集团信息中心总工程师、第十八届北大CIO班学员王广清;
新博卓畅行业资深顾问、第二十一届北大CIO班学员张希光;
博洛尼家居用品公司ERP事业部总经理、第21届北大CIO班学员武毅;
亿方云北京分公司总经理宁时贤。
王娇:今天组委会高峰对话的安排也是非常用心的在设计,我们看看对话的嘉宾,可以看到,有来自互联网企业的,大部分是传统企业的,也有来自厂商支持这一块的,所以延续鲁老师分享的PPT,在传统企业里面落地大数据应用的时候确实有很多坑儿、痛点,但是我们今天的高峰对话,我希望大家能够通过自己的实际工作碰到的一些案例来跟我们分享一下。第一个主题就是在应用大数据的时候,结合您的行业和领域的应用,您觉得落地的困难在哪里、挑战又有哪些?我们先有请数美时代的梁老师。
梁堃:我毕业之后一直在互联网做,毕业之后去了百度,后来创立数美时代。今天传统行业在做大数据,这个可能跟08、09年的互联网有点类似,那个时候虽然说互联网行业已经开使用大数据技术,但是当时互联网里面也会有一些业务部门,他们仍在用传统技术。我是做技术架构的、做大数据相关的,我们就想怎么让业务部门使用这些技术,把这些技术做落地,所以当时也碰到一些困难。因为每一个业务部门他们都会有自己关心的业务,这个时候要想让数据真正发挥价值,除了出具报表,还要跟核心业务紧密结合起来,才能真正给业务带来价值。所以当时我们就从两个方向开始做,一方面,先帮助业务解决他的问题,先把数据收集到平台上,然后我们开始做一些简单的多维分析,把业务基于传统技术架构有些维度总结不出来,但是我们可以把很多维度对比出来。业务第一次感觉到这是有价值的时候,我们再做深入分析,看这个业务当前的痛点是什么,这个痛点是不是真正能用大数据来解决。因为你已经做了第一期的东西,当数据量非常多的时候,传统技术也已经做到了,已经做到了原本技术没有做到的东西。就会产生信任感觉,合作也会比较顺利的推进下去。这是我们当时碰到的问题和一点经验。
王广清:各位同学好,我是王广清,也是18届CIO班的学员,也是首届互联网CIO-CTO班的学员。传统企业落地大数据应用时困难和挑战主要由两各方面:第一个方面,好多企业都存在的数据质量差的问题、数据缺乏治理。其实在第四届大数据应用论坛上我专门做过这样一个主题分享,企业如何进行数据治理、数据治理体系包含哪些方面,如何建设数据资源管理系统,大家如果感兴趣的话可以翻一翻CIO时代网去年的一些文章。
对于这个问题我认为有几个方面:第一点,企业的数据分布在各个系统里面,但是企业缺乏全局的视图。我们有客户服务系统、ERP系统、生产运营各种系统等等,每个系统都有自己数据的主题、数据的模型,但是大家有没有想过,特别是作为一个企业信息化的主管,你们有没有想过,你们企业的整体数据模型是什么样的。你们企业有没有一个全局的数据思考。你们企业有哪些数据域,数据域里面又分为那些主题。对企业非常重要的,未来进行分享、进行决策,都是很重要的。第二点,企业缺乏统一的数据分布规划因为数据产生、存储、流转、分享,各个环节,有的企业缺乏这样的规划,这样会导致数据在流转过程中一致性就存在好多问题。数据的准确性、一致性是要保证的,否则就会导致数据质量出现问题。第三点,数据编码存在问题,数据编码重复,组织架构在不同系统里,你的编码都不一样。未来做决策、统计就会有问题,这是一个最大的问题。
另外就是数据加工很多存在着手工的过程,但是手工过程缺乏监控和管理,这就导致了数据的质量、数据的准确性,甚至有一些是假的数据在其中。还有一点各个企业要上报数据,但是上报数据的口径好多存在不一致,最后统计出来的数据,比如说究竟有多少用户,发展部门有发展部门的统计、销售部门有销售部门的统计,所以说数据口径存在着问题。
这些问题归根到底导致企业数据质量比较差,它是数据缺乏治理。如果数据存在问题,未来分析应用的话就会影响分析的准确性,从而影响未来的决策。第二个问题,刚才四海也提到了,特别是传统企业在落地大数据应用时,铺面存在着落地难的问题。我再做一些补充,我觉得落地难还有一些方面,第一个方面,面临着选型比较困难。因为大数据技术发展比较快,可选的技术也比较多。究竟选哪个版本,往往在选择时特别困难。你要看不准的话,本来在这个方面做了一些投资,但是过一两年它不是主流了,或者你选择的这家公司,这家公司发展一两年就倒闭了,这就造成了很多损失。另外一个应用是需要好多大数据技术组合起来应用。每一个组合时,都有不同技术,也是比较困难的一点。 再一个企业普遍缺乏数据分析人才,更谈不上大数据分析人才,因为这个的要求还是比较高的。如果企业缺乏大数据人才时,在推进项目时也会遇到困难。
另外现在大数据炒的特别火热,领导期望很高,一听说别的企业做大数据我们企业是不是也要做,这样的话后续在推进这个项目时就会有问题。所以我也会建议,针对这种情况,可以先做试点、探索,逐渐积累一些经验,然后逐步推广开来。关于困难的挑战我先说两点,一点是许多企业存在着数据质量比较差、数据缺乏治理,导致了后期决策准确性的问题;企业在落地时存在着选型困难、缺乏人才、领导期望比较高、实施效果并不是很好,后续继续迭代推进时就会困难。
张希光:各位好,非常荣幸能坐在这里作为对话嘉宾。其实大数据的能力我是非常有限的,刚才听四海讲的,其实他讲的就是我心里想说的。我应用方面比较多一些,从技术实践角度会少一些。因为我有自己的团队,他们会做技术,我只负责把项目规划好。通过这些年做大数据,我认为最难的地方大数据,“大”的问题,怎么做大。数据的采集是一个最难的问题,如何保证采集的质量、准确性、完整性,如何做大,它的维度扩展问题。不再数据多好而在于维度大不大、准确不准确。举个最简单的例子,医疗领域的业务非常复杂,我仅仅需要一个挂号的数据就可以了,这是简单的没法儿再简单的了,但是就一个挂号数据我可以分析出很多,哪个地方的发病趋势、发病人群、发病特点、病类趋势等等,会分析出很多,所以说一定要有数据。
再一个,针对企业来讲,现在更多的是互联网企业都有一定的基础,这是很关键的。其实很多企业基础设施很差的,没有足够的基础,那么他怎么去做。这是一个。如果她已经开始转型,基于互联网平台、云平台部署应用,那么数据采集的途径是非常多的。但是很多很多的传统企业不具备这种条件,它要通过很复杂的网络连接全世界的方式采集数据,而这过程层层的路由、维护操作,数据质量已经完全变了样子,这种情况下数据就出现问题。
还有一个,我认为数据在采集时、在刚刚开始建立大数据应用时,我们不要人为的把它放多大或者放多小。什么意思呢?刚才老师们也说了,盲目跟风。大数据如何大、实现多少应用,我觉得完全没必要。我可以采集挂号数据、再采集一个床位数据、再采集一个手术室信息,一项一项增加。再采集的时候,信息要尽可能的多。有很多时候自己喜欢当叛徒。我首先认为它没有用就不要了,我用就要。其实这是不对的。希特勒没有上过大学,初中就退学了。他如何学习呢?他就去图书馆,因为没有老师指导,他就不管什么书全看。他说,因为我不知道未来要用到哪方面的知识,这该是我们的大数据,我要尽可能的采集的多,确实是,他成为了一个帝国的领袖。我们基于企业应用范围内的数据,我们要采集还有就是和我们企业应用系统没有关系的数据,我认为能采集的也要采集。比如说地理、环境、天气、人为习惯、饮食规律等等,这些也要采集,因为你不知道它们之间在未来有没有关联关系。就像唐娟讲的,旅游跟天气有关系,但是如果包括电商、银行就是收支买卖的关系。而很多企业应用是什么,最重要的就是在中间过程上,不是开始结束的。所以说这样来讲的话,我们要尽可能的采集更多的数据来做。
再一个难点就是企业内部技术人才的问题,因为你不知道未来应用要扩展到哪里,如果说我的技术能力不够,要委托第三方做,它是可持续应用。在未来扩展应用就变的非常被动。这是我个人的观点,不一定对。
武毅:大家好,我是北大CIO班21届的武毅。我主要做ERP的建设工作。接着陈院长下午开场白给我们讲的大数据应用五个层级,我也思考评估了一下我们企业现在所处的层阶,我觉得应该是处在2.1。那五个阶段第一个阶段是描述、诊断、预测、现测、指导。为什么我评估2.1?我们通过信息化手段这么年,其实解决了描述和诊断的工作,包括报表。对大数据的应用,那个0.1,我只是说我们现在从管理层、业务层,大家从思想认识上来说,对于数据的重要性比原先提升了很多。10年我们做ERP系统的时候提了两个口号“按流程办事、拿数据说话”,实际上就是描述过去,把业务通过数据信息描述清楚就OK了。现在我们更多的是说这个数据资产化,数据就是企业的资产,怎么把数据里面的金矿挖出来,这是我们需要考虑的。针对企业、传统制造业大数据应用的困惑,包括难点,也就是今天下午的主题,我是从三个方面来讲:
第一方面困惑,其实现在很多企业做的信息化建设,但形成了新的信息化建设孤岛。现在由于业务智能驱动信息化建设,导致我们上了很多的信息化,销售有销售的、采购有采购的、产品有产品的、数据集成这方面做起来很难也就形成新的信息化的孤岛问题,导致集成难度大、成本高。所以你要把数据连接起来的话再去挖掘它的价值,难度就更大。这是一方面的困惑。
第二方面困惑,数据基于PC、IOE架构的信息化建设,数据采集全面性、及时性、准确性难以保障。上午工行的张总也讲了,要更全更快更直。这在传统制造业体现的也是非常淋漓尽致的。
第三方面困惑,虽然大家都希望通过数据把它的价值最大化的挖掘出来、发觉出来,特别是动态模型和静态模型。也就是说静态数据模型对动态数据模型构建过程中的干扰怎么去规避这些风险,核心的就是说怎么建立它的动态模型。方向性的东西我们把握的不太好。今天的论坛非常好,从技术、平台、实际案例告诉我们包括鲁老师讲到传统企业应该做什么、注意什么、坑儿在哪、趋势在哪,讲的很好,但是真正落地时,到底这个逻辑怎么建,我们还是把不准脉,那我们到底需要什么样的人才构建什么模型。
宁时贤:大家好,我是来自亿方云的宁时贤。谈到传统企业做大数据的难点或者挑战,我这里大概提一点,传统企业做大数据的话可能最基础或者最难的地方是基础数据本身。这个基础数据本身,首先这些企业有很多的ERP系统、CRM系统等等各个方面的业务系统,但是这些业务系统里面走的大多数都是流程性的数据或者所谓的数据库里面的结构化数据。其实在企业运营过程当中还有一部分非常大的是非结构化数据,文件、生产图纸、设计图纸的文件,或者基于文件本身衍生出来的,版本数据。这些数据在企业分析中、在现有条件下,大部分企业没有管理到。所以在分析大数据本身,这部分数据怎么能找到,这是现在传统企业很难去有这部分的积累,所以这个是我们的一个观点,谢谢。
主持人:看来我们的对话是非常有必要的。因为从台上五位嘉宾从不同行业跟领域的应用就可以得出到,除了鲁老师在PPT里面讲的第三方通过研究、咨询得来的一些难点之外,我们还更深刻的理解到行业应用大数据里面具体的实际问题,比如说不能因为最近流行云计算、大数据而去为了数据而数据。所以如何在这个里面降低领导对于大数据在企业里面应用的诉求和需求,我们是需要去给领导降降温的。梁老师也讲了,不能为了数据而数据,那怎么应用大数据,就要结合实际核心业务着手。比如也说到了传统企业对于基础数据的质量差,对于传统IT建设模式下的条状化、块状化怎么连通大平台整合、互联。再加上最核心的问题,既然大数据要应用了,那么这些挖掘分析去做决策的大数据的人才又从哪里来,是从企业内部培养还是从外面招聘等等。所以我们也看到在大数据应用本身的事情当中,不光只有应用的事情,前面的准备阶段可能还会要走很长的路。所以我们这一期的论坛为什么也是暨全国高校大数据教育联盟启动仪式,也是希望在大数据人才这一块能够帮助到未来传统企业在大数据运用在传统业务模式创新改革的基础上,提供能源和人力资源。所以最近我常说的一句话就是未来的人才结构决定了未来的产业结构。所以我也真的是非常的荣幸能在这样的平台上去工作,也非常的骄傲。因为我们工作的产出能为现在在座的一些传统企业和我们的一些学员提供一点点的价值。
前面的困难难点说了这么多,接下来我们肯定要关注,您既然已经知道了有这么多的难点和一些挑战,那么应对这些难点和挑战,结合我们实际工作的一些大数据的应用,也希望您给我们现在在场的会场的人员提供一些策略或者是做大数据应用的建议。
梁堃:刚才我简单提到一点,大数据最终落地、最终发挥出巨大价值一定是跟某一个核心业务结合在一起。这个结合在一起才把价值巨大的发挥出来。就像刚才说的,一开始跟业务谈,第一要被人家认可,第二人家不会把这个事情排在非常优先级,所以根据我们的经验,首先去拿他一部分的数据或者看他那一部分数据是比较方便获取的,先给他解决一部分的问题,建立信任关系。
我们公司是通过数据给其他的公司、企业提供风险控制的服务,包括反欺诈、反作弊,但是要做这个服务,我们通常会去跟客户说我需要您的数据才能给你做反欺诈的服务,但是现在每一个公司对自己的数据非常敏感,不会随便把数据给你。所以我们合作时是这样说得,你只需要把最基础的数据给我们,比如说登录的IP,于是他们觉得这件事情是可以做的,而且他把这数据给我们,我们会给他第一批效果。因为他一开始没有做过风险控制,无论是刷榜、刷单频率很高。哪怕我仅仅只通过一两个维度的数据就可以迅速的把一批作弊或者一批欺诈事件发现出来。有了这个之后就建立了跟业务之间的互相信任的关系,也证明你对他有帮助。但是数据是活的,当维度不断越多、不断演进。当你拦住一个对手,他会改变策略。那么第一期之后,我们就把更作弊的高级策略上去,他们认为这个确实有价值,而我们解决不了额外的问题,是因为他们没有给我们更多数据他们对这个非常痛恨,就马上提供。如果他们做一个活动,比如说拿出一比资金做促销活动,90%的资金没有用在实处。当他发现这个痛点之后,发现我们可以解决问题,第二次他主动跟我们说,是不是把客户手机号、点击和展示行为给你,你就能把这种更高级的欺诈行为这批坏分子给揪出来呢,我们当然是可以的。当你和业务方建立信任关系之后,并且帮他们解决问题之后,他们就会越来越信任你,会把更多的数据给你,帮他们来搞定更多的问题。所以这是大数据应用的优势,不是说把数据收集齐了才可以干,而是有若干个维度就可以开始做这个工作了。你随着做的效果的出现,对方会更多的信任你,给你更多的数据,这就形成一个良性的循环。所以就形成一个紧密的团队,大家互相信任、互相配合,把数据落地到业务上去。
主持人:这个是教我们怎么跟业务,怎么破死循环?
王广清:针对于企业在落地大数据应用时遇到的困难和挑战我有三点建议:一是建议企业构建数据治理体系,对企业的数据持续治理和管理。在企业谈大数据之前,首先要把数据治理做好、把数据质量关好。数据治理体系怎么来做呢?我个人建议还是说企业先做一个治理体系规划,通过数据资源管理平台规划一些内容,把这样的体系落地。数据资源管理平台里面包含了主数据的管理、原数据的管理、数据质量的管理、数据安全的管理等等。包括数据模型的管理。而且数据治理工作,特别是对于信息化主管来说,它不是一个项目或者一蹴而就的事情,对于你这个企业、对于你们负责数据管理的相关部门来说,它是长期的工作首先我建议要把基础性工作做好。上午工行的张艳总讲到,工行数据管理体系分了五层,第二层是最重要的,就是数据治理体系的建设。
二是先从简单的大数据应用做起,积累相关的技术和经验再逐渐推广。好多企业实施ERP项目要先试点然后再推广,道理一样的。不要一上来就做一个投资很大的项目,我建议先从简单的大数据的应用开始做一些试点。在这个过程中建立相关的经验、人才、做相关技术的储备。因为我在企业主管信息安全工作,我们从去年开始建立大数据的平台,这个平台更多的是一个测试的平台。这个平台我们主要是做大数据安全的,我是把企业所有的安全相关的日志包括核心的积累的流量全部采集下来进行存储、关联分析,然后对企业整体安全状况进行监控、告警。未来大数据平台也会和微信平台进行对接,对企业安全状况做一些预测。通过这个平台建设,也了解到了了一些技术、注意事项、人才培养的体系、未来运营怎么办,通过这个项目我们要进行摸索、积累相关的经验。
三是建议企业未来经过这样的摸索之后,未来大数据建设的建议,大平台+微应用。现在国广、工行,你们看它的大数据平台体系时,他都是一种大平台+微应用的架构。因为大数据现在非常火,好多企业特别是业务部门都在建大数据,未来问题会越来越多。结合现在行业最大的实践经验,未来的趋势我认为,一定是大的大数据平台,各个业务部门开发的各种各样的大数据的应用,所谓的微应用。你分析像工行的那一块,其实好多企业大部分数据还是结构化的数据,你的数据量比较大,特别是像运营商、银行这样的企业,在这块要建数据仓库,基于MPP架构,对结构化的数据进行分析、梳理、预测,同时还有好多非结构化的数据,结合Hadoop技术,把非结构化的数据管理起来。在这上面一定是很容易下手的分析可视化的工具,比如业务部门也能做相关分析的话,这样一个平台上面的分析工具应该做到非常简单,而且好多平台厂商融合NoSQL,或者在上面做一些关联分析,在大平台上进行解决,所以说未来的架构我认为一定是大平台+微应用的架构。避免企业大数据应用的乱象,通过平台,可视化工具,使业务部门的人员也能着手在大平台上面进行相关的应用,同时如果你的业务部门以不同的合作伙伴在进行大数据分析时,底层数据收集、存储,在大数据架构这块是统一的,上面的应用百花齐放的应用。结合行业建议,我建议未来大数据的平台一定新大平台+微应用的体系架构。建议企业首先要做数据治理体系的规划,对数据质量进行持续治理,从试点开始做起,未来架构选择时一定是个大平台+微应用的架构,在平台选择时要考虑业务部门参与。
张希光:最重要的还是标准,不管是传统企业还是互联网企业,标准是最关键的。一个企业要想走到大数据这个层面的应用,你的信息化建设一套标准,需要一个非常好的顶层设计和一个标准设计。这个标准里面有很多东西,包括流程的,等等。如果这个东西治不好或者没有能力做,我倒建议是,利用现有的技术,比如说互联网+、云平台,首先是上一条应用,这条应用从上一直贯穿到企业的最底部。它就是一条通道,基于这个通道逐渐并行下去,基于这个通道这套系统为主线然后再进行并行下去,形成之间的关系。
有的企业是垂直性非常强的,比如说电信、保险,有的垂直性不是那么强,是松散型的管理关系。这种情况下就会出现数据格式、数据标准不一致的问题。这在统计分析未来的挖掘都会出现问题。举个最简单的例子,一个家庭地址有的是从头写到尾,有的就写某市某某县,有的就写什么小区、门牌号。这是非常不规范的,尤其是基于地理属性挖掘的话。所以在定义这些的时候,我们把地址从国家、省、市、县、一直到乡、镇都统一一个字段,下面对应行政编码,然后再做后面的数据。
每家医院都要根据自己情况进行扩展。而在扩展过程当中,你以后在实践大数据挖掘应用时,如何实行精准分析、精准医疗。所以标准设计和顶层设计非常重要。正是缺乏顶层设计、标准设计、整体方案可行性问题,所以在医疗领域我是非常有感受。国家从99年开始新医改到现在,目前在全国建设113(音)个项目平台当中,真正运行的能达到或者基本满意的不超过30家。同样的,不管哪家企业也会存在这种情况,所以我认为必须要重视起来。
再一个就是要拥有一个自己团队非常重要,不管是哪家企业,我不可能所有的事情都自己实现研发,这是具备研发能力的。有的是不具备研发能力,那你怎么办如果说具备研发能力,在对接过程当中你就出现了很大的问题。形成一个又一个的信息孤岛,共享的信息是有限的,这样就会形成一个一个的孤岛,在打通孤岛方面有没有设计,如果说我们有自己的标准体系,或者说有自己的研发力量。
武毅:针对大数据应用策略方面,我简单谈一下我的一些经验和看法。我们在去年年底时,中央经济工作会议提出来2016年经济社会发展的主要任务“三去一降一补”,我们当时也是研究这个政策,我们制造业,大家知道现在实体经济确实是遇到前所未有的挑战。我们一直在讲“冬天”,从去年就讲“冬天”,对于我们来说挑战还是非常大的。我把企业比作一个人体,刚才光总讲到数据治理体系建设,我们实际上也做了这样的工作,但这是一个大的规划。在这个规划下面具体执行层面有两个措施:动起来、减下去。把企业比作人的话,我们大家都觉得这个人瘦下来相对健康程度要高一些。这个企业数据主要来源于人的行为和物的流转,所以我们针对这两个环节就是让它动来、减下去。人也要动起来、物也要动起来。能移动化的就尽可能移动化,也是在企业里面用的微信的企业号,和原有系统做集成,让它随时随地可以汇报、确认、审批,然后在这个过程当中梳理一下。物的流转,让它尽可能动起来。信息流、物流,虽然上了ERB系统这么多年,但是它的一致性很难保证。我们原来只知道量,现在改变数据结构让他知道价。再就是把数据透明化。以前大家觉得数据不能让太多人知道,一旦涉及到价格就尽可能保密。实际上我们在各种范围、层级,把数据透明化,形成互相的制约和监督。主要就是三种措施。动起来,尽可能移动;价值,原来知道量,我今天干了多少活,员工也是这样,今天干多少零部件就知道能挣多少钱,包括现场对员工的处罚,不管是违章还是违纪了,现在是及时处罚,今天迟到马上就扣钱。通过积累分析慢慢可以预测到这个人有可能离职,这段时间他老是请假、迟到、不守工作纪律,这样可以预测到他离职的倾向。那我们可以让人力资源部及时跟他做沟通,大抵策略就这三个,其他的还在摸索阶段。
宁时贤:我发现最后一个发言总是很尴尬,总是前面几位基本上把一些观点都分享的很全面了。我针对我刚才提出的传统企业面临着大数据的问题和挑战,我想提自己的一点建议。刚才像王总说的,他在做数据安全和治理工作。但是我想更加强调一点,就是数据完整性。所谓数据的完整性,我举个例子,经常有很多企业当他的员工离职以后他就会发现有很多项目资料、工作资料其实是随着这个员工的离开就不见了。所谓的“不见了”,他可能没拿走,放在公司了。但即便放在公司我们也很难找到它。数据的完整性,我的建议就是传统企业应该有数据安全意识。我们现在有很多结构化的数据在数据库里面,一些流程化数据,这个都是在公司里保存的。但是我刚才提的问题里面一些非结构化数据或者形成非结构化数据的沟通过程,我的建议就是说每个企业要重视起来,包括未来做大数据分析过程中,这部分数据对我们数据分析的完整性、准确性是有很大的保障。谢谢大家。
主持人:谢谢!尽管我们的会议有拖堂的迹象,已经拖了20分钟,但是会议上的时间总是有限的,所以尽管我们很全的把不同的行业、领域的专家请到这边跟大家交流,并且也给出很多好的意见,比如说顶层设计。王总不愧是学王,他总结的三点,大平台+微服务的架构是一个正确的方式,是一个趋势,所以我想问一下王总工,您提到的规划是在CIO网上有完整的实施路径和策略建议么?
王广清:对的。去年的大数据论坛,我做了一个主题分享,专门讲企业治理体系的规划以及我们建设数据资源管理平台的相关经验。那里面有信息可以供大家参考。
王娇:为什么追问这个问题呢,就是希望大家可以在明天周一的晨会上行动了。我们的第一步就要从现有的数据的基础开始做起,对于数据以前的差、不联通,可以先从王总工的数据治理规划体系这一篇文章当中找到一些实施的方案,我们开始行动吧。
接着这个行动,就寓意着我们的应用论坛快到尾声。虽然是拖堂了,我也是希望能够抓紧最后一点点的时间,大数据嘛,不可能只是我们台上的嘉宾在讲,希望是一种交互,因为交互才能产生更大的价值。所以最后一个环节也是最后一点时间一留给现在还在场的参会人员,请大家来提问。因为时间的原因,给一到两个提问机会。
现场:刚刚谈到关于和客户建立信任感,得到企业信任,可以得到数据,帮他们做更好的分析,我有一个想法,您帮他做完分析,后期数据是留在企业里还是又把它推销给下一个客户?
梁堃:数据所有权始终属于客户。
现场:做完项目就把数据删掉?
梁堃:数据会变成给他模型的一部分。就像机器学习一样,从里面学习新的规则。模型经过这些数据之后,它不需要原始数据,但是会从数据终寻找欺诈的规则。
王广清:大数据厂商帮我们建模型、做项目的时候,一般的企业,像我们的企业会把平台建在我们自己的企业里面。如果把数据拿过去,一定是经过脱敏的,平台和厂商有相关的协议,双方的责任、数据传播方面的约定。日过没有经过企业的同意,他是无法把数据传播出去的。除非有些企业愿意把这样的数据拿出去分享或者做一些交易什么的。但是在通常情况下,数据一般会在自己企业里面建,即使拿出去会进行脱敏处理。还有数据所有权一定归企业用户所有。
现场:之前出现了很多数据泄露比较大型的事件,最终它不是一个技术问题。因为各家企业做很多投资、做数据安全的技术规划、保密工作,但是最后真正出了数据安全的泄露或者事故,追根溯源发现其实是最薄弱的环节,短板效应。最后落水那块基本是服务商,或者经受过这个数据的维护环节上,而往往不是企业本身。
梁堃:这个问题挺好的,我们需要知道对方的各种各样的数据,所以在这上面是有一套完整的数据协议和数据安全方案,就像刚才说的,第二所有数据在传输存储过程当中是加密的,我们的服务是实时提供的,访问完这个数据就消失了。
王广清:现在好多数据泄密问题,是所谓的黑客、黑色产业链导致的。现在整个诈骗或者专门有黑色产业链是收集这样的数据,然后进行诈骗。也是触目惊心的,有些是重灾区。主要是信息安全问题,企业没有做好自己数据的保护,更多的依靠传统措施。在趋势方面把握补助,导致安全方面的问题。但是从数据加工厂商、大数据平台厂商泄露出去的,至少从目前报道上来说还是比较少。因为我们也是做信息安全的,安全方面还是要紧跟潮流趋势。我们要感知每一个威胁,做未来的预测分析。未必可以防住企业所有漏洞,但是建立一种可以看得建的数据安全能力,利用大数据平台以及其他技术,所有的黑客对我企业发生的每一次访问我可以跟踪、回溯,如果发现有问题我及时采取措施对漏洞进行加固,避免数据被盗窃走,我认为更多的是信息安全的问题。
王娇:谢谢!对话环节提到大数据应用的困难挑战以及应对策略建议,我就想,其实社会的发展和企业的发展有点类似于打怪兽一样,纵使你有再多的困难、坑儿、痛点,但是你都阻挡不了历史的潮流滚滚向前,所以也特别感谢我们CIO时代网组委会提供这么好的平台和机会来供我们大家与专家、领导一起交流学习的机会,也在此感谢坚持到现在与会的所有参会人,也正是因为你们的不离不弃,所以我们的论坛才会一次又一次的开下去。今天大数据应用论坛,圆满结束,谢谢大家!
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:ruanzh
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。