2016年7月17日,以“大数据与人工智能”为主题的第五届中国大数据应用论坛在北京大学英杰交流中心成功举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办,数美时代、章鱼大数据和北达软协办,CIO时代网承办。此次活动主要讨论了大数据与机器学习技术,以及这些技术在各个行业的应用。中国新一代IT产业推进联盟技术分委会秘书长鲁四海分享了题为《大数据技术及行业应用》的主题演讲,以下为演讲实录:
大家好,今天主要是把我们之前研究的内容在这里跟各位专家做个汇报。之前我们发了一个大数据排行榜,包括有产业地图,在那个过程当中我们的专家一起做了一个总体的产业分析,总结了中国国内的大数据发展的技术趋势或者面临的挑战。结合这个题目,分为两个部分:第一,行业的趋势、技术发展是什么样的。前面几位都从各个专业的角度做了深度的解析,我在这简单做一个小结,技术趋势;第二就谈一下大数据应用起来最终会落在传统行业,因为IT技术的发展不能自娱自乐,一定要提升整个社会的生产效率才会是有大的用处。
小平同志很早就提到科学技术是第一生产力,所以说我们要回馈到传统企业来。回馈传统企业,传统企业、传统行业怎么去用大数据?面临着哪些困难?我们怎么去解决?
首先来看,我们现在面临的是什么。第一,首席数据官开始崛起。越来越多的企业和组织重视大数据这个事,而数据是散落在各个部门的,它的技术产业链比较复杂,所以要有一个团队,姑且叫他首席数据官,我们相信过两年会到一个更高的位置。
今天上午也有专家提到可视化,我们认为可视化是推动大数据普及的一个重要的手段。大数据的真实用户,我们认为是业务不应该是IT人员。因为大数据最终分析出来的结果是指导业务发展的。怎么样让这些业务参与进来?一定要把数据的可视化做出来,让他马上看得懂,不能让他们去敲代码。第三,大数据还有一个趋势就是智能化嵌入,一个是终端的嵌入,现在每个手机上都有一个云助手,还有是在服务端,越来越多企业信息化的应用都植入了大数据分析的模块,而且功能在不断的加强。那么第四是机器学习迎来上扬的趋势,这个就不再赘述。我就说一个观点,机器学习,我们认为它已经是未来数据准备和预测分析的必要工作。我们通过机器学习,那我们的预测、需要的模型就没法儿出得来。第五,开源应用会持续加速,这得益于什么呢?现在的开源和以前的开源已经是今非昔比了。以前的开源是属于发烧友干得事,现在的很多开源工具是直接拿过来就可以用的,对于很多企业来讲可以快速进入大数据做一些尝试,以前是没有的,现在可以提供很多便利条件,能够先去感受做一些基础的尝试性的工作。第六,数据服务逐渐形成发展规模,这个主要有三个原因:一是数据这个事我们没有必要做一些重复的工作;二是数据一定是多维度的才会发挥最大的价值;多维度的数据整合一定需要共享。共享最佳的体验方式应该是数据服务的方式,因为数据最终是为了解决问题的,数据服务是解决某一块问题,我们整合起来就解决一个大的问题,这个模型就出来了。三是利益驱动,越来越多的企业有很多数据,逐渐用数据开发增值的服务,通过服务的方式去提供。比如说互联网公司提供账号安全检测、用户可疑行为分析等。第七,算法市场正在兴起,数据要去解决问题,中间需要一个算法模型来支撑。开发算法、模型这是难度非常大的。所以未来这个应该由更专业的机构来做,形成市场。第八,互联网、金融、健康保持热度,智慧城市、企业数据化、产业互联网将成为新的增长点。除了刚才讲到的大数据服务于传统行业来说,在中国新型的智慧城市现在得到大力的推动,而且新型智慧城市落脚点,智慧城市运营中心它的核心还是利用大数据。产业互联网这块就不用多说了,现在能够很高效的提升产业间的协作。举个例子,刚才我们观察了会场的服务人员倒水的时候是拿着一壶水挨个倒水,但是传统行业配送不是这样的,是两个客户挨着,但是送货方派两辆车然后分别送过去。为什么?因为没有数据,不知道原来两个客户在一起,其实拉一车是能够满足的。那么产业互联网就为我们解决这样的问题。所以这块数据的分析利用也是未来一个很大的落脚点。
企业没有数据化,这些数据没有上去,那你做的分析肯定是不靠谱的。所以说传统行业将是大数据的主战场。说到传统的企业我想举两个例子。国内我非常尊重的一个企业就是步步高,为什么这么说呢?从DVD到Mp3、Mp4、功能机到智能机整个转型过程当中每一次都是成功而且走到领先。第一季度IDC报告进了全球手机前五。另外一家是宝洁,它转型升级非常快,而且持续坐稳了日化产品的头把交椅。这些企业为什么能够取得成功?核心的是他们在数据方面的利用。
既然说数据对这些企业的软实力升级有这么大的优势,具体体现在哪几个方向呢?四个方向:一是在决策模式上,在数据这个时代,以从流程为中心转向数据为中心;运营模式上,不再是以产品和服务为中心,转向以用户为中心;协作模式上面,原来是以供应链为基础的,我有什么材料就生产什么,现在是生态链为中心。更多的探讨我提供这个服务给到用户,同时我们是不是可以结成相关联盟。企业组织模式上也出现了变化,原来是以层级为中心,现在是以员工为中心。
我们知道技术是在发展的,企业要持久的保持活力下去就是要利用这些工具去做一些升级的。在传统行业大数据落地有没有困难?我认为我们之前在做咨询过程当中发现还是有很多问题的。比如说我们出现了这样的情况。不仅仅是大数据项目,IT项目也会出现这样的情况。快竣工了然后要被重建。一个是需求之前是不准确的,二是我们这个系统搭建相对过慢。我们建完之后,这个市场已经变化了。再一个就是技术架构选择出了问题,一上量之后发现不堪重负。大数据这个事是持续的,包括后面的运营,选择解决方案时,服务商服务能力是不是跟得上,团队是不是跟得上,这个也是会出现这种情况。如果他没有后续的服务能力,很有可能导致你重新建设。大数据项目复杂度还是比较高的。而且在IT这块,技术的变化非常快。所以有一个建议是,我们目标一定要合理,选择的技术要符合发展的规律,对产品、技术、服务商有正确的选择。
大数据是很重要的创新方式,其实创新还是有蛮多坑的。比如说之前在聊天时有一个朋友讲到,他们曾经派两个人把软件系统性能提升到50%,首先我很佩服他们,通过纯代码的优化能够提升50%性能还是非常不错的。但实际上他做的这个贡献,如果我是那个团队的领导我会觉得投入产出非常不成正比。为什么?有可能加两条内存性能就上升了,再有可能选用云服务也可以。出现这样的状况,不是他不够努力,而且努力的时候方向有一定的问题。还有一个故事,这两年大家都在讲某你(音)的参与感。然后以用户为中心去做粉丝营销。所以很多公司也在学。学的过程当中发现做了很长时间没有效率,究其原因是什么?其实我们发现在做分析时,某你(音)营销团队很早以前就是100多人,他能够有比较好的创意出来。而且他们的那些创始人、领导人的影响力,可以拿到比较好的推荐。而普通一家公司你能拿得到吗?所以你在没有别人的条件时跑同一条路,这个就是别人拿着小红旗站在前面,你掉坑里。就像我们光着脚和骑自行车的去跑,想跑出同样的效果,最后可能是脚磨肿了在旁边待着。
有的企业会通过投资收购方式去发展公司业务,投资者们达成明确而广泛的共识,差不多很多时候都是错的,因为大家在追逐热点,热点就有可能导致说大家都过独木桥。其实很多时候是在做重复性的研究,这个产业我们需要协作。
上午张艳老师也讲到了,其实数据是很核心的一块,我们做大数据首先解决数据的问题。数据分成两块来看,分为内部和外部。内部的数据,一个是现在还有没有数据。我们刚才听到了去哪儿网可以通过一些技术手段,收集它的数据。那么一般的组织是不是能够达到呢?再就是数据质量如何。数据的质量就要分成两块,第一是数据途径。第二是数据是否可读。很早以前有一种说法,很多数据几十年前的数据我们认为数据丢失了,不是说数据丢失了,而且我们读不懂,也可能是因为中间的标注丢失,这是内部的数据。还有外部的数据,现在选择外部数据考虑的问题,这些数据是不是匹配的。对比是不是有用的。这块怎么解决呢?还是问题导入,这个问题的提出首先是你对整个企业业务发展的理解,然后我们的发展方向是什么,解决哪一类问题,最后再导出一定的模型。
总结起来,数据有两个因素:一块是技术因素,就是刚才提到的;另外就是管理这块,先保证数据精准的机制。我记得有一篇文章提到,传统行业要做大数据第一件事,把数据治理做好你得先把数据收集起来管理好,才能谈下一步。
谈完数据就讨论技术,目前我们问三个问题,你的技术路线,走开源的还是闭源的。开源有一些BUG要自己去处理,闭源是通过SLA这样的方式规避一些责任。第二是私有部署还是使用SaaS的工具去解决你的问题,还有就是更细一点的说,数据存储分析这块,你是走Hadoop还是走MPP这条线。这跟企业数据特点是有很大关系的,比如说你的数据以结构化为主的,那MPP的模式就更适合你。
还有一点,我们讲到数据,技术平台,但是这两者做完之后没有去解决问题,这因为什么?技术真的只是工具,数据其实是大数据分析过程当中的材料。只有材料、只有工具这能做出产品么?不行的,还有一个东西,它需要配方、需要生产的方法,这个就是算法模型。以前非常不理解,为什么油纸伞是非物质文化遗产,这个东西被保留下来是因为它的生产工艺、生产技术、原料配方是最大的价值。回到数据分析这块来也是这样的,你没有解决问题的模型,光有数据和工具是出不来的。但是算法模型有几个问题一是对于法的人要求非常高;需要做大量的训练;而且这是持续投入的时间,很有可能不是三年两年就见效的,短时间之内不一定有产出。你开发出来一个模型之后,是不是马上能应用起来能够给你带来收入,这是打上一个问号的。
团队,至少有三个方向,首先是业务专家,他解决的问题是数据的可用性。然后就是IT专家,那样解决怎么存数据、获数据、管理数据。还有就是统计专家,他去开发一些模型。目前是这几种比较存在形式。还有一种是技术导向型的,再一个是以应用、业务为导向的。
你有技术、团队之后最终还是要形成一个解决方案。解决方案可能会落地成你需要各种技术的组合、需要很多服务商的配合。但是我们知道,如果说大数据能够产生很大效应,真正进入大数据是社会主义的话,我们很明显现在是社会主义初级阶段,很多企业都说自己是做大数据的,实际上他真正做的是什么还需要我们思考。
我们发布的大数据的产业地图,分了三层,最里面是技术的核心区,从存储准备、分析计算、挖掘到最终的人机交互,以及与它非常相关的数据的共享交换,咨询、第三方基础的技术服务,这里面的企业是帮助你把技术解决方案做成,中间这一圈是以应用为导向的。比如产业联盟、媒体、大数据教育,我们希望能够帮助大家在构建解决方案时选择时能够有一些参考依据。
我们之前说了这么多,总结起来,在传统行业落地大数据的时候应该做好这几件事情:
第一,制定数据战略。这个战略不仅仅是口号,应该是落地下来,是不是有相应的机制、制度出来。
第二,建立数据化计划。首先得有数据,要把企业实现数据化之后才能更好的做数据的分析。现在很多行业可能有数据,但非常少,而且在这个过程当中很重要的一点是要保证数据的质量。
第三,建立数据管理和应用平台。管理重点是考虑,这个数据放到这之后能够找得到,还有就是被读得懂。数据应用平台我们要注重客户参与,让业务人员参与进来,至少他能看得到呈现的结果和他的业务是不是相关,能够有反馈意见过来。
第四,量体裁衣建立数据团队。
第五,定制好外部数据服务战略。虽然内部小数据非常重要,但是也要兼顾外部数据整合。我们要制定战略,怎么运用外部的数据和服务。那得搞清楚,哪些地方是有的。我们现在正在做的,通过排名、评价模型以及数据检测的方法和模型,能够帮助大家做选择。
第六,活数据,动态模型。不是说数据放在那不动了,数据是要活的而且是要动态更新的。模型上也要下功夫。前面几位都提到了,比如舆情方面的应用。数据源大家都差不多,你能比别人做的更好在于你是不是有完善的模型、解决问题的方法,而且能够持续迭代的更新,能够跑的比别人更快。这也是一个竞争优势。任何行业的发展它的规律都是一样的,当达到一定阶段之后,在材料、工具这个方向你能拿到的别人也能拿到,那能竞争的就会变成什么?工艺和方法。
所以这里有一点小小的建议,可以和业务人员、科研机构、高校合作开发自己的算法模型。它的投入是非常大的,其实学校、科研机构有非常多的资源可以利用。
今天的汇报就到这,感谢各位!
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。