有数不清这样的例子:卖豆腐脑的摊主顺便售卖豆浆;玉米磨坊主长期卖出的“麦片”是给牲畜吃的玉米粉和玉米油后的剩余料;石油公司定期卖出提炼过程的副产品氢气……正如在“大数据”这个词出现之前,很多时候,数据的出现只是伴随科技进步而产生的免费副产品。就像医院为了病人就诊的便利,建设了挂号系统,从而得到了海量的医疗信息,这就是技术进步所带来的副产品——数据增量。
而今天,几乎所有行业的所有公司,都在产生这种极有价值的副产品:数据。我们可以通过数据了解一些截然不同的东西,但遗憾的是,很少有公司能真正利用数据创造价值。
难点何在?究其原因,是人们在大数据处理和应用方面,常常会跌入一些错误的逻辑中去。
贪婪:对数据无止境的收集
大数据产业刚刚经历了爆发的初期,很多公司将他们的数据当作传世皇冠一样扞卫,纷纷“跑马圈地”,或凭借传统优势抢占某一应用领域的“山头”,或积极布局试图垄断某些数据资源的入口,产业秩序尚未建立完全。
大数据产业可以说是一种“资源型产业”。据统计,2016年1月至2016年10月底,中国大数据行业有184家企业获得投融资,占有的数据资源量是资本对大数据公司估值的最重要依据之一。行业内的大数据公司,纷纷将目光集中在了如何获取数据资源方面。
显然,对数据源的重视,在前期数据池的扩充方面具有正面效应,但是,因此大量诞生的依托数据资源优势的企业,也为大数据产业带来了低附加值的垄断经济模式,使得更多依靠技术壁垒打江山的企业不得不面对缺少“原材料”失败的可能。
而对于那些主营业务并非数据源的公司来说,即使那些看起来可能对你的业务毫无关联、没有产出的数据,也很少有公司去考虑“卖掉”它,宁可闲置不用也不去售卖,从而转换为有利可图的新服务项目。
售卖的关键在于识别那些不是竞争者的公司——在相关领域运营,但并不是正面竞争的边际业务。如丰田就开创了一项新业务,就是利用它在日本卖出的车里安装的GPS定位设备,捕捉车的速度和位置,再将其以每月2000美金的价格交通数据卖给市政规划部门,帮助改善交通问题,并通过数据结果,整合自己公司的发货渠道。
归根结底,数据资源打通难是因为行业缺乏国家层面的统筹规划,缺乏在生产环节解决数据权属等核心问题的规则和制度。如何才能以开放的视野打破数据孤岛,实现数据变现?仍需要在数据资源层面形成统一的行业共识和行为规范,引导产业走向以资源、技术、应用综合发展为导向的良性发展模式。
麻木:非法数据交易猖獗
以国有数据资源和公共数据资源为主、看得见的数据,像冰块一样凝结不动,而地下数据交易黑市规模坐大,针对用户信息的非法收集、窃取、贩卖和利用行为猖獗,甚至形成一条龙式的产业链形态。
在国内,数据交易流通产业规模逼近百亿产值。百度、腾讯、阿里、京东等互联网巨头纷纷切入数据交易和数据服务市场,启动了百度API、腾讯云、阿里云、京东万象等大型数据交易和数据服务平台,已经汇集的数据供应商超过500 余家,数据交易流通超过每天百亿次。北京、贵州、河北、上海、武汉等地方政府,建立了政府数据开放、数据资产管理、本地数据流通为目标的区域数据交易市场,而未纳入公开市场的数据流通,更是体量巨大,整个数据流通产业如火如荼。
随着数据交易平台的大量涌现和数据流通交易产业的变现模式为全社会所认知,在利益诱导和监管缺失的情况下,大数据的流通交易面临的问题也愈发凸显:数据侵权、数据窃取、非法数据使用、非法数据买卖已成为行业乱象,并呈现失控态势。大数据的流通交易中的这些问题不仅仅严重损害了国家安全、企业合法利益、个人隐私、数据价值挖掘等方面,更在实质上阻碍了大数据产业的整体发展。2015 年以来,电信诈骗、数据泄漏、非法倒卖案件频发,个人身份信息等用户数据的泄露,使得违法人员能够使用大数据实现精准诈骗;微博数据、各类论坛数据等被非法获取导致用户社交关系泄露;企业积累数据被二次倒卖致使经济利益受损。
2016年8月,山东考生徐玉玉因为隐私泄露导致被诈骗后身亡;同年12月,“京东用户数据泄漏”事件,包括用户名、密码、邮箱、QQ号、电话号码、身份证等多个维度、数千万条数据被倒卖,引发社会对信息安全的紧张情绪剧增。
如何对流通的数据构建监管、追溯、标识体系,建立行业秩序和标准化行为模式,打击非法数据流通,保护企业、个人利益,维护行业健康发展,已经迫在眉睫。
盲从:用“巨量”掩盖个性化
在大数据时代,个人的信息更多的是以数据为载体来进行互动的。海量的数据在为研究和分析社会现象带来便利的同时,实际上也掩盖了许多具有个性特征的数据的意义,许多本身具有个性特征的数据已经变得无足轻重了。
大数据简化了人们对数据差异性的认知。大数据的复杂性不仅在于其数据样本巨量,更在于其多源异构、多实体和多空间之间的交互动态性。当前,只有少数人掌握处理这种复杂的巨量化大数据的技术,这很容易导致“数据暴力”。
所有数据说到底,都是关于个体的呈现。因此,其中所蕴含着各异的社会文化价值,是更加需要我们了解和掌握的内容。数据来源于社会又作用于社会。无论是可以数字化的数据还是不可数字化的数据,其比较、分析和归纳,其实反映的都是人在符号层面上的一种互动。
如果脱离了人及其所在社会的价值本性,无限放大巨量大数据的效应及其影响力,而忽视人性的本质,就可能本末倒置,最终产生许多难以预期的后果。
分歧:在“因果性”和“相关性”中走极端
数据的本质,是快速让大家知道发生了什么事,只有降低成本,把简单数据简单化或者复杂化分析,快速变成结果去变现,大数据公司才能活下去。
在一场变革或者技术的初期,需要找到最简单、甚至看起来很粗糙的方式发挥出它的效能。当然,这也还跟现在数据量、数据化和数据保存以及剖析工具等错综复杂的因素有关,利用这样的相关性关系研究,把数据里面的金子挖出来,或者利用相关性,预防或促成某些结果的发生。我们需要一定的速度,应对信息社会“数据爆炸”和诸多涌现出来的“复杂性”很高的问题,然后才是对其过程和背后原由的探询。
对因果性的执着,强调更多是个体甚至人类整体的记忆,或者经验、规律性等条件,必须从“人”的态度才能理解的,因果是“自然的人化”。而做大数据的,最怕听到去解释“为什么”,因为大数据能做到最真实情况的还原,就已经很难了,数据噪音太大,现实市场状况往往是混乱的,尝试去找出项目成败的因果关系,实际上是没有必要的。大数据的作用是趋势判断,而不是找出因果。
草率:数据共享陷阱难以跨越
当前,国内大数据行业的应用市场呈现政府牵头的明显趋势,各级政府部门、公安、交通、铁路、金融等各行业龙头机构对数据开放、共享、应用的日益重视,逐渐形成了中国特色的大数据应用市场。
众所周知,由于政府各部门各自主导的信息系统设计上,先天开放共享的条件就不足,加上部门管理体制原因,信息孤岛、数据壁垒现象普遍。然而,大数据、信息化项目普遍存在涉及部门多、推进难度大、“一把手工程”现象,同时项目周期长、投资规模大、直接经济效益不显着,使得政府部门更倾向于追求短期效果而非长期利益,使得大数据项目建设如火如荼,核心政府数据资源的汇聚却没有真正实现。
此外,在有些政府企业PPP(Public-Private Partnership)合作模式中,由于没有约定合理的数据资产归属权和政府资本退出机制,导致政府重要数据资源过早变现或廉价变现,国有资产流失到社会,公共数据资源没有经过高技术、高附加值的处理而野蛮开放。
政府及行业客户对大数据需求不断增长,但数据资源的封闭与过度开发现象并存,一方面使得部分机构陷入大数据项目没有真正有效利用数据的“数据共享陷阱”;另一方面,为了筹措项目资金,政府高融资、高负债、高担保现象严重,一旦项目实际应用效果不佳,容易诱发政府债务危机等问题。
主观:数据人才缺失严重
国家十三五规划纲要中明确提出:“实施国家大数据战略,推进数据资源开放共享”,在这样的契机下,大数据领域必将迎来建设高峰和投资良机。而推动大数据发展不仅依靠国家战略与相关政策的支持,更需要大数据相关人才的支撑。而当前制约大数据发展的瓶颈之一,也在于大数据人才的极度紧缺。
教育部分别于2016年2月和9月公布新增大数据本科和专科专业,国内高校纷纷成立大数据研究机构或大数据学院。然而,仅仅依靠体制内是远远难以满足我国大数据产业对人才需求的。首先,体制内培养人才尚属起步和探索阶段,人才培养需要3-4年的周期,体制内向产业界规模性输送大数据人才大约在2019年到2020年;其次,体制内的招生受到名额限制,现有体制下的招生名额远远低于市场需求;最后,正如北京大数据研究院院长鄂维南院士所提到的,国内大数据学科的发展依然比较落后。“这种落后是多方面的,不仅是观念上的落后,还包括培养体系上的落后。举个例子,大数据分析涉及到的最重要的两块是统计和算法。而要让做统计的老师重视算法,让做算法的老师关注数据,这需要时间和努力。”
可以说,大数据的人才培养是全程实践性的,需要以数据为核心、以问题为导向开始实践性教学,这也意味着必须在大数据人才培养上进行创新和改革,加强体制外大数据人才的培养,把人才教育、科研创新和市场化、产业化结合在一起,否则培养的人才可能会和市场需求脱节。
客观:数据价值不易标准化
2015到2016年,不少地方政府主导成立了数据交易所,一些商业化的数据交易平台也上线运营,但目前基于数据的全新商业模式依然还处在探索的初级阶段,数据的商业化仍面临诸多挑战,如应用场景和价值不易标准化,从而引发数据定价及资产评估难的问题。
数据与工业时代的商品有截然不同的属性,工业时代的商品是实体物品为主,基于一定成本的原料生产后,基于工厂相对标准化的大规模生产模式生产出来,其商品经历了上百年的发展之后,已经形成了大家都认同的标准化定价模式,比如基于物权的定价模式,是由成本加上品牌定价决定。
而目前的数据应用水平和程度有限,数据标准化程度很低,无法按照传统的商品销售模式进行销售。数据的权属问题还是个大难题,传统物权、知识产权等都存在不适用的部分,同时数据产生的边界成本基本为零,因此,目前从数据加工的成本和基于数据加工衍生出的服务出发,总体规模和盈利模式都远不成熟。