2012-05-24 10:29:10 来源:台湾微软CIO电子报
现今,企业能从各式各样的来源制造、取得、购买大量的资料,也运用这些资料去取得商业见解、支持其商业程序、以及产生利润。这项新功能,普遍是称作大数据组(big data sets)或大数据(big data),其可用以产制一些与战术及策略相关的商务议题洞察。
企业若使用一个称为"意义建构"(sense making)的分析周期,将可即时从大数据中获取崭新、空前的见解。意义建构分析工具是藉由把组织化目标应用到资料的方式,将传统分析过程转化,取代仰赖相关人(stake holders)去预先定义资料、结构或查询。企业如能发展出如此洞察力资料平台,将能在未来十年间实现重要的竞争优势。
2.导论
现今,企业能藉着管理和分析如同大数据的大量资料集的作法,去获得商业洞察、解析。大数据并非指涉某种特定的资料,而是一种更为弹性的概念:"资料集的大小超乎传统资料库软体工具能去取得、储存、管理和分析".
随着一些价格合理、又能处理大量资料集解决方案(使用云端计算和平价硬体)兴起,资料管理的聚焦,就从支援大数据到架设的资料仓储中取得洞察力。
只有当组织能适当地管理资料、在合宜的情境下对资料进行良好设计之分析,并且将从这些资料取得的洞察力整合至对的商业程序中,以及上述这些都要配合时间,那么对于大数据能力的投资才会成功。
若没有新的方法和工具去取得洞察力,大数据将可能像是出现在印象派画作上那大海中毫无相关的一个点。为了观察,并且理解画作,您必须站得後退一点,以能观看整张作品,并让您思考画中的颜色及资讯所带来的意义。
正如同印象派画作的概念,大数据揉合许多来源和大量资料的观点,且常是很即时的。若您能有效的使用,大数据以一种直观的方式揭露了具有价值性的洞察力,且使企业能掌握、回应客户的行为与策略经营趋势。
3.大数据的未来
网际网路世界已经呈现资料爆炸的状况。每天都新增了超过十亿的网页数。以下的关系图说明了现今网路世界里,在热门网站群,一分钟的活动量和资料成长量
如果数位行销公司能够分析网站上每60秒钟内的每694,445个搜寻中所呈现的趋势,那么其取得商业洞察力的潜力将会大幅提升。趋使资料跨越一个庞大资料量後,产生的解析增强,就如同当电视的解析提升至HD时,清晰度的跳跃提升。
图1.网路世界中的六十秒[page]
3.1大数据趋势和挑战
广阔的产业趋势正对喘统的资料管理和商业智慧平台、工具产生压力,这些包括了:
资料量的不断增加。全球一年的资料量约莫成长百分之五十,且同时继续攀升。新资料之所以爆炸性成长,乃是由传统和非传统的全方位来源所驱动,诸如感应器(sensors)、装置、和网路上监测和内容记载方面之工具,像是"机器人程式"(bots)和"网路爬虫"(Crawlers)。根据IDC的研究,被创建和复制的数位资讯量于2011年可上看1.8zetta bytes且在2009至2022年间预计可成长44倍。
资料和分析的复杂度增加。资料的实际成长来自于非结构化的资料,像是各类型的档案、串流资料、点击流量资料。搜寻引擎供应商和电子零售商成功地将非结构化资料的价值解锁,也推测这类资料有八成是没价值的。有些商业需求因而产生,像是储存、分析、探勘结构化和非结构化资料的组合等等,这些也就成为新趋势。
经济的改变和新科技的出现。云端计算和平价硬体大大降低了运算和储存空间的成本,并根本地改变了资料处理的所需的经济。为了创建处理大量资料工作的平台,架构工程师需补充新的、分布式平行运算架构的平价硬体(如:Hadoop)及工具的丰富生态(rich ecosystem)
大数据从结构及非结构化的资料中呈现了这些趋势、科技和商业获得价值洞悉的潜力,无论是petabytes或甚至是zetabytes
3.2大数据的契机
大数据提供了改变游戏规则的有利机会,其新兴的大数据平台提供了一个新途径来作资料的取得、管理及形象化。
组织常常透过像是医疗图像、部落格、无线射频辨识(RFIDs)和位置感应器(locality sensors)产制出大量、非结构化的资料。从历史观之,组织抛弃多数他们能收集到的资料,以避免付出以往那昂贵的成本去管理这些过于泛滥的资料。
受到储存空间遽降和运算成本的刺激,加上对于过去抛弃的资料所固有的价值产生了新的认识,组织现在利用成本效益和可扩展的方法,从能够使用的每bit资料中,产生对于新形态商业洞悉力的需求。新的洞察力包括:
(1)了解使用者行为和线上互动
(2)在社群媒体观点分析中辨别趋势及流行的议题
(3)针对及优化广告活动
(4)发掘医疗流行病学的趋势(像是辨识下波流行性感冒的爆发时间)
(5)辨别公部门交易中的财务诈欺
这类洞察力在提供商业竞争优势上占很重要的位置,其也增进了策略决定及成本控管。为了达成这些洞察力,组织必须投资创建一个平台,以提供大数据的之需。[page]
4.不断演进的大数据平台
欲体会大数据的好处,组织必须设计一个跨越资料管理上,端到端之生命周期,且为全面性及良好整合的平台:资料撷取、载入、分析、报告及形象化
大数据的数量和变化性,对数据资料的生命周期而言,呈现出新的挑战。目前的资料来源迅速扩张,以及新的数据来源为几何级数增加,这亦导致结构及非结构化资料量呈现指数性成长。因此,组织正在寻求满足全范围的极致资讯管理以维持其在市场上的优势
为支援大数据的收集、筛选及整合,极致的资讯管理必须聚焦于资料量、迅速及多样性极致的资讯管理解决方案必须满足:
(1)数量:解决方案必须在串流及批次利用中执行大量的处理,而不仅仅是MapReduce架构
(2)迅速:解决方案必须提供个可延伸的服务架构,能够对资料部署处理,或是将资料带入处理中
(3)多样性:解决方案必须处理一个种类以上的资产类型(诸如:表格类、串流或文字)
4.1从大数据中获得洞察力
为获得合适的洞察力,传统的资料平台需要您对有益的资料来预先识别及结构化,以及制定及应用在资料模型上。然而,随着资料的数量及种类增加,人们再无法精确地预测什么样的资料是有价值的,或是决定哪些资料能够被摒弃而无须担心洞察力丧失。
随着潜在有意义资料的迅速增加-有些是结构化,有些则是非结构化(像是:讯号、串流、社群、互动和交易等)-新型态的分析是必须的。由Pirolli及Card在2005年时,于IntelligenceAnalysis社群中所发展出"意义建构"(Sensemaking)的周期概念,在大数据中解析以获得知识上,带来极佳的展望。
"意义建构"(Sensemaking)利用持续性的回馈及界定相互依赖关系,创造个脉络来提供关于资料及资料分析支援方面的资讯。则大数据得以利用这周期来扩展至非结构性内容中那尚未被模造的范畴。
"意义建构"(Sensemaking)最重要的方面之一,在于如何转变传统的分析程序:
传统上,资料来到您面前,资料透过资讯管理程序而被结构化(诸如:提取、转换、载入),其後企业的相关人能够分析之。
在今日,知识及洞悉来到您面前,自行定义您的商业目标及随後让Sensemaking程序来对资料进行即时比对,提取出的知识或可能形成立即行动的基础,诸如,能藉之来即时修改产品价格。
Sensemaking在诸如个人资料管理、社群网络资料及企业管理等大数据中出现。于先前的图表中,当资料变得较非原始及更为结构化的时候,运用Sensemaking的机会出现了。其解释在初期的周遭资料(尚未结构化)所具有的潜在价值于资料生命周期中变得有意义。
本文中的数位行销方案是个于讯号上即时运用商业目标的范例。
图2.从周遭资料获得洞察力v.s.模组化资料[page]
4.2微软对于大数据的愿景
微软对于大数据的愿景,于应用及扩展至一个宽广的范围,以及大数据应用上富有悠久的历史,像是Bing搜寻引擎、XBOXKinect及MSN网站。微软专业技术所提供的大范围服务在今日已被成功地运用在许多的核心网路及云端服务中。每个月,303万的人们使用WindowsLiveMessenger、459万的人们使用MSN,以及368万的人们使用Hotmail.下列图示总结呈现出微软云端服务的深度与广度
图3.微软云端服务呈现大数据平台群
微软正在扩展商业智慧领导的愿景,以作为服务层来提供应用上之商业洞察力,进而增加大数据经验的丰富与多样性<商业洞察力如同服务层来提供应用>.
这个新平台将透过创建个统一及直观的途径来发现、收集、储存、索引、探索、分析及执行自助式形象化,提供巨型资料在任何数量上之结构与非结构性资料的洞察力。
资料管理及分析功能,如"在未来中管理大数据平台"章节所阐述,能够在内部部署执行,在云端中,或是利用混和的途径。下个章节利用情境来说明这样的愿景。
5.大数据平台的主要特徵
这个章节介绍数位行销情境来阐述,从获得、管理及使用大数据的逐步过程。这情境中的商业目标是探勘出使用者的行为偏好来增进公司网站的行销潜力。
图4.数位行销情境[page]
5.1大数据用于预测方案上
使用者偏好或使用者行为的预测,对行销工具集合而言,是个强而有力的附加部分。根据这些预测,行销人能够决定哪些类型的内容来显现,以及什么时间及地点来展示。使用者偏好的高品质预测,在于决定性的内外部资料,这些资料则是增加呈现合适内容给每个网站访客的基础。
收集相关大数据的目的,在于识别使用者可能会使用的项目或服务,从而增加使用者忠诚度和任务完成度(像是:提升一个电子商务设定的转换率)。一个网站必须使用所有可使用的资料来源来为结果计算,藉之提高预测的准确性以及在任何给定的情况下找出最相关的项目或服务。当同时列出相关的项目和服务时,分析给定的资料来产生列表,突显最相关的部分。
基于对相关项目进行排序时,能运用多种途径及策略;依产品目录、使用者偏好、与其他使用者的关系,以及其他面向来选择最相关的项目来显现。在某些数位行销方案中,对于具体清单项目提供动态调适的免费服务则是个附加选项。供应商的网站能够在良好界定的范围内,依供应和需求来适应客户的要求,像是:使用者依清单层级而可能接收到免费递送的搜寻项目。若搜寻频率上升或清单层级降到一定程度之下,撤销提供後续使用者的免费递送服务而无须实际的互动或支援。
为支援动态行销方案,企业必须依据外界的影响来编撰一些商业流程。依据共享的资料及网页互动(事件)纪录,企业能够定义规则及工作流程来匹配观众情报及搜寻环境。
极致资讯管理架构,对于大数据的资料采集而言,载入及整合分成四个阶段:获得、洞察模型、操作模型以及洞悉专案。这些阶段集合起来,提供了个统一及直观的途径来作资料的发现、收集、储存、索引与探索。这样的程序带来了个良好连接的计画以提供大数据中的分析与自助式形象化。
下列说明极致资讯管理的主要四个阶段,透过数位行销方案中的利用来获取;
1.获取:资料的获得及初始阶段
2.塑造洞察模型:在期望的脉络中执行步骤来使资料具有意义
3.发展操作模型:建立个解决方案来支援洞悉推测
4.洞悉反映:对于先前步骤中所获得最有效的反映来准备工具
图5.极致资讯管理的四个阶段[page]
6.管理大数据平台以顺应未来
IDC估计到2020年,大多数的公共和私人数位资料将是集中在主机、管理或储存以使用"云端服务".他们进一步预测,即便不是永久置放在云端的数位内容,也将在其生命周期的某个时候通过云端。
云端服务的定义很多样化,就如同市场上所提供的这些(云端)服务一样广泛。IDC提供一个云端服务的基本定义:"网路可及的、可按照消费需求去支付您的帐单,某种程度上使用者可控制与系统的开放(将云端服务从纯粹的线上传递内容区隔开来)。它是个如同服务的软体,而非下载的软体程式。它是随选的网路电视,而非只是下载的Netflix视频。"
几何级数增长的云端服务带来了大数据(bigcompute)和大数据领域。大型运算模式已被强化来利用大数据源所提供的洞察力模型组。随着大数据带来的挑战,大规模分析和资料采矿的需求油然而生,这也需要一种大规模的平行运算能力。
从云端中移入(出)非常大量的资料,对创建个平台予大数据及云端运算时是个挑战,也是个重要的考量因素。大数据平台大抵并非是部署时已填满资料。随着时间推移,企业藉由每天适度的增加和收集,可能会达到petabyte的资料量。在整个大数据生命周期里,系统架构师需要平衡性能的影响、成本,以及传输、储存资料的可用性。
"从大数据取得洞察力"与其说取决于云端服务的使用,其实更取决于分析方法。在未来一段时间内,IT组织将持续一段时间来衡量私有云与公有云的利益。现今,企业的趋势是开始藉由混合IT模式(云和非云环境的集合),去逐步获得云端环境的利益。
7.结论
企业可以藉着从大数据中取得即时洞察力以增进其业务与商业流程。这些洞察力,可应用在复杂的事件处理和分析,可以直接影响与使用者和商务流程的即时互动。
当讨论到全面大数据的策略时,应考虑如何适应不同相关人所认定的大数据观点。一部分人认为大数据与MapReduce相等;一部分人则视它为100TB规模的资料仓储;还有一部分人认为主要是资料采矿和机器学习。微软将对各面向的大数据挑战、契机以提供强而有力的解决方案,并继续倡导具有凝聚力、有效、混和的途径。
要成功创建出大数据策略,每个组织必须做到以下几点:
(1)确认优势与目标
(2)设计一个抽象的模型,也就是设计出资料将如何从原始形式提炼、再产制成有价值的洞察力。
(3)融合不同相关人的观点,将该抽象模型转换成一个具体的策略和完整连接的路线图。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。