首页 > 云计算 > 正文

阿里云章文嵩:互联网+时代的云计算与大数据实践

2016-01-25 09:42:33  来源:CIO时代网

摘要:阿里云副总裁、首席科学家章文嵩先生作为LVS(Linux Virtual Server,Linux虚拟服务器)开源软件的创始人也在本次论坛上为各位嘉宾带来题为“互联网+时代的云计算与大数据实践”的主题演讲。
关键词: 阿里云
  2016年1月10日,“第六届中国云计算应用论坛”在北京大学圆满落下帷幕,本次论坛以“云计算时代的创业与创新”为主题,并围绕“基于云计算的创业与创新”、“云计算生态系统的打造”、“行业云平台的创业创新机会”等议题展开讨论,来自阿里云、腾讯云、京东云的重量级嘉宾都参与了本次活动,与此同时还吸引了众多传统企业CIO、互联网公司CTO以及业界专家参与此次盛会。
\
 阿里云副总裁、首席科学家章文嵩
 
  阿里云副总裁、首席科学家章文嵩先生作为LVS(Linux Virtual Server,Linux虚拟服务器)开源软件的创始人也在本次论坛上为各位嘉宾带来题为“互联网+时代的云计算与大数据实践”的主题演讲,以下为演讲实录:
 
  大家早上好!首先感谢姚博士的邀请,很高兴来这里和北大CIO班的同学们做个分享!先自我介绍一下,我叫章文嵩,在国内98年5月份写了一个开源软件叫Linux Virtual Server。让我觉得很高兴得是这个软件还活着,到现在还是被广泛使用。我自己也写过很多其他软件,很多软件已经死掉了,但是这个软件的生命周期够长,现在快18年了。这个软件也是创造了巨大的价值,叫做负载均衡,几乎大的网站,稍微有点技术的网站公司都会用Linux Virtual Server 。
 
  回到今天和大家分享的题目:互联网+时代的云计算与大数据实践。现在互联网+成为一个国家战略,而且互联网+跟各行各业的融合刚刚开始。互联网+意味着什么?我们自己的认识是三种技术三位一体,互联网、大数据、云计算。因为整个互联网是没有边界的,互联网业务通过网络触及用户是没有任何边界、没有地域限制的。过去生意有地域限制,但互联网是没有限制的,互联网里面的竞争是最激烈的。互联网促进了用户和用户的交互行为,交互行为会形成大量用户行为相关的数据。拿这些数据可以刻画人的行为,整个人的画像。有了这个画像我们可以对人进行个性化搜索、精准营销、精准广告等等。阿里在2008年就认为是一家数据公司,因为我们大部分收入的业务依赖于这些数据。阿里很多运营工作都是基于数据的,做数据化的运营。在这里我们通过互联网积累了大量的数据,数据就像战略资源石油,云计算好比发动机引擎,配上业务模型通过云平台来跑,基于数据出发,运营业务会达到一个很好的效果。各行各业通过互联网+方式一定会有很多的创新。
 
  全球云计算增长率 45%。实际上传统IT增长率是非常低的。云计算本身它把很多变成服务化,很多资源、计算、网络存储都服务化了之后,按需来使用。那么背后本质驱动力是资源聚合,资源聚合可以提高资源利用率,这是背后最本质的东西。因为每个人使用计算资源的时候有波峰波谷,那么把它合在一起可以达到更好的资源利用率。我举个极端的例子,有个A用户是白天用、B用户是晚上用,原本他们要各花一个单位的钱去买机器,现在我是一家服务商,我说你们不要买机器了,你只要付0.6,那这样我从A和B收到1.2,但本质上我只有一个机器服务他们,因为他们错峰了,这样客户也省钱了我也赚到钱了,我还有20%的毛利率。当然A和B也不一定把100%资源用完,也可能我这台机器还可以给C客户用。这是云计算背后最大的推动力,除了方便性以外,他实际上帮客户省钱,还能使客户获得更大的能力。正因为这种驱动力存在,所以云计算在全世界范围也成为热潮。基本上每家公司,刚才说亚马逊非常领先在云计算里,而Google是在整个互联网领域里的老大,之前对云计算不怎么重视,GAE也不怎么成功,然后转走GCE,也成为他们主要战略之一,微软也是重金投入,包括IBM、Oracle、EMC,这些IT巨头都纷纷转向云计算。
 
  云计算对于我们整个行业格局来讲是一个巨大的变化。就像我在学校最早做老师的时候,做课题,申请的资金大部分买硬件,软件上面投入更少,人头费更少,大部分都是这样一个三角,大部分钱花在硬的方面,实际上这样资源使用成本更低也更容易获得,在上面做数据创新、做业务创新。从这个生态来讲变成一个倒三角生态。计算能力并不会成为一个门槛。
 
  这是云计算和传统IT的一个主要区别。传统IT首先进入门槛很高,有了IT投资才具有能力,又是钱又是人。而云计算是把过去积累的大量的IT能力输出给个人或者中小企业用户,所以使得创业非常容易。而且很多数据是我们一直在的,只是收集和不收集而已。比如说手上戴的一些设备,其实我们心跳一直在,只是过去没有收集,而现在通过收集可以对健康状况做出分析。数据一直有,只是过去我们没有能力把数据全部收集起来、存储起来或者加以利用。未来基于数据的创新会越来越多。
 
  为什么阿里能做云计算?因为过去电商业务的发展已经建立了一个强大的基础设施。包括阿里从一开始,从99年开始,整个网络规划是我们跟运营商做BGP对接,CDN的网络有十个Tbps的能力,包括“双十一”的支持。整个网站全是HTTPS,目前在电商领域我们是最大的HTTPS流量网站,客户从一开始进来,就转向HTTPS。我们数据中心在云的数据中心在杭州、青岛、北京、香港、深圳、美国、上海、新加坡,我们美国也开了两个机房,在欧洲马上会开,另外在迪拜、日本也会有。
 
  我们大概有30多种的云产品。最标准的像弹性服务。举个例子云计算的好处,比如说ESS,弹性伸缩服务。我们在去年央视春晚直播,不知道需要多少台机器,因为这个流量难以预计。我们就可以跟CDN结合,我们可以做弹性扩展,可以扩展到当机器负载不够时,比如说设到70%以上,我们触发一条规则可以加新的机器,这样它可以自动扩展。央视只需要付一晚上几个小时的钱而不需要建上千台机器的规模。我们把CDN能力都输出成服务。阿里数据库能力是最强的,我们把数据库能力变成RDS服务。我们在大数据的计算上有ODPS数据平台、实时分析平台、数据开发平台。阿里过去对网络安全、系统安全有相应的能力。我们的云盾在2014年12月份时替一家在线服务商,用我们的云平台DDOS攻击流量是453G,持续攻击了14小时,网站还活着,正常为客户提供服务。这是公开报道中受到攻击流量最大的。在应用层我们也做了一些中间件服务,都是能应对大规模高并发访问的应用框架变成了一个服务。
 
  阿里的大数据,2008年阿里就认为自己是一家数据公司,我们用了很长一段时间Hadoop。自己在飞天的平台、ODPS也非常艰辛的做了五六年,在2014年我们把Hadoop全部换掉了,各方面指标都超越Hadoop了。我们最近的一个成果,能说明我们平台优越性的就是SortBenchmark.org比赛。这个是每年都会比赛的,我们做100T GraySort,我们是377秒就可以做完。第二名是一千三百多秒。我们基本上是1/3的时间就可以做完。所以说我们的计算性能是非常高的。
 
  我们有离线的计算引擎、大规模学习引擎、图计算引擎、流处理引擎。光数据平台有计算能力还不够,在上面大数据开发平台怎么样,我们有一套开发套件,包括BI的套件,有了这个开发工作的套件大数据之后,在上面我们做数据市场,我们想做数据市场,数据市场是最有挑战的。阿里积累了大量电商相关的数据,我们自认为这也是数据的一个侧面。很多数据我们也并不拥有。我们电商积累的数据跟商家分享,希望A商家可以看到他自己店铺的数据,但他看不到B店铺的数据,B店铺可以看到他自己的数据。我们过去的出发点是希望商家自己拿数据化做运营,我们也提供开放的API,让商家可以把数据拿走,但大部分商家没有自己的研发能力,他找了第三方软件开发商,结果几百家上千家店铺找了同一家软件开发商,结果把数据都给拿走。我们看到,好几百家电商数据都被一个ISV拿走,因为同一个IP地址来取这些数据,接着我们看到ISV发布淘宝天猫相关的数据。当然在国内,大家对数据的产权意识并不浓厚,所以我们发现这个漏洞以后很快堵上了,我们也提供了一个数据开发平台。就是这个原始数据不能拿走,你可以在这个平台上算,但是原始数据拿不走。等于是我们提供了食材、厨房,你可以在里面做大餐,那个项目叫“御膳房”,实际上它已经运行了两年多了,通过这个方式来保证数据的安全。
 
  数据,我们不光是给商家开放。我们对其他客户,非商家以外的客户也开放,我们也做了一些尝试。当然前提是保护用户隐私的情况下了。比如说尼尔森做调查统计的公司,它会把一家,比如说它的客户的报告做调查统计利用我们的数据,他跟我们讲模型、算法是怎么样的,在我们的平台上我们确保模型算法对用户的隐私各方面、数据保护没有影响。那就在我们的平台上面跑。跑过之后,尼尔森就说按他们的行规,这个最终的报告应该归他的客户所有,因为客户掏钱,那我们就说客户掏你多少钱?他给我们讲了一个数字,那我们按多少比例分成啊。我们阿里也是对更多的客户开放数据,同样我们基于这些数据也会有收入。同时用户的隐私都是得到保护的。如果我们能把数据变成一个业务,然后通过平台的方法来进行保护,说不定其他公司也可以,用我们的平台方法来让数据成为赚钱的业务,这样的话有可能形成一个数据的交易市场。这是非常新的概念,我们也是摸着石头过河,也没看到其他地方这样进行。即便在美国,我们也没看到类似的一些东西。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。