李明宇:新存储,赢未来 ---对象存储技术助力企业应对未来的数据存储挑战
李明宇:新存储,赢未来 ---对象存储技术助力企业应对未来的数据存储挑战
2016-11-21 10:48:22 来源:CIO时代网抢沙发
2016-11-21 10:48:22 来源:CIO时代网
摘要:我们怎么样能够帮助企业更好的去应对未来的数据存储挑战,帮助企业赢未来。所以这里讲的赢未来不是我们搞计算机、搞存储的人自己要赢未来,而是让社会、让用户、让我们的客户在未来有更好的发展,这也是我今天的演讲主题。
关键词:
对象存储
2016年11月16日,由中国新一代IT产业推进联盟指导、奥思数据和CIO时代网主办的2016首届对象存储技术及应用大会暨奥思数据OStorage-EOS产品发布会在北京丽亭华苑酒店拉开帷幕。本次大会作为对象存储领域开创性的行业大会吸引了国际专家、各大行业用户、科研院所及存储软件研发厂商代表共200多人出席。中国科学院院士、中国科技大学软件学院院长陈国良在大会上发言,以下为演讲实录:
我们传统的存储可能是以文件的方式为主,而今天面对大规模的数据增长,就需要考虑一些新的存储方式。那么这些存储方式,比如说前几年在数据库领域出现过一些变革,但是这两年对于文件存储、对于非结构化数据存储出现了新的挑战,我们怎么解决?就是我们今天讨论的主题。我们怎么样能够帮助企业更好的去应对未来的数据存储挑战,帮助企业赢未来。所以这里讲的赢未来不是我们搞计算机、搞存储的人自己要赢未来,而是让社会、让用户、让我们的客户在未来有更好的发展,这也是我今天的演讲主题。
奥思数据创始人兼CTO 李明宇
IDC预测全球的数据量要从2010年400EB增长到2020年的13ZB。突然有一天有同事告诉我,明宇这个错了。他说不对,现在预测的数据不是13ZB,而是44ZB。我说不对吧。后来我又查了一下,IDC确实在2013年更新了这组数据,(2020年全球数据量预计会达到)44ZB。他们做了一个非常形象的比喻,如果用128GB的ipad从地球开始往上叠,叠到月球,到2013年会叠到2/3的距离,2020年会到多少呢?地球到月球距离的6.6倍。这个数据量确实特别惊人。而且还有一个特点就是,90%数据增量来自于非结构化数据。所以这是我们今天要面对的一个新的挑战。非结构化数据包括文档、照片、视频、医疗影像、基因测序数据、遥感数据、科学观测数据等。刚才陈院士也提到行列数据库的转变,以前以行数据库为主,后来为什么出现了列数据库呢?就是因为一方面数据量增长,另外一方面数据处理方式转变。我们要做一些大数据分析的工作,那么行数据库就显得捉襟见肘了,所以出现列数据库。在会前跟陈院士汇报时,院士也提到,说我们国家,比如说华中科大的金海老师在个领域做出了非常卓越的贡献。那么结构化数据问题解决以后,非结构化数据的挑战又来了,这时候怎么办?刚才提到了一个相似的点,我们在结构化数据领域不仅仅是数据增长,而是数据方式转变带来了一些挑战。其实对于非结构化数据也是一样,我们不仅仅是单纯数据量的增长,而且我们在使用数据的时候也出现了一些新的挑战、新的需求,比如说高并发访问、数据共享需求,那么现在数据共享不论是政务、医疗还是遥感、气象等领域,广泛的存在。
中午跟一些领导交流时也提到,很多地方还在使用FTP。有一些是用户使用习惯上的问题,那我们也知道FTP是一种效率比较低的文件共享方式,现在随着数据量的增长、网络带宽的增长、随着人们对于数据分析需求的增长,(FTP)在很多场合下已经不能满足需求了。前段时间也和我们一个客户沟通,他在气象领域工作,他说现在做气象预报,一方面气象观测数据大量的增长,另外一方面气象预报的数据产品经过系统加工以后需要在各个单位之间共享,那么有中央气象台的,地方还有各个省市级的单位,还有气象科研机构,怎么共享这些数据?用FTP还行不行?实际上面临很多挑战。还有一种方式用NAS,NAS远程挂载,在广域网上去共享一个目录的话,实际上效果是非常差的,大家用的也很痛苦,特别是并发上去以后。这些不仅仅是数量增长,使用方式也带来一些新的挑战。还有突破地域的限制,在某些场合,我们不能够满足于在一个数据中心里面存数据,而需要跨数据中心存,还需要跨地域存甚至跨国家存,甚至建立global distributed storage system。这些都是今天面对的新的挑战。
这里再举几个具体例子,来看看各行各业面临的具体问题。比如北京市公共交通50万个摄象头每天产生3PB数据量,这个是视频行业面临的真实挑战。那我们想一下一个普通的商业停车场,100个车位,他需要给这个车拍照,最少要拍三张,车、车牌要拍一下,或者说放大再拍一张,有的地方甚至拍五张,驾驶室、驾驶员头像拍一下,进来、出去各拍五张,每天每个车位换车量是多少呢,平均大约是5辆。普通商业地产公司,比如说他有50个商场,每个商场100个车位,每个车位每天5辆车,每个车进出停车场要拍3-5张照片,一年下来得是多少张照片?而且现在随着IT技术的发展,我们不能满足于每个商场管理自己,比如整个北京市属于万达的各个停车场他都要管理起来,甚至广东省那边他也要有集中的管理,这时候又遇到一个问题,每个停车场数据量就这么大了,那我们怎么样汇集、及时上传?很多地方还是老的存储架构,那效率就很低了。包括在网络不稳定的时候如何保证数据可靠的传输,这都是很麻烦的事情。
我们再看看金融领域。以前买100T的存储好几年都用不完,现在不一样了。因为产生了大量的非结构化数据。这些非结构化数据来自于哪?比如说票据扫描件,还有远程的业务。我们不看非常纯的互联网金融需求,我们就看银行的核心业务,办卡。现在办信用卡可以远程,打个电话说要办信用卡,他过来给你办,给你拍照,然后给你做征信,就可以给你发信用卡了,那么这个过程当中就产生了大量的非结构化数据。现在还有借记卡也可以采用类似的方式办。有时候我们办借记卡排队就是40分钟到1个半小时。于是银行就想了一个办法,在网点搞一个柜员机,通过远程视频跟你对话,就能够确认你的身份,然后就给你发卡,时间非常快,几分钟。1个半小时到几分钟,这是非常大的转变,但是背后出现了什么问题?大量的影像数据需要做存储,而且还要随时调出来,这是金融行业面临的新的挑战。
医疗行业。一方面是医疗影像,随着采集设备,诊断仪器的发展,医疗影象数据大量的增长。另外一方面随着测序技术的发展,现在基因测序已经发展到3代测序,现在测一套基因组时间大大缩短,价格降低。基因测序正在普及,那么大量的基因数据怎么存、怎么用?实际上现在就已经在有一些公司在使用对象存储,来解决海量数据存储问题,解决跨地域共享问题。
我讲的这些需求,其实有的行业的用户目前并不是很突出,但是将来会逐渐的呈现,而我们如果尽早的接触对象存储其实是有些好处的。前段时间听我一个朋友说,一家美国的做基因数据分析的公司要去另外一个地方做研究,坐飞机过去做研究,为什么这么去做呢?我说不能远程么?他说没法儿搞。说那堆基因数据都存在某一个数据中心,数据要想迁移、远程访问基本不太可能,那个代价比坐飞机过去更高。所以我觉得现在对于中国的用户来说是一个非常好的时机,就是我们正处在转变过程当中,而我们已经有了很多比美国当年他们的其他行业在发展产生这个需求的时候有更好的IT技术去用,这就是新一代IT。我们现在有新一代IT技术,这是一个非常好的时机。
还有遥感。一方面是卫星遥感,我们国家有重大专项叫高分辨对立观测重大专项,民用和军用的都有,高分辨遥感卫星产生大量的数据。因此也面对着一些挑战。还有另外一方面,就是无人机的普及。使得很多公司、机构都要面对遥感数据的快速增长以及它的存储和使用问题。
还有另外一点不可忽视的就是IT技术本身的需求,随着虚拟化技术的发展,随着云、云原生架构的发展,我们在很多情况下出现了一种,以前的传统IT访问存储的方式所不能解决的需求,比如说虚机,前段时间我参加全球运维大会,中间有一个运维比赛,怎么比呢?一万台虚机,一个团队3个人去管理一万台虚机。一万台虚机是动态创建、动态销毁的。那我们怎么来用传统的SAN和NAS的方式来支持虚机里面数据的存储,很困难。还有跨数据中心资源整合。我们以前的数据,可能是存放在一个数据中心里,如果另外一个数据中心也要存,我们通过一些手段同步过去。那我们有没有更好的方式把多个数据中心的资源统一管理起来,提高资源利用率、降低成本,增加跨地域对数据使用的灵活性,这些都是IT本身的需求。还有归档备份。几十个PB,甚至上百个PB的数据怎么样存、怎么样管、怎么样取?这些都是问题。
现在谈到这些问题的时候,有些客户会问我:淘宝那么多数据,他们怎么存的?是的,淘宝那么多店家,刚刚过去的“双十一”,一天成交额一千两百多亿,每件商品都要有照片,那么多图像怎么存的下,淘宝是怎么解决的。那我们现在就来回答这个问题。
淘宝的图片存储是怎么做的,数据快速增长、跨地域存储、支持随时随地的访问。当年,他们买了某个厂商的文件系统,不断的扩充,2006年前后淘宝每年要花好几百万做这个事情,甚至可能超过千万了,但是并不能解决问题。钱花了解决不了数据存储的问题,那还是十年以前的淘宝。后来他们自己就做了一套,TFS。当时对象存储这个概念可能刚刚提出来或者刚刚处在一个转变的过程中,所以他们并没有叫对象存储这个名字,但是实际上,我们也研究过TFS,你就会发现它与传统的文件系统差别很大了,跟对象存储比较接近。传统文件系统比较强调两个特点,一个是目录树。目录树是每个文件系统都有的,而且怎么样优化目录树,这个是很多文件系统都在做的功课,另外就是支持随机读写,尤其是随机写的接口,比较有代表性的是POSIX标准,POSIX操作系统标准里面有一块是针对文件系统标准。随机读、随机写,这对传统文件系统是非常重要的特性。那么淘宝的图片存储怎么做?不要目录树了。扁平命名空间。为什么?文件数量多了以后,目录树的效率很低,没有办法支持它的访问需求。第二个就是更简洁的数据读写接口。特别是写的接口,我就是要读图片,读1KB有什么意义,我要读就读完整的图片,这个图片修改完以后要存进去、写进去,商家上传图片,都是写一个完整的图片到存储系统里。所以,为了提高效率,把复杂的POSIX兼容的文件系统接口给它转变成了简洁的数据读写接口。这就是淘宝存储比较鲜明的两个特点。那么针对这两个特点做了设计,从而提出了新的分布式存储系统,来解决淘宝图片存储问题。TFS开源,有完整的资料可查,你会发现它就是具有这两个鲜明特点,而且后面根据这两个特点做了设计,从而解决了问题。而且不仅仅是淘宝,还有Facebook、twitter、京东等等,很多这种面对海量数据存储挑战的公司,都在采用类似的方式去用新的存储系统或者自研一些新的系统来代替传统文件存储系统。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:李明宇
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。