现在问题来了,一方面是替代了。两方面问题,一方面是互联网公司有实力、有团队和技术去做。其他企业怎么办?没有传统行业和互联网行业之分,在我看来。互联网技术只是一种技术手段,就像走路一样,我们骑单车,开汽车,步行都是走路,只不过走路的方式不一样,路还是那条路,我们还是要满足大众的需求,满足现实的需求。
那么没有像淘宝这样的技术实力的公司怎么解决?这是一个问题。我们怎么来弄?第二个其实他们仍然是有缺陷的,为什么?因为他们更多的是支持海量小文件的存储。那么我刚才提到的基因数据、遥感数据、气象观测数据、视频数据,这些都是大文件,对于大文件怎么存储?
现在有答案了,就是企业级的对象存储系统。企业级对象存储系统它继承了互联网公司的一些优点,扁平命名空间、简洁的数据读写接口,而且进一步做了发展。扁平的命名空间我们在对象存储里面怎么做?我们把整个存储空间分为Buckets或者叫Containers。这个说的是我们把一个存储空间简单的化为一些容器、一些桶,我们不再里面建树状目录结构了,直接把一些对象,丢到这些桶还有containers里,就叫对象。放在文件系统里就叫文件。它是同样的,反正就是那一堆数据,只不过放在不同的系统里。放到文件系统里面叫文件,放在对象系统里面叫对象。
另外,简洁的数据读写接口。我们用一些简洁的操作来读写存储系统。而我们不再是去强调随机读随机写,实际上我们是支持随机读的。随机写,我们为了可扩展性、可用性一定程度上舍弃它。
另外,在这两个基础之上又做了进一步延伸,一个是对大对象的延伸,我们可以做到一个对象几个T存下去。已经突破了互联网公司海量小文件存储的范畴,大对象也可以支持,大对象和小对象都可以存储。另外一方面是服务化数据接口,不仅仅是把数据读写接口简洁化而且服务化。通过HTTP,RESTful API。通过HTTP服务的方式把存储的接口暴露出来,所以它也是服务化的数据读写结构,这样更方便我们在广域网上访问。这两个特点就是今天讲的企业级对象存储系统。
根据国外有关机构预测,未来这个领域年复合增长率是27%。我们的产品OStorage-EOS就是企业级对象存储系统。我介绍一下它的特点,首先它是以Swift为核心的,Swift是开源的被广泛使用的对象存储软件,它实现了对象存储最核心的最重要的一部分。
第二个特点就是软件定义存储技术。软件定义存储现在也是一个比较火的话题。软件定义网络、软件定义存储、软件定义everything。那么软件定义这个技术对存储领域有什么好处呢?最突出的优势是我们不需要再使用以前昂贵的存储设备。以前的存储设备为什么昂贵?是因为传统的存储设备它里面有大量的硬件设计和生产的环节,所以它的成本就高。而我们现在基于软件技术实现,我们基于通用的服务器和网络硬件构建存储系统,通过软件来解决存储的可靠性和可用性问题,那成本就大幅度降低。
第三个特点,全分布式架构。我们采用的是全分布式架构。其实刚才提到的TFS,里面还是集中管理节点,还有Hadoop里面的HDFS有集中管理节点,而我们是全分布式架构,没有任何一个集中管理节点。你对集中管理节点做了HA,那也是集中的部分,而我们是全分布式的。全分布式有什么好处?任何一个节点出现故障,它对整个系统的可靠性、可用性影响能够降到最低。
第四个特点,能够近乎无限地扩展,而且性能随规模线性提升。这个也是对象存储特别是OStorage-EOS和传统文件存储非常大的不同的特点。因为传统文件存储在规模达到一定程度时,性能是不能提升反而下降的,而且超过一定极限可能会出现严重的衰减。
第五个特点,支持纠删码,OStorage-EOS比传统分布式存储的三副本技术进一步节约硬件投资50%以上。我们知道传统的分布式系统里面或者分布式存储里面为了保障数据存储的可靠性,通常使用副本技术。也就是说,一个东西存下去,存一份不太可靠,那就存三份。三份同时损坏的概率非常之低。包括Google当年的GFS在内的这种分布式存储系统,常用的就是三副本。那么我们今天采用一种新的技术,纠删码技术。纠删码技术能够比副本技术进一步节约硬件投资,降低存储空间。因为副本技术,一份要存三份,那就是100TB要存300TB,纠删码不一样,可以用150TB甚至更低。
第六个特点,支持跨地域部署。多数据中心做成一个存储系统,而不是说每个数据中心都搞一个存储系统,互相之间在一顿同步。每个数据中心的接口是一样的,你可以定义我们的数据到底分布在哪些数据中心,比如关于北京的气象的数据,我就是要在北京、天津和保定三个地方去存。关于上海的就不要存到这边来。我们可以把这三个数据中心里面的存储节点做成一个大的存储系统,你可以自己定义,哪些数据要跨哪几个数据中心共存共享。读写的时候不用去管数据怎么同步的,全都给你搞定了,每个数据中心之间分布和同步数据,你就当不知道这个事情,就是正常调接口读写数据就可以了。
还有我们做了安全增强、数据预处理等企业级插件。数据加密、集成、双因子认证、多因子认证。比如说金融业务可能需要U盾认证,做进去,通过插件技术做进去。你可以选择。
加密,医疗影像数据。要求保护病人隐私、要求以密文形式存储,怎么做?保证落上盘上的每一个字节一定是加密的,只要落盘一定是加密的。这个盘以后流传出去,比如说坏了去维修,没有关系。因为盘坏了的时候是没有办法擦除数据,所以拿出去数据就在里面,加密以后你就不用担心数据泄露的问题了。
还有要提一下兼容传统文件接口,全面兼容阿里云OSS。也就是说如果你是传统文件存储用户,在一定程度上你是可以很轻松的很容易的迁移到我们的存储系统上来。而且如果你是阿里云OSS用户的话,因为你纯粹用公有云可能会面对安全性挑战、访问带宽的问题等。我们现在如果说是我们的产品可以部署在你自己的数据中心,而且我们在跨数据中心,用底层技术进行同步,你在每一个site每一个位置的访问是优先访问本地,那速度大大提升,就比你访问公网上公有云的存储效率要高的多。所以,我们跟阿里云推混合云方案。你不用改你的代码,你的应用写好放那不用改,你就可以选择把数据存在我这或者阿里云上,有些东西你觉得存在公有云上更好,那存到阿里云上;有些东西你觉得放到私有数据中心里面更好,可以存到我们系统里面。
技术内容今天不会做太深的讲解。这是我们的系统架构。Swift在这个地方,上上下下为了政企用户打造了很多周边的工具以及插件。我们尽量不对Swift本身的核心代码改动,因为它已经非常稳定了。我们是不是一点Swift的东西都没有改,也不是。有些东西也不是那么完美,它可能更适合互联网、公有云用,但是对于商业用户来说可能会有问题,我们怎么改?以插件的形式改,这样能保证原有的代码不去改它,它已经那么稳定了我们不去改它,我们用插件的方式增强它的功能性。包括性能监测、数据预处理这样一些事情。
这是一个部署架构。这是一个数据中心通过广域网连接到异地的数据中心里去,实现自我容灾、跨地域数据分布等等。这张图是以副本方式存储数据的。比如蓝色的数据就可以让它只存在这边的数据中心里,那对于浅绿色和深绿色,我们可以分布到异地的数据中心去。而且怎么样分布,这个策略都是可以限制的。我们跟一个客户谈,他在国内有数据中心,在海外有办公室,他遇到的问题是,如果海外的办公室如果访问国内的文档性能就会较差,那有些文档可能是几十兆,跨国的广域网之间几十兆的东西需要半分钟或者一分钟,那么上百兆的就更慢了。这种情况就不太能忍受。怎么办呢?你说搞一个海外的数据中心,数据同步怎么去做呢?那我们就说用这个方案。他说这个好象也不太好,为什么呢?因为我们海外的办公室如果改了文件或者他们产生文件往里存的时候,我们在海外固然是有机房,但是那个机房不是那么可靠,是一些比较廉价的机房,这个怎么办?我说没有关系,你往里存往里写的时候,无论在哪个地方写都写到主数据中心来,但是我们这边又可以异步地复制一个副本过去。就是你认为有必要同步过去的数据,同步一个副本过去,让那边读的性能可靠。
下面再讲一个比较大的技术特性,就是纠删码。它把一个数据切片,切成若干的数据片,然后再通过计算生成若干个校验片。我们看到是一个数据切成4个数据片,再生成两个校验片,当这6个分片之间任意2个分片丢失、损坏都不会影响到数据的读写。也就是说它是可以容忍最多两个设备的故障,因为它会把这些分片都放到不同的设备上。另外还可以调整纠删码参数,4+2、6+3、12+4都可以。你如果说不太介意可靠性的问题,4+1、5+1都可以,能很灵活的控制你对可靠性、可用性的要求,以及成本之间的权衡。
纠删码数据的存储和下载,它的流程基本上是这样的,通常情况下就不用把校验分片读出来了,来读一个对象数据。只有当前面有分片损坏的时候才需要把校验分片读出来。纠删码在各种场景下和副本技术的性能的比较,有时候我们会看到纠删码性能更高、有时候副本性能更高。所以不同的客户,根据他的业务需求去帮他决定或者说辅助他去做这个决策。
回到跨地域这个事情,这是我们的一个测试结果,是我们在一个客户的数据中心看到的一个现象。那么是什么情况呢?两个数据中心相距20公里,做多活,中间专线连接,然后持续的负载压力。在我们看到这个现象的过程中,是一直在写入新的东西,而且在读取以前的数据。方框里面这个部分就是出现故障的,从这个时间点开始,某一个数据中心里面的节点开始出现不稳定、出现故障,逐渐的整个数据中心里面所有节点全部宕机。但是可以看到读写请求,成功率一直是100%。性能会有变化,真正的做到了很好的容错以及极高的可用性。
还有另外一个,这里要感谢一下浪潮集团和九洲云给我们提供这个环境。实际上浪潮在郑州和济南分别有做研发的数据中心,在郑州济南之间,我们当时的实验环境做的比较苛刻,两个数据中心相距400公里,而且之间只有10M的VPN连接,我们在这个基础之上部署跨地域的对象存储系统,然后做性能优化。可以看到,我们能够把访问延迟大幅度降低。我们先看一下写延迟的情况,左边蓝色的竖条是没有做优化的时候。绿色的是做优化之后,有大幅度降低,而且能够支持的并发量也更高。第二个图是,这个是读的性能优化的情况。读的性能优化更加明显,甚至可以达到百倍的提升。
这里需要提一下,因为这个网络延迟是客观存在的,我们降低延迟其实有时候对读来说没有任何问题,读就是可以做这么大幅度的提升,但是写的时候你要注意数据的一致性问题。因为做数据更新以后,因为存在客观的网络延迟,你那边是不是能够及时更新,这是需要去考虑的。那我们在给客户提供存储解决方案时会跟客户一起聊,哪些业务到底有什么需求,来帮你做具体设计。
对于双活多活跨地域这个事情,从两地三中心扩展到多地多中心,现在很多地方都开始在做。
再强调一下我们对用户带来的一些价值。首先是成本会大幅度降低,软件定义技术加上纠删码技术。第二,高可靠性、支持跨地域、多备份等等,还有基于纠删码可靠性保障,还有自主可控。肯定是满足自主可控要求的,而且我们是能够很灵活的去根据用户的需求来定制插件,最后是面向未来,就是为企业面对未来的数据存储挑战,特别是非结构化数据存储挑战提供了很好的答案。更多的技术内容在我们产品白皮书里会看到。
我在这里也说一下我们今年和明年的计划。虽然我们是创业厂商,但是我们也是有一个远景的目标。2016年主要解决两个问题,满足客户基本对象存储需求。因为现在国内专门做对象存储我们是第一家。当然我相信后面会逐渐的涌现,包括现在有些做存储的厂商已经开始推出他们的对象存储产品跟我们竞争,我们觉得这是件非常好的事情,我们非常希望能够看到这个市场的繁荣。所以今年我们立足于解决客户基本对象存储需求,就是把对象存储这个事情扎扎实实的能够让客户用起来,至少在客户想去改变的时候我们给他提供扎扎实实的选择,可以商用的产品。今天我们介绍的主要是OStorage-EOS,实际上我们还有另外一款产品,网盘。
明年2017年的核心事情,就是让存储更智能。我认为对象存储虽然现在很多人在做,但是对象存储不仅仅是说扁平的name space加上服务化的简洁的API,还有很多其他的事情。对象存储最大的特点是它能感知到数据、感知到用户的远程访问请求、感知到不同地域的用户的访问请求,所以可以做得更加智能。我认为对象存储它其实实现了中间的一些特性才刚刚开始,那么对于一些厂商在文件系统外面包了一层HTTP API的方案,我觉得那可能还是一种更加基础的一种方式,当然他们的工作也是非常有意义的,因为这样的话可以让用户把传统的NAS设备用起来,把他们已经采购的NAS设备用起来,挺好的,但是我们认为未来还要有更长远的事情,智能的OStorge-EOS,SmartEOS。SmartEOS做什么呢?刚才我们讲跨地域和纠删码,我们能不能结合起来,能不能有灵活的、自动的、智能的帮你做纠删码跨地域的策略。另外,数据预处理。刚才讲停车场进出车拍的照片,人脸识别的工作能否在存的时候就把它给做了?能否做到进一步,比如说一个图片读出来同时就能知道这里面有个车牌,就能知道这辆车经过全国的哪些地方。这些事情并不仅仅是存储系统能够去解决,但是需要对象存储的支持。还有根据数据属性做对象灵活的搜索。还有集成,像Hadoop和Spark这样大数据处理平台,所以这是我们明年逐步会推出的一些特性。
最后我想用这页PPT结束今天的分享。我们可以看到,刚才讲到2020年要增长到44ZB报告里面同时还提到一个事情,他把整个世界的数据领域的市场,分为两个部分:一个是成熟市场,一个是新兴市场。可以看到,中国是新兴市场中间很重要的一部分,而新兴市场处于今年年底和明年初会处在什么样的阶段,新兴市场份额将超过成熟市场。所以今天确实是一个非常好的契机,不论是对于厂商还是对于用户来说都是这样。所以,新存储,赢未来!我的分享就到此结束,谢谢大家!
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:李明宇
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。