华中科技大学光电国家研究中心研究员吴非:数据应用对存储提出的挑战和发展趋势

2019-07-16 11:48:19  来源:CIO时代网

摘要:华中科技大学光电国家研究中心研究员吴非在 "第八届中国大数据应用论坛暨中国电科15所大数据应用论坛 "上发表了题为《数据应用对存储提出的挑战和发展趋势》的主题演讲。
关键词: 数据安全 数据存储
  2019年7月14日,由中国新一代IT产业推进联盟指导,CIO时代学院、中国电子科技集团公司第十五研究所计算机质检中心主办,全国高校大数据教育联盟、章鱼大数据、万山数据协办的"第八届中国大数据应用论坛暨中国电科15所大数据应用论坛"在京隆重开幕。来自大数据应用技术研究的一流高校、研究院所知名学者和专家,以及大数据应用方面的领军企业、知名企业负责人以及关注大数据技术发展和应用的重要行业客户等200多人,就主题"场景驱动的场景变革",展开了热烈交流与探讨。
 
  华中科技大学光电国家研究中心研究员吴非在"第八届中国大数据应用论坛暨中国电科15所大数据应用论坛"上发表了题为《数据应用对存储提出的挑战和发展趋势》的主题演讲,以下为演讲实录:
\
吴非
华中科技大学光电国家研究中心研究员
 
  首先介绍一下,我来自华中科技大学武汉光电国家研究中心,我们研究中心共支撑了光学工程、生物工程、计算机科学与技术以及微电子四个一级学科,在2017年11月份更名为武汉光电国家研究中心。今天我分享的内容,主要围绕大数据时代对存储提出什么新的挑战以及近年来的研究进展。
 
  围绕着大数据,据IDC预测,预计到2025年全球数据存储容量大概将达到175ZB。这么大的数据量,到底有多少数据是有用的,多少数据是需要长久把它保存下来的呢?
 
  总所周知,大数据具有四个应用特征"4V"。那么"4V"代表了什么含义呢?第一是存储容量非常的巨大。那么这个"巨大"对于我们做存储的人来讲,第一个方向是要考虑如何给用户提供一个如此大的存储空间。第二个问题是,如何怎么保证数据存储的可靠性的问题和长效性问题。刚刚有嘉宾分享到无人驾驶,在无人驾驶过程当中,它其实只是微秒级的快速响应判断过程。如果这个判断过程中,如心脏供血不足,响应延迟过大,那么一定会发生车祸,所以说数据处理的实时性对我们来讲是一个挑战。
 
  第三和第四个问题,我们看看这两个"V"是什么含义。第一,数据处理的类型变的非常繁杂,有结构化数据、半结构化数据以及非结构化数据。这些数据和我们传统数据在存储和处理上的不同之处在于说,传统的方式你可以用数据的局部性特征,也就是说我们可以有一个很好的金字塔形状存储层次结构来进行数据存储。另外一个问题在于,我们的数据尽管非常大,但是它的价值密度太低了。比如说我们存了几个小时的视频,我们在做人工智能数据检索过程中,真正有用的数据可能只有几秒的数据是有用的。我们在做数据处理时依然通过I/O从远端把所有数据进行传输,存储墙和能耗墙问题凸显。
 
  所以在今天大数据应用时代背景下,对存储提出了几个问题:巨量信息如何保存?如何满足秒级的处理能力?如何解决存储墙和能耗墙的问题?
 
  我们来看挑战一,怎么样提供一个巨大的存储空间?我们知道在数据存储发展的时代长河上,最早古代时把所有的信息都刻在石、竹、皮或者纸上,而现代是磁、光、电。那么未来将是量子存储、DNA存储。我们看磁、光、电这块怎么来满足大容量存储?比如说手机上都是用闪存存储介质,几年前你的手机是8G、16G,现在都是512,未来相信一定是1T。那么闪存怎么提高存储容量呢?有三个方式:第一是在一个房间里装更多的人,是采用多位存储;第二是每个人占的空间更小;第三是找空间要位置,也就是楼越盖越高,我们称之为多层存储。通过这样三个技术让它的容量越来越大。实际上这对我们提出更多的挑战在于它容量变大的时候,可靠性变的非常弱。所以今天你的手机很有可能用不到两年,它就会坏。而电的存储,最大坏处是,坏了以后数据无法恢复。在磁存储上,这两年硬盘容量提升是比较慢的,它有三个方式可以提高,比如说瓦记录、热辅助磁记录、位元图案介质。瓦记录是什么意思呢?就像农村盖房子一样,瓦和瓦叠着放,这样看上去每一块瓦占的空间面积就变少了,实际是两个叠起来。那么当把这三种结合在一起,硬盘未来也可以做到100TB。那么我们要想有这么大存量,最有可能又回到光存储。日本做成了多层蓝光。大家都用过光盘,现在我们用光盘容量大概是8.5G。而日本多层蓝光盘也是采用堆叠技术,也可以做到很大。还有一个是全息存储,存储密度很大,是立体存储,现在单盘最大可以达到8TB/盘。美国和日本有原形样机出现。中国今年也立了重大专项,专门研究全息存储。还有两类可以更多解决未来大数据存储的需求,一个是双光束超分辨存储,单盘容量是1PB/盘。还有5D玻璃存储,单盘容量是300TB/盘。玻璃存储的最大好处是存储寿命比较长。每一类存储方式因为特点上的不一样,所以我们未来是要满足大数据存储需求,那么它一定是磁光电混合的存储体系结构。我们做了一个数据分析看到的是数据冷的速度非常快。也就是说热数据持续时间也就是一天,最长一个月马上就变为冷数据。所以我们尽管需要很大的存储空间,但是大部分数据都属于冷数据范畴。
 
  第二个要解决的问题是高带宽、低延迟的存储。所有的存储都需要有一个实时性的方式,但是从80年代开始,我们知道80年的时候我们的存储和计算两个之间性能是完全匹配的。那么随着20年的发展,我们看到CPU和存储之间带宽的差距变的越来越大,而导致另外一个问题就是在响应过程中延迟是很大的。现在的存储层次体系结构里面,计算机里面有内存,内存的问题在于数据掉电可能丢失。所以能否找到新的存储介质,让它来弥补处理和存储之间带宽不平衡的问题,去解决高带宽低延时。非易失的存储器件和体系结构的变化会是解决这个问题的一些途径。而这些非易失存储器件所构成的存储级内存在2011年的时候被评为十大类的战略技术。现在可备选的非易失存储器非常多,这一类面临的共性问题是寿命受限,每次数据在读的过程中是破坏性读,每次数据要重新写、重新擦,所以我们想把这些很好的用到现在高性能的处理系统里面去就需要有很多新的算法,这些对我们来讲也是挑战。
 
  总结一下会看到非易失存储器,我们希望某一天发现了一个新的这样的存储器,它的性能可以等价于SRAM,能耗低,而且又是永久性的。从前目前分析上来看,相对来讲磁性存储器已经基本上介乎于SRAM和DRAM之间。我们知道MRAM已经用到了美国的太空上面。各种非易失存储器,如相变、忆阻等,它们的好处在于说它的访问特性是内存的访问特性。它访问粒度是字节型的,这点和闪存是不一样的。闪存访问力度是块级,导致我们更多会把闪存作为外存储器,而不能作为内存储器而存在。
 
  在这样一个存储层次体系结构上,我们知道今天大家用的存储体系结构其实就是这样一个金字塔,也就是说离CPU越近的存储器的速度越快,离CPU越远的存储器的容量越大。因为DRAM和硬盘或者闪存盘在进行数据交互过程中,他们带宽差距依然在两个数量级以上,我们的DRAM和CPU带宽不平衡问题也在两个数量级以上,所以我们是希望能够构成SRAM的存储即内存。这样就能把内外存统一起来,我们CPU在处理数据时只需要跟内存打交道,而这一层读写延时也是微秒级,这样可以满足实时性需求。当然这当中还有很多问题需要解决,比如数据保存的持久性问题、数据一致性问题等等。这些技术必须攻破了以后才有可能真正用到新的体系架构上面。
 
  第三个问题就是存储智能化。今天大家都在说人工智能,因为现在计算发展是非常快的,CPU+GPU、CPU+各种专用处理器,有很多人工智能处理器,都有。但是你再怎么样处理,你要有源泉。而我们发现在我们整个的体系架构里面依然走的是冯诺一曼体系架构,它是总线架构,就是内存和外存之间有大量的数据移动过程。我们看到内存以及CPU之间也有大量的数据的移动过程。而在这样的移动过程中,我们发现大量的数据移动和传输,就导致存储成为整个系统的瓶颈。Google有一个统计数据,移动系统中,62.7%的能耗被消耗在数据移动上。所以说要想解决存储墙和能耗墙,我们一定要想着怎么样搬我要的数据,不要的数据我就不搬了的问题。
 
  我们可以看到计算机里面现在提出的所有新的概念过去都有,只不过在不断突破,包括今天很火的人工智能,它也是有很多浪潮的。存内计算的概念,90年代的时候就有。最早的时候IBM实际上推出过一些相关的产品。但是那个时候都基于是DRAM在做,但是DRAM最大的问题在于它是很容易丢失的,而且性能足够支撑的。所以在研究了十几年之后,这个是停了的。但是这两年又变的很火。我们唯一的主思想就是尽可能减少数据前移。第二,计算的这个动作或者计算的这个处理离我的存储位置越近越好,越近的话搬迁的距离就越短。所以我们看到一个典型的处理计算的融合的体系结构旁边都有对应的处理器,那么在存储的旁边就能够完成对应的处理,这样的话我的数据前移动作就会变的更小。当然,数据前移减少的极致是什么呢?是处理和存储在同一个单元里面,基本上没有数据前移的动作了。所以现在我们看到在存储智能化发展上其实就是两条路线,一条路线就是计算和存储的器件本身还是分离的,只是我们的存储单元的旁边它有一个新的处理单元。还有一个就是主体和计算是一体化的,我们称之为CIM,就是在器件上采用堆叠结构,在下层是计算单元,还有上层是memory,把它封装在一起。
 
  在计算和存储部件分离的时候也有两个,一个是在memory上面进行处理,一个是在style上做处理。计算和存储完全一体化的方案,这个肯定是大家的终极目标。也就是说数据前移基本上降为零。2018年的时候中国一个大学和美国一家公司分别做了两个方案。一个是在MRAM内部,把MRAM做到神经网络加速器的内部去,这两个封装在一起,MRAM里面用来存储一些网络的参数,然后在他的内部SRAM里面主要存放一些待处理的数据,来使整个功耗可以降低到最低。右边这个是一个忆阻器,在我们看来它可能是一个更好的将来做存算融合的器件,因为忆阻器本身的特性它就是靠电阻值的变化,它是有记忆功能在里面的,所以它很适合做一些矩阵的运算。我们看到这个DEMO里面,实际上做了图处理的加速。那么忆阻器主要是用来做稀疏矩阵,并且采用了高并行的方式来进行运算。所以整体来看,从未来的体系结构,如果我们要想满足大数据环境和OI、5G、IoT等等环境里面对存储所提出的这些挑战,存储智能化发展是必行之路。
 
  总结一下,要想满足存储容量大的时候,只能采用光电混合的存储架构,而要想满足实时性只能用各种非存储器来构建新型的存储体系结构。要想数据存储处理更加智能化,那我们就只能从器件、设备到系统,多层次来构建这样的一些智能存储系统,来减少数据的前移。谢谢各位!

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:baiyl

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。