2012-08-27 15:06:06 来源:万方数据
引言
随着Web2.0的发展。信息量呈爆炸性增长。数据存储逐渐成为制约企业发展的关键问题。越来越多的企业开始将数据存储分离出来作为独立的项目进行管理。高可靠性、高通用性、高扩展性、大容量。云存储以传统数据中心无法比拟的优势特性。正在成为企业实现提高效率、降低成本的重要选择。HDFS是当前应用最广泛的云存储技术之一。本文详细分析HDFS云存储技术的可靠性
1、云计算技术系统结构
云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空问和信息服务。
图1 云计算技术体系结构
云计算技术体系结构分为4层:物理资源层、资源池层、管理中间件层和SOA构建层,如图1所示。物理资源层包括计算机、存储器、网络设施、数据库和软件等:资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等。管理中间件负责对云计算的资源进行管理。并对众多应用任务进行调度,使资源能够高效、安全地为应用提供服务:S0A构建层将云计算能力封装成标准的Web Services服务,并纳入到SOA体系进行管理和使用。包括服务注册、查找、访问和构建服务工作流等。管理中间件和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。
云计算的管理中间件负责资源管理、任务管理、用户管理和安全管理等工作 资源管理负责均衡地使用云资源节点。检测节点的故障并试图恢复或屏蔽之,并对资源的使用情况进行监视统计。对云计算的可靠性有至关重要的作用 下面结合HDFS介绍云存储技术的可靠性。
[page] 2、HDFS体系结构
Hadoop是Apache基金会的一个开源项目。参考Google的GFS(Google File System)和Map/Reduce计算模型研发出HDFS(Hadoop Distributed File System)和自己的Map/Reduce框架。Hadoop主要由Yahoo开发 ,Facebook、Amazon和Last.fm公司也都在使用Hadoop。
图2 HDFS体系结构
如图2所示。Hadoop档案系统(Hadoop DistributedFile Systern.HDFS)被设计成适合运行在通用硬件上的分布式文件系统。其具有高容错性。能提供高吞吐量的数据访问。非常适合于大规模数据集上的应用。
3、HDFS可靠性
为了保障HDFS的高可靠性。HDFS有如下5个特性。
(1)冷备机制
HDFS中Secondary NameNode对NameNode中元数据提供了冷备方案 Secondary NameNode将Na—meNode的fsimage与edit log从Namenode复制到临时目录,将fsitnage同edit log合并,并产生新的Fsimage并把产生的新的Isirnage上传给NameNode ,最后清除NameNode中的edit log
(2)租约机制
NameNode在打开或创建一个文件,准备追加写之前,会与此客户端签订一份租约。客户端会定时轮询续签租约。NameNode始终在轮询检查所有租约,查看是否有到期未续的租约。如果一切正常,该客户端完成写操作,会关闭文件,停止租约,一旦有所意外,比如文件被删除了,客户端宕机了,当超过租约期限时,NameNode就会剥夺此租约,将这个文件的享用权,分配给他人。如此,来避免由于客户端停机带来的资源被长期霸占的问题。
(3)数据的正确性与一致性
在HDFS中,为了保证数据的正确性和同一份数据的一致性,做了大量的工作。首先,每一个数据块,都有一个版本标识,一旦数据块上的数据有所变化,此版本号将向前增加。在NameNode上,保存有此时每个数据块的版本,一旦出现数据服务器上相关数据块版本与其不一致,将会触发相关的恢复流程。这样的机制保证了各个数据服务器器上的数据块,在基本大方向上都是一致的。但是,由于网络的复杂性,简单的版本信息无法保证具体内容的一致性。因此,为了保证数据内容上的一致,必须要依照内容,给出签名。
当客户端向数据服务器追加写人数据包时,每一个数据包的数据,都会切分成512字节大小的段,作为签名验证的基本单位,在HDFS中,把这个数据段称为Chunk,即传输块。在每一个数据包中,都包含若干个传输块以及每一个传输块的签名,一旦发现当前的传输块签名与在客户端中的签名不一致,整个数据包的写人被视为无效。
[page] (4)系统升级回滚
当升级某个集群的Hadoop的时候,正如任何软件的升级一样,可能会引人新的bug或者不兼容的修改导致现有的应用出现过去没有发现的问题。在所有重要的HDFS安装应用中,是不允许出现因丢失任何数据需要从零开始重启HDFS的情况。HDFS允许管理员恢复到Hadoop的早期版本,并且将集群的状态回滚到升级前。
图3 系统升级回滚
如图3所示,升级时,NameNode会将新的版本号,通过DataNode的登录应答返回。DataNode收到以后,会将当前的数据块文件目录改名,从curren,改名为previous.tmp ,建立一个snapshot,然后重建current目录。重建包括重建VERSION文件,重建对应的子目录,然后建立数据块文件和数据块元数据文件到previous.tmp的硬连接。建立硬连接意味着在系统中只保留一份数据块文件和数据块元数据文件,current和previous.tmp中的相应文件,在存储中,只保留一份。当所有的这些工作完成以后,会在current里写人新的VER-SION文件,并将previous.tmp目录改名为previous,完成升级。
回滚相对简单,因为所有的旧版本信息都保存在previou、目录里。回滚首先将current目录改名为re-moved.tmp,然后将previous目录改名为current,最后删除removed.tmp目录。
提交的过程,就是将上面的previous目录改名为finalized.tmp,然后启动一个线程,将该目录删除。
(5)安全模式
在启动的时候,名字节点进入一个特殊的状态叫做安全模式。安全模式是不发生文件块的复制的。NN接受来自DN的心跳和块报告。一个块报告包括的是DN向NN报告数据块的列表。
4、总结
本文首先简介了云计算技术系统结构,针对当前主流的云存储技术HDFS,详细研究了HDFS的冷备机制、租约机制、数据的正确性与一致性、系统升级回滚、安全模式5个云存储可靠性特性。在云存储大规模应用的今天,HDFS必将得到越来越多推广和使用。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。