首页 > 大数据 > 正文

Hadoop使用基于硬件存储的DAS的替代方案

2012-06-29 16:17:51  来源:TechTarget中国

摘要:文中介绍了在Hadoop MapReduce框架内严格使用基于硬件存储的DAS的一些替代方案。这样,我们依照三级模型来检测替代方案。
关键词: Hadoop DAS

    文中介绍了在Hadoop MapReduce框架内严格使用基于硬件存储的DAS的一些替代方案。这样,我们依照三级模型来检测替代方案:


    第一阶段:DAS以大量磁盘替代嵌入每个集群节点的少量磁盘(JBOD/RAID)的形式,集群节点外部的高性能阵列仍旧通过直连提供数据访问。在某种程度上,我们正在改述我们最初的问题:Hadoop数据存储是否必须是嵌入每个集群节点相对小的DAS分组?不,然而代替嵌入式DAS的更大的外部存储阵列依然具有DAS的功能。


    第二阶段:被集群用作主存储的基于节点的DAS层增强了由网络附加存储(NAS)或存储区域网络(SAN)组成的第二存储层的添加。


    第三阶段:用于主存储的基于节点的DAS层由NAS或SAN组成的网络存储层代替。现在,我们接下来看一下三个阶段中每个阶段的详细情况。


    第一阶段


    首先关注的是使用外部磁盘阵列作为Hadoop集群的主存储,这样保留了DAS非共享和数据局部性的特点。典型的存储阵列被划分为DAS的多个卷,全部封装在相同的阵列中。每个节点有它自己的非共享磁盘集合。一旦这样做,那么,现在常见的高性能的所有特点和功能,数据中心级RAID阵列可用于Hadoop的NameNodes和DataNodes.有益的效果,从数据存储管理员的角度看,NameNodes和DataNodes是有差异的:


    在NameNode级:Hadoop NameNode存储保存集群范围元数据。NameNode在不能正常工作时能够关闭集群,它是众所周知的单故障点。一个数据中心级阵列可以作为集群元数据的标准存储库,支持从失败中快速恢复。它也可以作为其它集群的软件库,包括脚本;同样,它可以用于简化集群部署、升级以及不间断的维护。


    在DataNode级:标准Hadoop集群通常使用基于DataNode软件来提供数据保护和系统恢复。Hadoop集群使用分布式存储,主机基于软件的多数据镜像方案功能访问集群中所有的DataNodes.改进数据采集,用户通常指定原始数据的两个额外的副本写入集群中其它两个DataNodes,集群中包含生成的三个数据副本。这样提供了一个发生失败时恢复能力,以及平衡访问(负载均衡)集群中DataNodes的数据。


    然而,通过使用三个复制,每TB的数据采集产生3TB的存储。此外,拷贝进程消耗集群处理资源和内部通讯带宽,削弱那些用于分析进程的相同资源的可用性。


    使用外部阵列来支持DataNodes允许存储管理员使用阵列驻留数据保护功能,包括RAID、快照、连续数据保护(CDP)、克隆以及外部复制。移动数据保护进程,为不良事件恢复目的创建数据副本,关闭Hadoop集群并让出存储阵列旨在更有效地完成这些任务。也可用于数据安全和保护过程。


    集群范围性能也可以被提高。正如上面所说,集群中三倍镜像消耗服务器和网络带宽。移动数据保护功能关闭集群并让出阵列,把消耗的集群资源返回给集群。NetApp的开放式Hadoop解决方案可以看作第一阶段例子的实现。[page]
    第二阶段


    我们提到Hadoop存储管理员通常维护集群中数据的三个副本用于数据保护和灾难恢复。一些Hadoop商业版支持使用外部共享存储作为Hadoop内部镜像进程的目标,例如,三个数据副本中的一个存放在外部。基于节点的DAS保持不变。


    正如第一阶段所说,Hadoop环境中实施的外部存储也能达到保护非共享和数据局部性要求(DAS作为主存储层被保留),让存储管理员能够应用它们的数据保护、安全和保留进程。此外,因为现在SAN和/或NAS能够充当二级存储层支持Hadoop集群,外部存储变成可扩展的数据存储库。使用DataDomain和VMAX的EMC Greenplum HD是第二阶段例子的实现。


    第三阶段


    在第三阶段,规则开始被破坏。例如共享存储--向外扩展的NAS--变成Hadoop的主存储层。DAS已经离去。非共享和数据局部性已经离去。然而,大多数为现代存储平台(自动分层,内部和外部复制等等)所共有的有利属性被应用于Hadoop数据。


    这种共享存储在Hadoop环境下的实施,可能会限制集群的大小。因此,当数据存储在向外扩展的NAS系统,能够支持正常业务应用时它似乎是一个可行的选择,例如,被复制以及出现运行BI应用和连接到相同的NAS系统的小的Hadoop集群。


    第四阶段是否即将到来?


    当前可能出现的第四阶段在今年晚些时候出现。第四阶段是什么?我们已经知道向外扩展的存储架构以分布式计算(又称网格)为基础。这种存储平台包括但不限于EMC Isilon、IBM SONAS 和 Sepaton DeltaScale.正如在以前的文章中提到的Hadoop集群,Hadoop MapReduce的目标是移动相邻计算单元的数据来减少集群延迟。但是,假设你从相反的方向做了移动相邻数据的计算。向外扩展的存储计算节点通常拥有足够的计算能力和内部网络带宽来支持Hadoop.所以存储管理员,准备来管理你自己的Hadoop集群。


    评价Hadoop存储


    走过前三个阶,我们得到暗示:Hadoop存储有些问题,但是通过使用更强健的和可扩展的存储平台来支持Hadoop集群可以解决这些问题。在本系列第四篇文章中,通过评估Hadoop作为一个企业级数据中心的存储设备,我们将更详细的讨论这些问题。我们着眼于Hadoop存储如何维护系统可用性、管理数据保护以及其它问题,同样你将来可能作为存储管理员。


    马上开始,值得一问的问题: Hadoop的存储层的一些问题会被解决吗?那些了解Hadoop缺点的人们一定会回答“是”.


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangyexi

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。