首页 > 基础设施 > 正文

Cheap&Deep:Hadoop集成大数据存储和分析

2012-07-04 11:00:55  来源:TechTarget中国

摘要:Hadoop是一个能够在其上创建应用的平台,有存储PB级数据的能力。此外,它能够处理并分析数据;提供越来越多的“大数据”应用结果。
关键词: Hadoop 存储

    到目前为止,我们谈到Hadoop是一个创建分布式集群的框架,能够处理大的、不同的数据集。然而,另一个说法是将Hadoop理解为一个存储设备或存储环境。确实,它是一个能够在其上创建应用的平台,有存储PB级数据的能力。此外,它能够处理并分析数据;提供越来越多的“大数据”应用结果。(不可否认,这正是一个以存储为中心的Hadoop架构观点。)


    我们也可以说每个节点提供其本地计算并把资源存储到集群,这些节点基于常用的服务器硬件。有时候用“cheap and deep”这一术语来描述资源配置理念,意思是集群由常用服务器(廉价的)组成,能够扩展到数百个节点(深入)――都是以免费的Apache Hadoop(可以免费获得)为基础。


    <SCRIPT type=text/javascript src=“http://admin.brightcove.com/js/BrightcoveExperiences_all.js”></SCRIPT><SCRIPT type=text/javascript src=“http://cdn.ttgtmedia.com/rms/ux/javascript/brightcoveCuePoints.js”></SCRIPT><SCRIPT type=text/javascript src=“http://admin.brightcove.com/js/BrightcoveExperiences.js”></SCRIPT>


    <SCRIPT type=text/javascript>brightcove.createExperiences();</SCRIPT>


    Hadoop:与RAID类似吗?


    鉴于cheap and deep(廉价和深入)的倾向,随着时间的推移出现预期的一类或另一类组件失败。所以Hadoop的目的是检测并解决故障。这方面Hadoop有点类似于初期以廉价磁盘冗余阵列为代表的RAID.假设,由许多PC级磁盘构成存储阵列,驱动器将来很可能发生故障。诀窍是允许驱动器出现故障而不丢失数据。不同的RAID级别(0,1,3,5,6等等)提供多种阵列配置和驱动器故障恢复模式。


    的确,Hadoop可以看作廉价服务器冗余阵列(RAIS)。 Hadoop也假设冗余服务器的硬件故障将是一个正常的操作事件,并因此内置恢复进程。大多数部署在Hadoop分布式文件系统(HDFS)中。例如,当提取数据时,它被分解成数据块(默认是64MB块)。块被多次拷贝然后分布――原始和副本――访问DataNodes.HDFS默认创建两份副本,并且通常写入到不同机架的服务器。这个拷贝和分布进程由NameNode管理。如果由于某种原因一个DataNode服务器出现故障,包括内部磁盘故障,这个NameNode将在集群中其它地方找到丢失的数据,当故障节点被重启或替换后进程能够继续执行。


    区别于现代RAID阵列


    尽管如此,还有一些明显的遗漏。从DataNode的故障中恢复比NameNode中断恢复相对容易。在当前的Apache Hadoop版本中,没有适用于无功能的NameNode的自动恢复规定。Hadoop NameNode是一个臭名昭着的单点故障点(SPOF)--和RAID阵列没有什么不同,单控制器的RAID阵列也是一个SPOF.NameNode损坏关闭集群可能导致数据丢失,如果故障发生,数据不能被恢复。此外,重启大集群(假设数据可恢复)中的NameNode可能花费数小时。[page]
    Apache Hadoop寻址问题


    缺乏自动NameNode故障转移模式和其它Apache Hadoop的缺点(JobTracker是另一个SPOF)给商业供应商急于出售“企业就绪”方案提供了机会。这些供应商的普遍做法之一是从本质上支持Apache Hadoop,通过APIs访问核心Hadoop组件,像HDFS一样随同他们自身修改,一些开放的和其它的专利。供应商列表分成以下几类(但不限于此):


    EMC


     HortonWorks


     IBM


     MapR (也是由EMC Greenplum提供)


     Red Hat


    这些供应商(其它供应商希望在解决问题的同时,保留Hadoop的MapReduce框架)的业务首先是为了解决NameNode和JobTracker SPOF问题。例如,MapR是Apache Hadoop工具的分布,实现集群中跨服务器分布式NameNode功能(分布式NameNode负载均衡)。Red Hat的GlusterFS使用它内置的元数据感知NameNode,完全消除了元数据服务器。


    我们也提到,Hadoop创建多个跨集群分布的数据副本,适用于不同的恢复场景。然而,使用快照替代可能适用于回滚集群到一个已知的好的状态,同时降低全数据拷贝的开销。一些供应商在他们的Hadoop架构中支持快照拷贝。


    回顾我们关于向外扩展的网络直连存储(NAS)作为Hadoop存储的讨论, EMC Isilon也可以用来解决这些问题。Isilon的OneFS全局命名空间文件系统能够支持Greenplum Hadoop (HD)集群。Isilon把HDFS看作“过线”协议,因此是第一个集成到HDFS的SoNAS平台。它也解决了Hadoop NameNode 和 JobTracker功能的单点故障。


    Apache Hadoop的回应


    公平地说,我们不得不指出Apache社区清楚Hadoop当前NameNode和其它问题的缺陷。事实上,现在从Cloudera (CDH 4.0)可以得到一个重要的作为测试版的新版本,专门针对NameNode SPOF问题。它包括一个HDFS的高可用(HA)版本。在HA版本中是一个“热备”NameNode,在管理员控制下,当活动节点出现故障或因管理员在日常维护和升级将NameNode离线时接管--通常这种情况很有可能。总之,HDFS HA包括两个主/备配置的NameNodes.将来,支持自动NameNode故障切换。


    结语


    我们由关注大数据存储开始本系列,另一种说法是PB级存储,大数据分析是做商业智能(BI)的新途径。但是,我们已经看到大数据存储如何与Hadoop结合使用--集成大数据存储和分析--Hadoop可以被看作一个PB级存储设备。


    然而,我们还没有真正探索一个最终的但重要的因素:成本。除了我们以前描述的给无共享集群增加网络存储的潜在问题,一个存储区域网络(SAN)和NAS也被“传统主义者”视为太昂贵的方法。记住这个准则:cheap and deep.与之相似,在集群结点级固态硬盘(SSD)作为直连存储(DAS)的替代方案。甚至能够用涡轮给集群增压的存储在规模和适用性上被视为太昂贵,只适用于那些愿意为性能付钱的用户。


    真正的问题是廉价和深的思想将来是否会在企业级数据中心盛行。如果确实如此,节点级DAS作为Hadoop唯一的存储层将很可能盛行,直到有人意识到持续增加服务器到集群来适应数据增长,同时会有越来越多的增长维护问题和管理开销方面成本影响。如果不是这样,为了业务连续和数据存储目的SAN 和/或 NAS将作为一级或二级存储层,并且存储管理员的技能将被再次加分。


第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangyexi

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。