首页 > 大数据 > 正文

Hadoop 2.0你值得期待

2012-06-26 14:19:30  来源:it168

摘要:Hadoop技术逐渐成为企业(包括美国宇航局NASA、Twitter、Netflix等)管理大量数据的关键技术,这些企业也越来越依赖于这个开源分布式计算平台。
关键词: Hadoop 大数据

    Apache的Hadoop技术逐渐成为企业(包括美国宇航局NASA、Twitter、Netflix等)管理大量数据的关键技术,这些企业也越来越依赖于这个开源分布式计算平台。随着越来越多的企业使用Hadoop来处理大数据,大家对即将到来的2.0版本期望很高。


    随着很多企业试图从其计算系统中迅速增长的数据中挖掘价值,Hadoop作为处理大数据的机制已经吸引了很多人的关注。在认识到Hadoop的潜力后,用户在使用现有Hadoop平台技术的同时,还开发自己的技术来弥补Hadoop堆栈。


    Hadoop目前在企业的使用情况以及未来展望


    NASA希望使用Hadoop来处理其Square Kilometer Array天空成像(该项目预计在未来十年内将生成700TBps数据)等项目中的大量数据。NASA高级计算科学家Chris Mattmann表示,该数据系统将包括Hadoop,以及Apache OODT(面向对象数据技术)来处理大量数据。


    Twitter是Hadoop的“大用户”.Twitter数据科学家Oscar Boykin表示:“所有相关产品(向用户提供个性化建议)都与Hadoop有某种关联。”该公司已经连续四年使用Hadoop技术,甚至还开发了Scalding---帮助简化Hadoop MapReduce编写工作的Scale库,该库建立在Cascading Java库之上,主要目的在于减小Hadoop的复杂性。


    Hadoop的子项目包括MapReduce,用于大规模数据集的并行运算的软件框架;HDFS(Hadoop分布式文件系统),提供对应用程序数据的高吞吐量访问;以及Common,提供工具集以支持其他Hadoop子项目。电影租赁服务商Netflix已经开始使用Apache Zookeeper(用于配置管理的Hadoop相关技术)。“我们将它用于各种工作:分布式锁、一些查询和领导人选举等,以优化服务活动,”Netflix公司高级平台工程师Jordan Zimmerman表示,“我们为ZooKeeper开源化了一个我编写的客户端,被称为Curator,该客户端可以作为开发人员连接ZooKeeper的库。”


    Tagged社交网络正使用Hadoop技术进行数据分析,每天处理大约1TB的新数据,Tagged的高级数据工程师Rich McKinley表示,Hadoop被用于处理超出其Greenplum数据库(仍然在使用中)能力范围内的工作任务,“我们期待更广泛地使用Hadoop技术。”


    虽然Hadoop受到各方赞扬,用户也发现一些需要解决的问题,例如可靠性和工作跟踪方面的不足。Tagged的McKinley还发现了一个延迟性问题“获取数据的速度非常快,然而,每个人都抱怨在处理数据查询时的高延迟性。”Tagged使用Apache Live(另一个Hadoop派生技术)用于即席查询。“这可能需要几分钟才能得到结果,而Greenplum在几秒钟就能返回结果。”虽然,使用Hadoop要比使用Greenplum更便宜。


    Hadoop 2.0有什么值得我们期待


    Hadoop 1.0于2011年年底发布,具有强大的Kerberos身份验证功能,并支持HBase数据库,但该版本由于MapReduce的限制,让个人用户无法卸载集群。新的Hadoop 2.0即将面世,HortonWorks公司(该公司一直是Apache Hadoop的贡献者)首席技术官Eric Baldeschwieler透露了即将发布的2.0中包含的功能,今年早些时候进入Alpha测试阶段的2.0版本“具有MapReduce层的端到端重写,以及对所有存储逻辑和HDFS层相当完整的重写。”


    Hadoop2.0侧重于规模和创新,具有Yarn(下一代MapReduce)和联合功能。Yarn将允许用户添加他们自己的计算模型,这样他们就不必依赖MapReduce.“我们非常期待看到很多使用Hadoop的新方法,”Baldeschwieler表示,预期用途包括实时应用程序和机器学习算法,可扩展可插拔存储同样在计划之内。


    2.0版本中始终启用的功能将使集群没有停机时间。2.0版本预计将在一年内面世。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhangyexi

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。