首页 > 基础设施 > 正文

6个优秀的开源文件系统助力大数据分析

2013-04-15 14:30:13  来源:互联网

摘要:大数据在今天吸引了大量关注,个人、企业和政府机构之间的互动创造了数据的海洋,通过有效识别、访问、筛选和分析其中部分数据能带来新的见解和益处。
关键词: 开源文件 大数据

    大数据在今天吸引了大量关注,个人、企业和政府机构之间的互动创造了数据的海洋,通过有效识别、访问、筛选和分析其中部分数据能带来新的见解和益处。大数据需要大量的储存空间,先进的存储基础设施必不可少,需要能在多台服务器上伸缩自如的存储解决方案。有许多优秀的开源文件系统能用于深入分析大数据,其中包括:


    QFS


    Quantcast File System (QFS) 是一个高性能、容错、分布式的文件系统,其开发是用于支持 MapReduce 处理或者需要顺序读写大文件的应用。

\

    HDFS


    Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low- cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而 hadoop又是lucene的一部分。

HDFS

    Ceph


    Ceph是加州大学Santa Cruz分校的Sage Weil(DreamHost的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统。自2007年毕业之后,Sage开始全职投入到Ceph开 发之中,使其能适用于生产环境。Ceph的主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,使数据能容错和无缝的复制。2010年3 月,Linus Torvalds将Ceph client合并到内 核2.6.34中。IBM开发者园地的一篇文章探讨了Ceph的架构,它的容错实现和简化海量数据管理的功能。


    Lustre


    Lustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护的。


    该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10000个节点,数以PB的数据量存储系统。


[page]    GlusterFS


    GlusterFS 是一个集群的文件系统,支持 PB 级的数据量。GlusterFS 通过 RDMA 和 TCP/IP 方式将分布到不同服务器上的存储空间汇集成一个大的网络并行文件系统。


    PVFS


    PVFS 是一个高性能、开源的并行文件系统,主要用于并行计算环境中的应用。特别为超大数量的客户端和服务器端设计。模块化结构设计,可轻松的添加新的硬件和算法支持。


    PVFS 侧重高性能访问大数据集,包含一个服务器进程和客户端开发库,完全基于用户级代码编写。


    特征:


    ·基于对象的设计思路


    ·Optimized for regular strided access


    ·独立数据和元数据的存储


    ·优化的 MPI-IO 支持


    ·多种网络支持


    ·无状态的服务器


    ·用户级的实现方案


    ·系统级接口


    ·可在很多 Linux 版本上构建


    ·支持多数平台,包括 IA32, IA64, Opteron, PowerPC, Alpha, and MIPS



第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。