首页 > 基础设施 > 正文

欧洲数据网格DataGrid背景及设计简介

2008-02-25 10:22:09  来源:cio时代

摘要:欧洲原子能研究机构CERN成立于1954年,是世界最大的粒子物理研究中心。CERN是欧洲第一个联合研究机构,由20个成员国提供资金,其卓越成绩已经成为国际合作的典范[43]。CERN位于法国和瑞士
关键词: 网格DataGrid


背景

  欧洲原子能研究机构CERN

  欧洲原子能研究机构CERN成立于1954年,是世界最大的粒子物理研究中心。CERN是欧洲第一个联合研究机构,由20个成员国提供资金,其卓越成绩已经成为国际合作的典范[43]。CERN位于法国和瑞士的交界处,就在日内瓦的郊区。CERN主要研究物质是怎样构成的,以及是什么把它们结合起来的。CERN建有世界上最大的正负电子对撞机LEP(Large Electron-Positron collider)和超级质子同步加速器SPS(Super Proton Synchrotron),如图 4.1所示,大圆是LEP,周长达到27公里,粒子能够加速到每秒运动11000周,接近光速。小圆是SPS。与加速器配套的是四层楼高的粒子检测器,用于对粒子性质进行分析。

图 4‑1 CERN(大圆为LEP,小圆为SPS) 
    图 4.1 CERN(大圆为LEP,小圆为SPS)

  来自全世界80多个国家、500多所大学及研究机构的6500多名科学家(占全球粒子物理学家的一半)在CERN进行各种各样的实验。CERN自身拥有各种各样的技术支持人员,包括物理学家、工程师、程序员、技术人员、管理人员、工人等,他们负责建立各种复杂的设施并保障其正常运转。在CERN完成的实验也是前所未有的,通常需要数百名科学家在巨大的设备上共同完成,一个实验昼夜不停,持续数月乃至数年。

  顺便说一句,CERN同时也是寰球网WWW(World Wide Web)的发源地[44]。1990年,CERN的计算机科学家Tim Berners-Lee,为了方便分布于世界各地的高能物理学家之间的协作,设想和开发了WWW客户端和服务器端,还定义了URL、HTTP、HTML等。正是由于Tim等人的贡献,Internet才变成了大家今天所习惯的模样。

  大型强子对撞机LHC

  目前CERN有1800名物理学家正在为下一代全新的加速装置作实验准备。该装置称为大型强子对撞机LHC(Large Hadron Collider),将于2005年投入使用,这将是人类历史上最强大的粒子加速器[45]。未来在LHC上进行的实验的参加单位、人数及产生的数据量也是前所未有的,这一点可以从LHC与LEP的对比看出来(表格 4?1[46])。做个类比,LHC将要产生的数据量,将是目前CERN所有设备产生的数据量的总和还要多一到两个数量级。

表格 4‑1 LEP与LHC的对比

表格 4 .1 LEP与LHC的对比 

 

  DataGrid

  LHC的出现将给计算科技带来全新的挑战,为此,需要有空前的计算能力来处理这些数据,空前的人类智慧来分析这些数据,以及空前的存贮能力来保存这些数据。解决这些问题的基本思想是把海量数据分散到全球的计算机上进行处理,并由全球的物理学家共同分析之。在这个背景下,欧洲的数据网格DataGrid应运而生了,它成为实现这个“大科学”目标的基础平台。

 图 4‑2 DataGrid的分布处理策略

图 4.2 DataGrid的分布处理策略

  DataGrid对海量数据的分解过程如图 4.2 [47]所示。粒子检测器产生的原始数据具有PB/s量级,经过在线系统过滤后,并经具有20万亿次处理能力的离线处理场的处理,最终以大约100MB/s的速率永久写入磁带,这个100MB/s 就是DataGrid真正需要处理的数据速率。CERN计算机中心负责将这些数据通过高速网络分配给欧洲、北美、日本等国的区域中心,后者再将任务作进一步分解,到物理学家的桌面时,数据量只有1MB/s,已经可以很方便地进行处理了。

  DataGrid需要解决许多问题,诸如[46]:

  1、DataGrid需要管理成千上万个处理器和磁盘、千万亿字节(PB)的数据和每秒万亿比特(Tb/s)的网络带宽,面对如此复杂的系统,如何才能保证它的高可扩展性、低成本和易管理性?

  2、广域网的带宽只是局域网的1%-10%,不同的研究机构有不同的管理者和管理政策,如何保证数量要在它们之间安全地分发、复制、缓存并保持同步和完整性?

  3、如果才能协调好不同国籍、不同研究机构的科学工作者的工作,使他们及时分析数据并汇总结果?

  这些问题解决好了,不仅对于在LHC上开展的实验是至关重要的,对于其他领域的研究也具有指导意义。可以这样说,虽然在高性能计算机、集群、网格等领域里美国一直处于领先地位,但欧洲的CERN所开创的大科学研究是美国难以望其项背的。

  DataGrid的设计

  DataGrid负责人Gagliardi这样描述DataGrid所要完成的工作[48]:

  当用户提交一个任务时,DataGrid首先分析完成任务所需要的计算资源。然后,找到这些资源并分配给任务。同样地,运行任务所需要的数据也被检索出来并传送给计算资源。在这个过程中,DataGrid需要具备:分析任务的能力,随时掌握网格中资源的能力,执行任务程序的能力,任意传输数据的能力,判定和保障服务质量的能力,从错误中恢复的能力,记录出错情况的能力,等等。

  论文[45]分析了DataGrid所应具备的主要功能:

  1、负载调度和管理

  DataGrid在管理负载时所面临的新问题有:数据经常需要动态重新分配,系统中可调度组件的数量非常之大,会出现许多用户同时提交任务的情况,不同国家不同机构有不同的管理策略,等等。负载管理在分解和分发任务时,必须基于计算能力和数据的可用性。为此,需要扩展作业描述语言,使之能够描述数据的相关性。负载管理应能比较不同任务分解方法的利弊,为此,它需要预测并综合考虑任务在不同机器的执行时延、生成数据缓存副本的开销、在二级存贮和第三方存贮之间迁移数据的开销,等等。更进一步,负载管理应该有新手段支持资源的协同分配和预留,以及在组件失效时的恢复策略。

  2、数据管理

  DataGrid需要开发中间件以支持对海量数据的访问,既要有统一的名字空间和统一的数据格式,又要能在不同站点之间高速移动和复制数据,还要保持远程数据拷贝的一致性,等等。DataGrid应该有一些优化措施,支持自动的广域网数据高速缓存机制,并能根据用户的使用模式选择数据的分发方式。

  3、网格监控

  DataGrid需要有监控网格运行的窗口,它既能站在一定高度纵览全局,又能深入某个局部分析细节状况,为此,需要开发底层API,提供对计算构件、网络和海量存贮的性能和状态信息。有了这些支持,就能协助制定工作负载和数据管理的调度策略,以及调整应用程序的运行性能。

  4、构造层的管理

  网格的构造层(fabric)是网格存在的物理实体,没有它们,就谈不上计算和存贮,谈不上资源的可用性和性能,谈不上安全认证,谈不上资源分配。为此,需要有创新性的中间件,对所有的基础构件提供灵活和有弹性的管理。虽然现有网格的研究成果(如Globus)本身就具有动态配置、自动容错、自适应资源变化以及自动调整性能特性的能力,但对于DataGrid所要面临的问题而言,这些能力就显得不够强了,它不仅要面对成千上万个基础构件,还要满足严格的时间约束条件,必须要有创新性方法,实现自动发现和隔离错误、自动重组构造层、自动重新运行任务、自动把新加入的系统带入基础设施中。

  5、海量存贮管理

  粒子物理处理大规模数据已经有几十年的经验了。然而,在过去的一些年里,由于每一个加速器中心都有各自的数据格式,不同格式之间的转换给CERN的合作数据处理机构带来了许多麻烦。DataGrid应该提供数据之间的转换接口,同时它还要负责将本地的海量数据存贮系统集成到网格的数据管理系统中。换言之, DataGrid要用统一的接口屏蔽不同站点的数据存贮方式和处理方式之间的差异,使分布的存贮资源能够无缝融合。DataGrid的体系结构[50]如下所示。由于DataGrid尚在研制过程中,它还不是最终版本。

 图 4‑3 DataGrid的体系结构

图 4.3 DataGrid的体系结构

  需要指出的是,DataGrid的体系结构与Globus的体系结构息息相关,它的规划需要充分考虑与Globus配合的要求;从Globus的角度看,它原本是针对计算网格而设计的,但Globus项目组好像非常想把它变成一个通用的网格平台——这也是未来的Globus 3.0叫做开放网格服务体系结构OGSA(Open Grid Service Architecture)的原因——为此,Globus项目组也为让它提供数据网格服务做了许多工作。

  DataGrid的项目管理


  欧洲DataGrid于2000年12月29日正式立项,由欧盟提供980万欧元资金,项目完成期限为3年。项目主要完成者除了CERN外,还有法国国家科学研究中心CNRS(French National Centre of Scientific Research)、 欧洲空间研究中心意大利分部ESA/ESRIN(Centre of the European Spatial Agency in Italy)、意大利国家原子物理研究所INFN(Italian National Institute of Nuclear Physics)、荷兰国家原子物理和高能研究所NIKHEF(Dutch National Institute of Nuclear Physics and High Energies)和英国粒子物理和天文研究委员会PPARC(British Council of Research in Particle Physics and Astronomy)。除了这六家外,还与其他十几家研究机构和工业界建立了合作研究协议[48]。

  这样一个多个国家共同参与、规模庞大的网格项目,如何协调不同研究机构的关系,如何保障研究进度,如何简化研究的对象,一定需要有独到的考虑,而这些考虑对于我国正在建设或准备建设的一些网格项目,无疑是有借鉴意义的。

  1、明确应用背景

  DataGrid主要针对CERN的高能物理应用,解决海量数据的分解存贮和处理问题,同时将之扩展到其他应用,如地球观察应用和生物应用,并寻找将其推广的可能。可以说,CERN的应用,特别是未来的LHC应用,是DataGrid的立足之本。解决好这个应用,DataGrid的研究就可以取得战略性胜利。一句话,有应用背景的项目才有生命力,这点特别值得我们重视。

  2、站在巨人的肩上

  进行DataGrid的研究,有两个选择:一个是从头到尾,完成全新的数据网格中间件,不借助第三方的网格平台;另一个选择是基于Globus,在其基础上扩展数据网格所特有的中间件代码。虽然这个问题看似简单,但国内的确有些研究人员喜欢从头开始(start from scratch),前些年甚至有人试图重写TCP/IP的IP层代码——精神可嘉,但未必是好的选择,有这么旺盛的研究精力,应该投向更容易出成果的领域。DataGrid毫不犹豫地选择了基于Globus平台。试想,Globus已经完成了DataGrid所要解决的80%的网格问题,这样,DataGrid就可以专心解决好剩下的20%的问题,这样成功的把握性要大得多。除了与Globus项目组织联合开展研究外,DataGrid甚至与美国的“竞争对手”GriPhyN[51]建立了合作关系。GriPhyN是一个与DataGrid类似的物理数据网格。

  3、分而治之

  将复杂任务分解为相对独立的模块,这是软件工程中常用的手段,在DataGrid中也不例外: DataGrid的任务划分成为12个工作包WP(Work Package),分为五组,如表格 4.2所示。

 

 

 

 

      表格 4‑2 DataGrid开发任务分配

表格 4.2 DataGrid开发任务分配 

 
  这些工作组之间既相互独立,又相互依存,如图 4.4[49]所示。工作组WP11和WP12专门负责整体协调,既保障WP1-10能够正常运转,又负责与其他研究机构的协作。

 

 图 4‑4 DataGrid项目工作包的技术配合

图 4.4 DataGrid项目工作包的技术配合

  4、里程碑式渐近开发

  将时间划分成相对独立的阶段,简化每一阶段所要面对的问题,相当于再次将问题简化(如表格 4.3所示)。

表格 4‑3 DataGrid开发计划

表格 4.3 DataGrid开发计划

 

  想了解甲骨文公司在网格计算领域的最新研究成果吗?那就进来看看吧

  5、多种协调手段

  DataGrid项目通过一组网站协调不同工作组(WP)之间的研究和进度,并保持与其他研究机构和工业界的同步。这些网站同时也是共享、交流研究成果的平台:每个工作组有各自的主页,可供发布新闻,或将已经开发好的软件提供下载。另外,各个工作组或整个项目经常定期或不定期召开会议,还要按计划在每个阶段向欧盟报告进度和进行演示。

 


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。