【干货分享】云思创想张珩:云思CloudPAI-AI算力调度平台解决方案

2024-06-26 18:10:46  来源:

摘要:2024年6月16日,在由CIO时代主办、新基建创新研究院作为智库支持的“基于数据要素的新质生产力——科技至卓 同行至远 | 2024 CIO百人会高峰论坛”主论坛上,云思创想解决方案经理张珩带来了主题为《云思CloudPAI-AI算力调度平台解决方案》的精彩分享。
关键词: 2024 CIO百人会高峰论坛
\
 
近年来,中国云计算的应用规模显著扩张,随之而来的是技术与商业模式的深刻变迁。这一趋势在人工智能领域尤为突出,特别是在人工智能生成内容(AIGC)的驱动下,智能算力已跃升为数字经济时代的关键生产力要素,为全社会的数字化、智能化转型奠定了基础。在此背景下,云思创想,正利用其创新的产品与解决方案,积极赋能国内企业的数字化转型之旅,加速推进产业变革的步伐。

 

2024年6月16日,在由CIO时代主办、新基建创新研究院作为智库支持的“基于数据要素的新质生产力——科技至卓 同行至远 | 2024 CIO百人会高峰论坛”主论坛上,云思创想解决方案经理张珩带来了主题为《云思CloudPAI-AI算力调度平台解决方案》的精彩分享。

 

云思创想解决方案经理 张珩

 

金句:

AI作为新质生产力的重要引擎,创建定制的AI应用程序成为企业创新增长的新动力。云思创想依托多年通信和图像压缩协议研发经验的优势,深耕服务器虚拟化10+年,以桌面虚拟化协议、自主研发虚拟化协议等核心优势,携手业界共同推进我国新质生产力高质量发展。

 

以下为主题演讲的精华内容,经编辑后的文字实录:

 

CloudPAI平台:优化算力,赋能未来

 

云思创想从2012年成立至今,已积累了十二年的远程桌面协议的经验,自主研发了桌面传输协议,然后由3D桌面应用产品围绕着GPU市场来进行探索。凭借着对于GPU领域的一些积累,研发了这款CloudPAI,针对AI推力训练场景下的一个算力调度平台。

 

从第一次提出新质生产力概念到写进政府工作报告,仅仅用了半年左右的时间,可见国家对于发展新质生产力的迫切性和决心。细化解读如何发展新质生产力可以从技术创新、产业发展和数字经济三个方面来看,不管是技术创新中的高端装备技术、前沿领域技术、融合应用技术、新型生产工具技术,还是产业发展中的八大战略新兴产业和九大未来产业,以及数字经济的数字产业化、产业数字化,其根本与信息化是密不可分的。

 

发展新质生产力最终的目标就是实现制造强国、质量强国、网络强国、数字中国、农业强国、这五个方面的高质量发展。未来制造、未来信息、未来材料、未来能源、未来空间、未来健康,这些未来产业中大多提到了大模型,或者是智能、数字孪生等概念,要实现这些技术,就需要后端有庞大的算力来进行支撑。那么在AI推理训练场景,一般都是用GPU来进行预算,单颗GPU的算力,要比CPU大。

 

AI应用发展至ChatGPT让人们开始意识到,AI在显著提高生产力方面的巨大潜力。许多行业已经将注意力努力转向创建定制的AI应用程序。从中国AI的软件市场规模及部署方式来看,中国AI也从2022年开始有一个飞跃。在英伟达发布的F224财政活动中,可以看到它的业绩仍然是超市场预期的,数据中心的增长是很强势的,GPU市场固件仍然供不应求。

 

在2024年营收中,数据中心的业务占了八成的收入份额。GPU市场的供需失衡让很多企业在进行AI探索,很有可能随时会遇到抢额的情况。如何更高效地利用企业已有的一些算力,将算力进行分时复用,已经成为越来越多企业关注的焦点。

 

通过面对面交流和市场调研,云思创想整理了三个用户比较关注的需求。

 

第一个是算力的利用率,算力资源能够复用。AI训练或者推理集群在合作部署的时候,能否在一个GPU集群上部署推理任务和训练任务。推理任务的优先级高于训练任务的优先级,来实现GPU集群优先保障推理任务。在推理任务播布时段,低优先级训练的任务在进行。

 

第二个需求主要是资源调度监控,是否有统一的管理平台,可以精细地给任务分配GPU资源,控制任务对GPU资源的使用,控制任务对GPU资源使用的优先级。同时这个平台可以精确地记录和统计多个任务间GPU在资源使用的具体情况。

 

第三个需求主要是任务并行,以及资源隔离。当一个GPU集群使用数台或者数十台GPU服务器供给多人,或者一个部门下面多人使用的时候,多人之间可以共享使用GPU,同时控制员工学员共享GPU的时候做到资源隔离,任务运行的时候互相不会干扰。

 

差异化产品助力主流AI企业训练

 

CloudPAI平台设计精密,围绕六大核心功能(服务器集群管理、共享存储管理、GPU资源监控、GPU虚拟化、AI任务调度与排队)展开,紧密贴合市场需求。其架构分三层实施:系统层负责底层硬件配置与Kodotide客户端安装,实现物理GPU的虚拟化切分;容器层接收并管理这些虚拟化资源,确保容器内应用对VGPU的透明访问;管理层则通过KRS Work Docker引擎优化AI任务的编排与执行顺序,采用双层调度机制提升灵活性与效率。

 

关键技术——GPU虚拟化,通过将单一物理GPU细分为多个逻辑上的VGPU,不仅实现了资源的精细化管理和高效隔离,还最大限度减少了性能损失。即使在VGPU资源减半配置下,虽运算时间翻倍,但相较于传统服务器虚拟化,其性能损耗极低,几乎实现无损分割,极大增强了GPU资源的弹性和利用率。

 

CloudPAI目前可兼容主流的Linux操作系统,支持在NVIDIA CUDA8以后的所有版本方面(注:只支持 64 位 CUDA 容器和 CUDA 应用),以及Docker 19.03 及以后版本、Kubernetes 1.18及以后版本的云平台。值得一提的是GeForce显卡,因为在一些推理的场景,或者是因为现在市场像特斯拉的这种A卡或者H卡,其实它的价格包括一些市场都很贵,所以很多用户都选择这种GeForce卡,它有更高的性价比,目前这些GeForce卡的常用型号都可以支持。

 

云平台跟英伟达的显卡区域化对比来看,英伟达的MIG成本是最低的,这是英伟达显卡本身自带的一个功能,也是免费开放的。但其的缺点也很明显,它目前只支持A100、A30、H100这几款最高端的显卡,其他目前是都不支持的,而且它的切分是非常不灵活的,最大只能把一块物理显卡切分成7个实例,而且这7个实例必须等分,不能按需分配。其次英伟达的GRID卡及虚拟化,它的使用场景比较单一,只应用于桌面云的场景,而且从成本角度考虑,需要买英伟达的GRID的授权,同时还要买虚拟化的授权,它的成本很高,而且它的场景单一。最后是CloudPAI,它是实现在Linux内核上的,而且它对于GPU的切分是非常灵活的,同时对于性能的损耗是几乎为零,支持特斯拉、高者、GeForce这些显卡,而且从成本角度考虑,它是比较适中的。

 

CloudPAI可以使用容器运行GPU集散的任务,同时可以给多项多人共用GPU集群。包括操作系统,包括英伟达对于CUDA 版本的要求、安全性上,都要比业界或者是一些同类型的产品都要更好。

 

OpenPAI是微软公司开源的一个提供完整的人工智能模型训练和资源管理能力开源平台,它易于扩展,支持各种规模的on-premise、on-cloud和混合环境。开源的 OpenPAI 只支持物理卡为单位的粗粒度调度管理,CloudPAI 扩充支持的 OpenPAI 可以实现 vGPU 的细粒度管理调度能力。CloudPAI是在开源平台的基础上进行了二次的开发,可以实现VGPU的CPU的调度。

 

此外,企业可以使用自己的AI训练任务调度的平台,也可以把CloudPAI直接对接到平台上面,补齐平台对于VGPU管理的能力。

 

互联网公司中通常有数量巨大的GPU训练集群和推理集群,此方案价值就是对于训练和推理混合的场景,通过此方案可以保证线上推理的业务需求,然后实现显示推理GPU集群建设插件处理训练的任务,显著提高GPU统计效率获得巨大的经济效果。

 

其次在科研和开发的场景,不会有很大量的GPU复习,可能有数台或者数十台的GPU集群,但是需要给多个部门或者一个部门下面多个人来使用,那么就需要数十位的研究员或者工程师来共享使用这个GPU的资源。那么传统的使用方式只是通过这种粗粒度的安卡划分来给每个人来使用,当我一个人在使用时候,无法把个人的资源释放给别人来使用,易造成资源浪费。通过这个CloudPAI实现GPU复习资源的高效的灵活使用,提高GPU集群对项目的整体服务能力,保证高优先级项目的充分资源,提高低优先级任务的见缝插针,统计和统筹提高对GPU集群的管理和规划管理。

 

第三个场景主要是教学和实训,包括实验室或一些测试的场景,它对于AI训练或者推进任务输出结果的实效性不高,但是它主要是验证代码的正确性。对于这种场景,需要实现GPU教学设施有序使用,来保证实验和实训在操作中有序进展,提高GPU教学实行环境的综合管理和控制能力。

 

★ 结束语 ★

 

在当今快速发展的科技行业中,CloudPAI平台的出现恰逢其时,不仅顺应了国家发展战略的导向,也精准契合了市场对智能化、数字化转型的强烈需求,为解决AI算力资源紧张与高效利用的行业痛点提供了创新路径。它通过高度集成的管理与调度系统,实现了GPU资源的精细化运营,促进了AI技术在各行各业的融合与应用,成为推动行业生态变革、赋能未来社会发展的助力。

 

✦主办单位✦


CIO时代:
CIO时代成立于2003年,由北大CIO论坛创始人姚乐博士带领论坛骨干创建。成立20年来,CIO时代以传播“新技术、新商业、新管理”知识为使命,专注CIO人群的培养和技术专题培训,为CIO提供数字化相关的资讯和专业研究内容,打造CIO领域专业、精准、多维度的垂直媒体平台,致力于成为“个人和组织数字化业务、管理和技术知识的赋能者”。

新基建创新研究院:
新基建创新研究院是CIO时代旗下的智库研究机构,汇聚院士、政府领导、央国企、医疗、教育、能源、制造等十多个行业专家组建智库,拥有千余位智库专家阵容。研究院的主要目标是建立政府、科研机构、高校和行业数字化转型从业者之间的合作,发挥政、产、学、研的桥梁、纽带作用,促进政府与企业间、企业与企业间的交流合作,促进数字产业落地。研究院希望将数字化的优秀实践提炼成理论方法,进行推广应用;助力提升行业数字化转型效率,促进数字中国建设。


 

✦往期推荐✦
(点击下方图片查看详情)

\

 

添加CIO时代“小希”,
领取“2024数字化转型资料”大礼包!
\
小  希:15701060895
 

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:zhanghy

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。