郑纬民：支持大模型训练/推理的计算机系统研究与思考 | CXO主笔团 - 学院活动_CIO时代网

首页 > CIO班 > 学院活动 > 正文

郑纬民：支持大模型训练/推理的计算机系统研究与思考 | CXO主笔团

2024-12-25 09:20:32 来源：抢沙发

2024-12-25 09:20:32 来源：

摘要：AI大模型的构建与优化过程中，算力是核心问题。智能算力快速发展过程中，构建“国产万卡系统”至关重要。应加大软件研发投入，优化软件生态，以此推动智能算力高质量发展。
关键词：算力智能算力 CXO主笔团

郑纬民

中国工程院院士

清华大学高性能计算所所长

算力百人会专家委主任

1970年毕业于清华大学并留校任教，1982年获硕士学位。曾任中国计算机学会第十届理事长。长期从事并行/分布处理、大规模数据存储系统领域的科研与教学工作。曾获国家科技进步一等奖1次、国家科技进步二等奖2次，国家发明二等奖1次。2016年获何梁何利基金科学与技术进步奖。2016年获ACM戈登.贝尔奖。与合作者一起发表论文530余篇，著作10部。教学方面长期讲授计算机系统结构课程，2008年被评为国家级精品课程；已编写和出版计算机系统结构教材和专著10本。

主笔强调

AI大模型的构建与优化过程中，算力是核心问题。智能算力快速发展过程中，构建“国产万卡系统”至关重要。应加大软件研发投入，优化软件生态，以此推动智能算力高质量发展。

近年来，算力的发展速度之快令人瞩目，主要得益于两个关键因素：一是国家层面推行的“东数西算”政策，极大地促进了算力的布局与优化；二是AI大模型的兴起，对算力提出了前所未有的需求。

算力发展及大模型应用

今年无疑是AI大模型具有里程碑意义的一年，大模型的发展呈现出了两个鲜明的特点：一是多模态时代的到来，从最初的文字处理，到图像识别，再到视频分析，直至如今涵盖文字、图像、视频等多种信息形式的多模态处理，大模型的应用场景愈发广泛；二是大模型真正进入了应用阶段，金融、医疗、汽车、智能制造等各行各业都开始融入大模型的技术，实现了从理论到实践的跨越。

尽管与美国等发达国家相比，我们在大模型本身的研发上还存在一定差距，但当将大模型与各行各业相结合，即“大模型+X”时，却有望取得超越美国的优势。

在大模型的生命周期中，“数据获取”是至关重要的一环。为了训练出高效、准确的大模型，我们需要从世界各地的网站上获取大量的数据。对于计算机专业人士而言，如何高效地管理这些文件，确保它们在硬盘中的位置易于查找和读取是个大挑战。分布式存储虽然解决了存储问题，却给读取带来了困难，过程耗时较长，影响了大模型的运行效率。

因此，如何优化数据获取和存储的过程，提高文件的读取速度，成为当前亟待解决的问题。

大模型训练过程中的挑战及对策

在数据处理和模型构建的流程中，至关重要的事情便是数据预处理及模型训练。训练大模型时，通常需要大量算力支持。由于显卡数量庞大，系统可能每小时都会出现垂直错误，频繁的错误不仅会浪费大量的时间和资源，还会严重影响训练效率。

一种称为“检查点”方法，则极大地提高了训练效率，减少了因错误而导致的重复劳动。在医疗领域等特定应用场景中，由于训练数据有限，模型的泛化能力和准确性往往受到限制，因而需要收集更多的领域数据，并构建针对特定领域的模型。

模型训练完成后，还需要进行模型推理，这是将训练好的模型应用到实际场景中的关键步骤。在模型推理过程中，同样需要算力支持，以确保模型能够高效地运行并输出准确的结果。

大模型构建领域，可大致将参与者分为三类公司——第一类公司专注于大模型本身的研发，致力于模型的深度研究和创新；第二类公司是将大模型应用于各个领域，通过大模型的赋能提升行业的智能化水平；第三类公司专注于支持大模型的计算机系统研发，致力于优化计算机系统的性能，以满足大模型训练和推理的高算力需求。

大模型构建与优化的过程中，算力是一个核心问题。无论是训练还是推理，都需要强大的算力支持。清华大学团队开发了一套名为“八卦炉”的智算系统核心基础软件，该系统包含了并行系统、编程框架、AI编译器、算子库等多个关键软件，共同构成了支持大模型训练和推理的完整生态。通过将这些软件与国产硬件相结合，可显著提升系统的性能和效率。

目前，我们已经与国内多家企业伙伴进行了深入的合作，通过在“八卦炉”系统上进行优化，这些公司的AI卡性能得到了显著提升，通过将这些公司的技术与“八卦炉”系统相结合，可以为用户提供更加智能、高效和经济的解决方案。

智能算力面临的挑战与对策

智能算力快速发展过程中，算力存储器不足是个棘手问题。当面对大量用户同时使用时，存储器容量往往成为制约性能提升的瓶颈。

对此，我们提出了一种创新的解决方案——公共部分存储优化。通过观察发现，不同用户在进行推理时，很多问题具有共性，因此可将公共部分的数据统一存储，无需为每个用户的每个步骤都分配存储空间。此前清华大学MADSys实验室与月之暗面Kimi合作推出的“mooncake”系统便采用了这一技术，成功解决了存储器不足的问题。

存储器问题解决了，还需要关注“国产万卡系统”的构建。构建“国产万卡系统”并非易事，既需要解决硬件兼容性问题，又需要优化软件生态。目前“国产万卡系统”在性能上还存在一定差距，但只要我们持续投入研发，不断优化软硬件性能，相信未来“国产万卡系统”定能与国际先进水平比肩。

在构建“国产万卡系统”的过程中，还需避免一些常见的误区。例如，将不同品牌、不同型号的万卡混合使用进行联合训练，这种做法往往效果不佳。不同万卡之间的指令集、数据传输速度等存在差异，混合使用会导致性能下降，甚至无法正常工作。因此，在构建万卡系统时，应选择性能相近、兼容性好的万卡进行组合。

此外，对于异地万卡联合训练的问题，我们也应持谨慎态度。由于网络延迟和带宽限制，异地联合训练往往难以达到理想效果。因此，在可能的情况下，应优先考虑在同一地点部署万卡进行训练。

在智能算力市场方面，我们观察到高端算力市场供不应求，而中低端算力市场则供过于求。这主要是由于中低端算力市场的软件生态不成熟，导致用户体验不佳，从而影响了算力资源的利用率。为了提升中低端算力市场的利用率，我们应加大软件研发的投入，优化软件生态，提升用户体验。

写在最后

清华大学团队研发的“八卦炉”系统包含的十个软件在提升算力资源利用率方面发挥了重要作用。通过优化这些软件，可降低对硬件资源的依赖，从而提升系统的整体性能。未来，我们将继续加大软件研发的投入，为智能算力的发展贡献更多力量。

✦精彩推荐✦

（点击下方图片查看详情）

添加CIO时代“小希”，

领取“2024数字化转型资料”大礼包！

小希：15701060895

第四十届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：zhanghy

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。