北电数智优化算力资源配置，提升算力中心利用率-数控专题

北电数智优化算力资源配置，提升算力中心利用率

时间:2025-02-10 作者: 来源:中国工控网

近年来，全国范围的算力基础设施建设如火如荼地进行中，除了北京、上海、深圳等一线城市，各个县域级地区也在积极加速布局。但由于性能不足、无法满足AI大模型时代的特点场景算力需求、数据中心和当地产业需求不匹配等问题，算力中心的整体利用率仅有50%左右、闲置率较高，仅以算力规模、集群规模来衡量算力性能，显然已无法适应数字经济快速发展的需求。

北京电子数智科技有限责任公司（以下简称“北电数智”）提出了“算力最优解”理念，并基于人工智能行业的发展与算力需求的迭代，进一步细化算力评价标准。北电数智认为“算力最优解”需要做到“三加一保障”，即加速单芯片算力，加强混元异构集群性能，加大通信能力，保障智算集群训练安全、稳定运行。

北电数智是⼀家专注于原创性、颠覆性、引领性科技创新的人工智能科技企业，在算力、算法和数据等方面实现了全栈产品和解决方案布局，并于2024年5月，获得甲子光年“AI算力层创新企业奖”。

打通集合通信库解决通信问题，提升AI大模型训练性能

在万卡集群时代，通信能力直接制约着AI大模型训练时的数据传输效率。高效、稳定、低延迟的网络对于智算中心的建设和运行意义重大。在硬件层面，NVLink、HCCS互联等方式可以有效提高卡间互联通信能力；在协议层面，通过RDMA降低多机端到端的通信时延，提高节点间传输速率，有效改善智算集群的通信效率。此外，在软件层面，集合通信库控制着各GPU、各服务器之间的数据通信，异构卡的通信库差异会为异构卡之间带来通信难题。北电数智通过打通各厂家的集合通信库来解决不同GPU芯片之间的通信问题，对通信库进行深度适配和优化，通过标准化的分布式通信接口确保异构集群内的信息交换；并且通过时间重叠等策略，将计算过程和通信过程互相重叠，减少通信延迟对整体训练性能的影响。

广泛纳管，保证算力集群稳定运行

万卡集群有较多的硬件种类和数量，每一颗元器件都有硬件失效率，每个硬件的失效都会影响到整体智算集群训练。想要实现算力最优解，就需要一个高效可靠的智能云管平台，提供实时智能监控来实现分钟级的软硬件故障定位，并实现故障的自动检测和修复。北电数智前进·AI异构计算平台支持多款国产芯片的广泛纳管，帮助用户实现对不同品牌、类型AI加速卡的统一管理，以确保各类AI芯片的无缝集成和优化利用。广泛的纳管能力也让用户能够根据具体需求，灵活地调整资源配置，优化算力供给满足各类训练推理任务。

“三加一保障”是北电数智在AI大模型渗透千行百业的当下提出的算力最优解方案，不仅可以优化算力的配置、提升算力资源的利用率，还为企业走向智能化、AI化提供了实现路径。值得一提的是，2024年8月21日，“前进·AI异构计算平台”还入选了北京首批“人工智能+”应用场景案例，标志着项目在应用落地方面又迈出了坚实的一步。未来，北电数智也将继续为各行业提供成本低、高性能、稳定的算力供应，为数字中国的建设贡献力量。

更多精彩内容，可关注“北电数智AI江湖”⼩程序。

审核编辑(