数控装备专题>>资讯>>资讯>>内容阅读
北电数智优化算力资源配置,提升算力中心利用率

近年来,全国范围的算力基础设施建设如火如荼地进行中,除了北京、上海、深圳等一线城市,各个县域级地区也在积极加速布局。但由于性能不足、无法满足AI大模型时代的特点场景算力需求、数据中心和当地产业需求不匹配等问题,算力中心的整体利用率仅有50%左右、闲置率较高,仅以算力规模、集群规模来衡量算力性能,显然已无法适应数字经济快速发展的需求。

北京电子数智科技有限责任公司(以下简称“北电数智”)提出了“算力最优解”理念,并基于人工智能行业的发展与算力需求的迭代,进一步细化算力评价标准。北电数智认为“算力最优解”需要做到“三加一保障”,即加速单芯片算力,加强混元异构集群性能,加大通信能力,保障智算集群训练安全、稳定运行。

北电数智是⼀家专注于原创性、颠覆性、引领性科技创新的人工智能科技企业,在算力、算法和数据等方面实现了全栈产品和解决方案布局,并于2024年5月,获得甲子光年“AI算力层创新企业奖”。

打通集合通信库解决通信问题,提升AI大模型训练性能

在万卡集群时代,通信能力直接制约着AI大模型训练时的数据传输效率。高效、稳定、低延迟的网络对于智算中心的建设和运行意义重大。在硬件层面,NVLink、HCCS互联等方式可以有效提高卡间互联通信能力;在协议层面,通过RDMA降低多机端到端的通信时延,提高节点间传输速率,有效改善智算集群的通信效率。此外,在软件层面,集合通信库控制着各GPU、各服务器之间的数据通信,异构卡的通信库差异会为异构卡之间带来通信难题。北电数智通过打通各厂家的集合通信库来解决不同GPU芯片之间的通信问题,对通信库进行深度适配和优化,通过标准化的分布式通信接口确保异构集群内的信息交换;并且通过时间重叠等策略,将计算过程和通信过程互相重叠,减少通信延迟对整体训练性能的影响。

广泛纳管,保证算力集群稳定运行

万卡集群有较多的硬件种类和数量,每一颗元器件都有硬件失效率,每个硬件的失效都会影响到整体智算集群训练。想要实现算力最优解,就需要一个高效可靠的智能云管平台,提供实时智能监控来实现分钟级的软硬件故障定位,并实现故障的自动检测和修复。北电数智前进·AI异构计算平台支持多款国产芯片的广泛纳管,帮助用户实现对不同品牌、类型AI加速卡的统一管理,以确保各类AI芯片的无缝集成和优化利用。广泛的纳管能力也让用户能够根据具体需求,灵活地调整资源配置,优化算力供给满足各类训练推理任务。

“三加一保障”是北电数智在AI大模型渗透千行百业的当下提出的算力最优解方案,不仅可以优化算力的配置、提升算力资源的利用率,还为企业走向智能化、AI化提供了实现路径。值得一提的是,2024年8月21日,“前进·AI异构计算平台”还入选了北京首批“人工智能+”应用场景案例,标志着项目在应用落地方面又迈出了坚实的一步。未来,北电数智也将继续为各行业提供成本低、高性能、稳定的算力供应,为数字中国的建设贡献力量。

更多精彩内容,可关注“北电数智AI江湖”⼩程序。


审核编辑(
Copyright 版权所有 Copyright 2013-2020 福建省云创集成科技服务有限公司 共建合作:中国协同创新网
All Rights Reserved. 运营维护:三明市明网网络信息技术有限公司 业务咨询:0598-8233595 0598-5831286 技术咨询:0598-8915168