人工智能產(chǎn)業(yè)的蓬勃發(fā)展推動(dòng)算力規(guī)模快速增長、算力結(jié)構(gòu)不斷優(yōu)化,多元化算力發(fā)展趨勢日益凸顯。近日,紫光股份旗下新華三集團(tuán)在以“×AI”(乘AI)為主題的2024媒體與分析師溝通會(huì)上,重磅發(fā)布智算網(wǎng)絡(luò)解決方案,將充分發(fā)揮“算力×聯(lián)接”的倍增效應(yīng),以標(biāo)準(zhǔn)化聯(lián)接支撐多元算力釋放。新華三將通過對(duì)算力和聯(lián)接技術(shù)進(jìn)行最佳的調(diào)優(yōu)與配合,打造一張全面滿足異構(gòu)算力需求的開放性網(wǎng)絡(luò),為智算中心不同規(guī)模的算力聯(lián)接提供最優(yōu)選擇。
多元算力成主流 開放網(wǎng)絡(luò)價(jià)值凸顯
AI大模型的火熱帶動(dòng)各類專用算力芯片需求激增,智能算力占比逐步提升,多元異構(gòu)計(jì)算體系成為主流模式。在實(shí)際場景中,算力體系已形成龐大的生態(tài)系統(tǒng),涉及大量計(jì)算單元內(nèi)部的信息交互,網(wǎng)絡(luò)不僅是連接算力單元的紐帶,更決定了算力調(diào)度、數(shù)據(jù)流通的效率與穩(wěn)定性。對(duì)此,新華三集團(tuán)認(rèn)為,解決CPU、GPU、網(wǎng)卡、光模塊等異構(gòu)組件間的互聯(lián)問題,打造開放解耦、靈活擴(kuò)展的網(wǎng)絡(luò)聯(lián)接,是構(gòu)建多元融合智算體系的關(guān)鍵所在。通過將網(wǎng)絡(luò)平臺(tái)和智算平臺(tái)解耦,可以充分發(fā)揮算力生態(tài)中各領(lǐng)域的優(yōu)勢,實(shí)現(xiàn)資源共享和高效協(xié)作,幫助客戶享有先進(jìn)的AI智算平臺(tái)、優(yōu)秀的網(wǎng)絡(luò)設(shè)備和高品質(zhì)的聯(lián)接介質(zhì)。此外,用戶可利用以太網(wǎng)開放標(biāo)準(zhǔn)特質(zhì),逐步構(gòu)建大規(guī)模智算集群,實(shí)現(xiàn)與現(xiàn)有設(shè)施的無縫互通,并根據(jù)業(yè)務(wù)需求靈活擴(kuò)展升級(jí)。
智算網(wǎng)絡(luò)解決方案 探索打通異構(gòu)算力的開放網(wǎng)絡(luò)
為滿足更加嚴(yán)苛的智算需求,新華三集團(tuán)探索全新智算網(wǎng)絡(luò)解決方案,以靈活多樣的組網(wǎng)方式、以及全場景網(wǎng)絡(luò)調(diào)優(yōu)技術(shù)滿足不同場景、不同規(guī)模的智算中心網(wǎng)絡(luò)建設(shè)需求,全面增強(qiáng)網(wǎng)絡(luò)對(duì)于多元異構(gòu)算力的承載能力。
●業(yè)界最全產(chǎn)品布局支持全模型組網(wǎng):智算網(wǎng)絡(luò)建設(shè)重視開放性、可部署性和擴(kuò)展性,要求產(chǎn)品形態(tài)多樣且支持開放協(xié)議。新華三擁有支持200G/400G/800G不同端口密度且形態(tài)豐富的交換機(jī)產(chǎn)品,支持單框單層、盒-盒兩層、框-盒兩層等多種靈活組網(wǎng)架構(gòu),提供了開放性、兼容性、擴(kuò)展性、穩(wěn)定性極強(qiáng)的網(wǎng)絡(luò)環(huán)境和端到端異構(gòu)互聯(lián)保障。
●全局負(fù)載均衡帶來極致帶寬利用率:傳統(tǒng)負(fù)載均衡技術(shù)難以適應(yīng)AIGC集群訓(xùn)練中通信流量擁塞敏感性高、低時(shí)延、高吞吐等需求,易導(dǎo)致負(fù)載分擔(dān)不均、整網(wǎng)吞吐下降等問題,影響訓(xùn)練效率。新華三提出SprayLink端網(wǎng)融合、LBN&DLB、FGLB全局負(fù)載均衡、分布式解耦機(jī)框DDC架構(gòu)等在內(nèi)的負(fù)載均衡技術(shù)組合,可提高網(wǎng)絡(luò)帶寬利用率至95%,實(shí)現(xiàn)全場景智算網(wǎng)絡(luò)調(diào)優(yōu)。
●數(shù)據(jù)面自愈技術(shù)實(shí)現(xiàn)微秒級(jí)故障收斂:網(wǎng)絡(luò)設(shè)備通常是轉(zhuǎn)控分離的,在發(fā)生故障時(shí),通過控制面進(jìn)行表項(xiàng)刷新、路徑重算后下發(fā)到數(shù)據(jù)面,實(shí)現(xiàn)故障收斂。而這種處理方式所消耗的時(shí)間,在智算場景下影響巨大。針對(duì)智算場景中遠(yuǎn)端鏈路負(fù)載和故障檢測以及流量實(shí)時(shí)調(diào)整需求,新華三推出DPSH數(shù)據(jù)面自愈技術(shù),支持本地或遠(yuǎn)端鏈路Down后的流量快速切換,整個(gè)流量切換周期從毫秒級(jí)降低至微秒級(jí),用戶側(cè)對(duì)鏈路故障無感知。
為AI算力場景而生 算力集群交換機(jī)提升智算網(wǎng)絡(luò)整體可用性
為進(jìn)一步提升智算網(wǎng)絡(luò)整體可用性,新華三集團(tuán)同步推出基于DDC架構(gòu)(Disaggregated Distributed Chassis分布式解耦機(jī)框)的算力集群核心交換機(jī)H3C S12500 AI系列,旨在為用戶提供更具擴(kuò)展性、更易運(yùn)維管理、更具成本效益的分布式解耦機(jī)框方案。
作為專為AI算力場景設(shè)計(jì)的產(chǎn)品,H3C S12500 AI系列具備信元級(jí)負(fù)載均衡、原生無損、超大規(guī)模的優(yōu)勢。其基于信元交換實(shí)現(xiàn)GPU解耦,對(duì)任意流量模型均能達(dá)到最佳負(fù)載均衡效果,確保100%無損傳輸,且最大可支持32K(400G)GPU卡,擺脫了傳統(tǒng)框式設(shè)備端口容量上限。依托強(qiáng)大的生態(tài)解耦能力和優(yōu)秀的算力網(wǎng)絡(luò)性能,H3C S12500 AI系列可為用戶構(gòu)建天然零丟包的無損網(wǎng)絡(luò),提供自動(dòng)化部署以及NCF與NCP的自組網(wǎng)能力,新增網(wǎng)元上線即可用,并且在網(wǎng)元失效時(shí)實(shí)現(xiàn)微秒級(jí)的拓?fù)涫諗克俣?#xff0c;是異構(gòu)GPU互聯(lián)的最佳選擇。
此外,在異構(gòu)算力網(wǎng)絡(luò)的構(gòu)建過程中,新華三將持續(xù)推進(jìn)服務(wù)器內(nèi)、外部GPU聯(lián)接的標(biāo)準(zhǔn)化,實(shí)現(xiàn)異構(gòu)GPU的智算集群,降低算力部署和應(yīng)用的成本,并通過軟件生態(tài)的標(biāo)準(zhǔn)化,打通智算孤島,促進(jìn)資源共享與產(chǎn)業(yè)共同繁榮。
網(wǎng)絡(luò)是數(shù)字經(jīng)濟(jì)的載體,算力是數(shù)字經(jīng)濟(jì)的引擎,網(wǎng)絡(luò)與算力的相互協(xié)同,將更好的推動(dòng)數(shù)字經(jīng)濟(jì)蓬勃發(fā)展。面向AIGC時(shí)代的算力需求與挑戰(zhàn),新華三集團(tuán)將秉持“精耕務(wù)實(shí),為時(shí)代賦智慧”的理念,全力打造超高帶寬、超低時(shí)延、超高可靠的高品質(zhì)智算網(wǎng)絡(luò),為百行百業(yè)的數(shù)智發(fā)展注入強(qiáng)勁動(dòng)能。
相關(guān)稿件