2024全球AI芯片峰會(GACS 2024)近期在北京舉行。本屆峰會以「智算紀(jì)元 共筑芯路」為主題,全面展示AI芯片產(chǎn)業(yè)在算力、網(wǎng)絡(luò)、存儲、軟件、系統(tǒng)及應(yīng)用方面的前沿技術(shù)、最新成果與落地進(jìn)程。
云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍受邀參加峰會,并在大會上介紹了“算力積木”AI芯片架構(gòu)。
李愛軍在演講中提到,大模型的落地給邊緣AI芯片帶來全新挑戰(zhàn)。
場景具有豐富性和碎片性的特點(diǎn),用于邊緣的大模型的參數(shù)量從1。8B到13B不等,不同場景應(yīng)用對算力、內(nèi)存、帶寬的要求也不盡相同。因此,邊緣AI芯片需要有很強(qiáng)的靈活性和擴(kuò)展性,以滿足不同大模型落地不同場景的需求。
在此背景下,云天勵飛提出了“算力積木”AI芯片架構(gòu),讓芯片能夠像搭積木一樣靈活組建、靈活擴(kuò)展。
去年底云天勵飛正式發(fā)布的DeepEdge10系列芯片就是采用“算力積木”架構(gòu)設(shè)計的。
DeepEdge10系列芯片基于一個標(biāo)準(zhǔn)化的大模型計算單元打造,可實(shí)現(xiàn)1。8B大模型的實(shí)時高效推理。通過D2D Chiplet技術(shù)、C2C Mesh技術(shù)和C2C Mes Torus技術(shù),云天勵飛將標(biāo)準(zhǔn)計算單元像搭積木一樣,封裝成不同算力的芯片,可實(shí)現(xiàn)7B、14B、130B等不同參數(shù)量大模型在邊緣端的高效推理。
在標(biāo)準(zhǔn)化算力單元方面,云天勵飛也做了許多技術(shù)上的創(chuàng)新,以實(shí)現(xiàn)大模型在邊緣端的高效推理。
一是設(shè)計了近存計算架構(gòu),可實(shí)現(xiàn)Transformer計算的超低延時。通過可編程路由引擎,可以實(shí)現(xiàn)高效分布式的并行計算。
二是通過自研的多Router協(xié)同機(jī)制,可以有效地提高大模型的參數(shù)數(shù)據(jù)響應(yīng)速度,滿足高效推理的需求。
三是在C2C Mesh Torus結(jié)構(gòu)上,通過自適應(yīng)Router結(jié)構(gòu),減少數(shù)據(jù)搬運(yùn)次數(shù),減少計算對帶寬的需求。
通過上述技術(shù)創(chuàng)新,云天勵飛實(shí)現(xiàn)了8×16個標(biāo)準(zhǔn)“算力積木”單元的Mesh Torus架構(gòu)互聯(lián),可提供2048Tops統(tǒng)一管理智能算力、512GB統(tǒng)一尋址內(nèi)存容量、3840GB/s統(tǒng)一調(diào)度內(nèi)存帶寬。
未來,云天勵飛還會推出基于Mesh Torus架構(gòu)的大模型邊緣推理一體機(jī):IPU X6000-Mesh 4U Server,以高峰值算力與突出的能效比支持大模型的單機(jī)部署,包括7B、70B、MoE等主流大模型的邊緣側(cè)推理部署。
云天勵飛一直堅(jiān)持走芯片自主研發(fā)路線,希望能夠通過架構(gòu)創(chuàng)新,在國產(chǎn)工藝上實(shí)現(xiàn)芯片性能的突破,為行業(yè)帶來更高性價比的產(chǎn)品。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。