今年8月,集成1.2萬(wàn)億個(gè)晶體管的“史上最大芯片”The Cerebras Wafer Scale Engine(簡(jiǎn)稱WSE)誕生,在11月19日召開的Supercomputing 2019大會(huì)上,該芯片制造公司Cerebras Systems推出了搭載該芯片的計(jì)算機(jī)系統(tǒng)——Cerebras CS-1,這也將是世界上最強(qiáng)大的AI計(jì)算系統(tǒng)。美國(guó)兩家國(guó)家實(shí)驗(yàn)室是該公司的客戶,其中阿貢國(guó)家實(shí)驗(yàn)室已成功部署并宣布,將用這套系統(tǒng)發(fā)現(xiàn)癌癥療法和理解黑洞碰撞。
圖| Cerebras CS-1
通常,硅芯片是從8、10或12英寸等不同規(guī)格的晶圓上單獨(dú)切下來(lái)的。而CS-1搭載的并不是一個(gè)芯片,而是一整個(gè)晶圓,它把晶圓切割成一個(gè)很大的長(zhǎng)方形,每個(gè)芯片都相互連接,可以使每個(gè)晶體管都能像整體一樣高速運(yùn)轉(zhuǎn)。一個(gè)典型處理器可能在一個(gè)芯片上有100億個(gè)晶體管,而CS-1搭載的整個(gè)晶片上所有核的晶體管總數(shù)超過(guò)1.2萬(wàn)億個(gè)。
在AI計(jì)算中,芯片尺寸至關(guān)重要,但是高級(jí)處理器必須要有專用的硬件和軟件系統(tǒng)相配合才能實(shí)現(xiàn)理想的性能。CS-1系統(tǒng)設(shè)計(jì)和Cerebras軟件平臺(tái)相結(jié)合,可以充分用到從WSE上的40多萬(wàn)個(gè)計(jì)算內(nèi)核和18 GB高性能片上存儲(chǔ)器中提取的每一點(diǎn)的處理能力。
圖| Cerebras晶片規(guī)模的引擎
而且,CS-1不需要大量修改現(xiàn)有模型,并且用戶只需將基于標(biāo)準(zhǔn)的100Gb以太網(wǎng)鏈路插入交換機(jī)就可以啟動(dòng)培訓(xùn)模型。
CS-1有15個(gè)機(jī)架,大概是26英寸高(66.04厘米)。研究人員Andrew Feldman表示,CS-1是“最快的AI計(jì)算機(jī)”。CS-1計(jì)算機(jī)的機(jī)器學(xué)習(xí)能力相當(dāng)于數(shù)百架基于GPU的計(jì)算機(jī)能力,這些計(jì)算會(huì)消耗數(shù)百千瓦。但CS-1僅消耗17千瓦,占標(biāo)準(zhǔn)機(jī)架能耗的三分之一。他把CS-1和谷歌的TPU計(jì)算集群相比,強(qiáng)調(diào)谷歌的TPU2機(jī)器學(xué)習(xí)集群需要10個(gè)機(jī)架和超過(guò)100千瓦的功耗,才能提供一個(gè)CS-1機(jī)箱三分之一的性能。
Feldman說(shuō):“我們是由40萬(wàn)個(gè)專用AI處理器組成的AI機(jī)器?!盋S-1由40萬(wàn)核、1萬(wàn)億晶體管大小的處理器芯片驅(qū)動(dòng),可將原本需要至少幾周的大型神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)縮短到幾分鐘甚至幾秒鐘。同時(shí),它通過(guò)讓潛在客戶在Cerebras的機(jī)器上訓(xùn)練他們自己的神經(jīng)網(wǎng)絡(luò)模型吸引潛在客戶。
另外,Cerebras還公布了一些系統(tǒng)軟件的細(xì)節(jié),該軟件允許用戶使用Pytorch和Tensorflow之類的ML標(biāo)準(zhǔn)框架編寫他們的機(jī)器學(xué)習(xí)模型。強(qiáng)大的圖形編譯器可自動(dòng)將這些模型轉(zhuǎn)換為CS-1的優(yōu)化可執(zhí)行文件,而豐富的工具集可實(shí)現(xiàn)直觀的模型調(diào)試和性能分析。
圖| Cerebras軟件系統(tǒng)允許用戶使用Pytorch和Tensorflow之類的ML標(biāo)準(zhǔn)框架來(lái)編寫他們的機(jī)器學(xué)習(xí)模型
CS-1的第一個(gè)應(yīng)用是預(yù)測(cè)癌癥藥物反應(yīng),這是美國(guó)能源部和美國(guó)國(guó)家癌癥研究所合作的一個(gè)項(xiàng)目。能源部負(fù)責(zé)人工智能與技術(shù)的副部長(zhǎng)Dimitri Kusnezov在一份聲明中說(shuō):“在能源部,我們相信公私合作是加速美國(guó)人工智能研究的重要組成部分?!薄拔覀兤诖cCerebras建立長(zhǎng)期而富有成效的合作關(guān)系,這將有助于定義下一代人工智能技術(shù),并改變能源部的運(yùn)作、業(yè)務(wù)和使命。”或許這也是Feldman能籌集到數(shù)億美元并雇用大量員工的原因。
圖|阿貢實(shí)驗(yàn)室(Argonne National Laboratory)
阿貢實(shí)驗(yàn)室與Cerebras的合作已經(jīng)有兩年了。其計(jì)算總監(jiān)Rick Stevens在新聞發(fā)布會(huì)上表示:“通過(guò)部署CS-1,我們大大縮短了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間,使研究人員能夠更高效地開展深度學(xué)習(xí)研究,在癌癥、創(chuàng)傷性腦損傷以及當(dāng)今和未來(lái)對(duì)社會(huì)有重要意義的其他領(lǐng)域取得重大進(jìn)展?!?/span>
阿貢實(shí)驗(yàn)室是全球最大的超級(jí)計(jì)算機(jī)站點(diǎn)之一,而CS-1可以使這個(gè)站點(diǎn)比現(xiàn)有的AI加速器得到100到1000倍的提升,有望在2021年實(shí)現(xiàn)Aurora百萬(wàn)兆級(jí)超算的能力。一臺(tái)百萬(wàn)兆級(jí)的計(jì)算機(jī)一瞬間進(jìn)行的計(jì)算量,相當(dāng)于地球上的所有人每天每秒都不停地計(jì)算四年。
除了用在研究抗癌藥物之外,該系統(tǒng)還將被用來(lái)幫助理解黑洞碰撞行為及其引力波。此前做過(guò)類似研究的Theta超級(jí)計(jì)算機(jī),在研究黑洞碰撞問(wèn)題時(shí)需要調(diào)動(dòng)超算所配置的4392個(gè)節(jié)點(diǎn)中的1024個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含了一個(gè)64核處理器和16 GB的高帶寬封裝內(nèi)存(MCDRAM),192 GB的DDR4 RAM和128 GB的SSD。