史上最大芯片是里程碑,還是“里程悲”?
用一片12吋晶圓產出一顆芯片,這簡直就是暴殄天物。要知道一片12吋晶圓目前大客戶的合約單價也能達到100美元以上,興建一條12吋晶圓產線更是需要超過200億元人民幣。也有業(yè)內人士這樣點評:最大芯片是怎么來的?它的尺寸是因為現(xiàn)在量產晶圓最大就這么大,晶體管數(shù)量是因為16nm只能夠放進去這么多。
難道,史上最大的芯片就是博眾人眼球的作品。然而,當你知道這個每邊長大約9英寸的芯片能夠實現(xiàn)什么的時候,可能你又會覺得這樣做也不是不可以。
史上最大芯片誕生
根據外媒的報道,這顆大芯片采用臺積電16nm制程制造,面積42225 平方毫米,擁有1.2萬億個晶體管,400000 個核心,片上內存18 Gigabytes,內存帶寬19 PByte/s,fabric帶寬100 Pbit/s。它就是近幾天火爆網絡的史上最大芯片Cerebras Wafer Scale Engine(以下簡稱:Cerebras WSE)。
Cerebras WSE由人工智能初創(chuàng)公司Cerebras Systems(以下簡稱:Cerebras)推出,該公司成立于2016年,并在當年拿到了來自于Benchmark的2500萬美元的A輪投資。值得一提的是,有機構在2017年全球五大值得關注的AI芯片公司榜單中就列舉了Cerebras。
Cerebras的創(chuàng)始人是芯片業(yè)界的老兵——50歲的Andrew Feldman,他也是這家公司的CEO。瀏覽他的過往履歷會發(fā)現(xiàn),他還曾參與創(chuàng)立小型服務器公司SeaMicro,同樣出任CEO,后來這個公司賣給了AMD,作價3.34億美元。此后,Andrew Feldman在AMD做了兩年半的副總裁。
準確地說,Cerebras帶有一定的光環(huán),但并不耀眼,如果不是這個史上最大芯片的出現(xiàn)甚至可以說有一點名不見經傳。但是,隨著Cerebras WSE發(fā)布之后,全球芯片界都在關注這顆芯片、這家公司,甚至是這家公司的員工。
和我們過往習慣的“摩爾定律”相反,這顆芯片走向了另一個“極端”,試想如果晶圓尺寸允許,可能它的邊長甚至會超過9英寸。當然這只是設想。
如此巨大的芯片能夠干什么呢?
首先是算力的大幅度提升。讓我們重溫一下這些恐怖的數(shù)字:1.2 萬億個晶體管和400000 個核心。如果以純數(shù)字論來說,前一個數(shù)字并不是目前最高的,三星在實現(xiàn)閃存芯片eUFS時做到了2萬億個的數(shù)量。區(qū)別在于Cerebras WSE專為流程加工而設計,以能夠讓400000個核心高性能運轉,它就是一個超級計算機。讓人吃驚的一點是,Cerebras不僅給了Cerebras WSE更多的AI核心,并且在計算方式上也高人一籌,芯片內部采用的稀疏線性代數(shù)核(Sparse Linear Algebra Cores, SLAC),永遠不會乘以零,這讓算力得到了更充分的利用。Feldman表示,Cerebras WSE訓練AI系統(tǒng)的速度可以比現(xiàn)有硬件快100到1000倍。
當然,Cerebras WSE不僅是算的更快,而且其存儲性能也是和算力匹配的,高于目前主流GPU內存性能的3000倍。片上內存18 Gigabytes的威力可見一斑。再配備以19 PByte/s的內存帶寬,這讓該芯片不僅存的夠多,也存的夠快。
針對目前AI行業(yè)飽受詬病的延遲問題,這顆芯片也給出更優(yōu)解。Cerebras WSE通過Swarm通信結構連接在一個帶有100 Pb/s帶寬的2D網格中。對于每個神經網絡,Swarm提供獨特且優(yōu)化的通信路徑。因此,該芯片也具備更出色的高帶寬和低延遲性能。
對于史上最大芯片的發(fā)布,國內外科技愛好者都是一片叫好。
Linley Group首席分析師Linley Gwennap表示:“Cerebras憑借其晶圓級技術實現(xiàn)了巨大的飛躍,在單片硅上實現(xiàn)了比任何人想象的更多的處理性能?!?/p>
Tirias Research首席分析師兼創(chuàng)始人Jim McGregor講到:“隨著人工智能的發(fā)展,硅和平臺解決方案也在不斷發(fā)展。Cerebras WSE是半導體和平臺設計領域令人驚嘆的工程成就,可在單晶圓級解決方案中提供超級計算機的計算,高性能存儲器和帶寬?!?/p>
專用處理器和SoC架構師唐杉興奮地說:“膜拜一下Cerebras的巨型芯片,每邊大約9英寸,22cm。我記得我之前寫文章還畫過一個類似的對比圖。[機智]Wired的文章,看來Cerebras要走到前臺了?!?/p>
……
大芯片并不是突發(fā)奇想
將芯片做大并不是Cerebras的首創(chuàng),早在上世紀七八十年代就已經有人開始做這方面的嘗試了。
1980年成立的Trilogy當時拿著2.3億美元的資金做超大芯片,不過由于難度過大,該項目僅僅持續(xù)了5年時間。
近一兩年,半導體產業(yè)信賴的“摩爾定律”進展遲緩之后,先進封裝工藝和超大芯片都開始被重點關注,且都取得了一定的成果。
大家一定對一年半以前的英偉達GTC(GPU Technology Conference)大會記憶猶新,因為就是這場盛會,讓我們有幸見證了史上最大、最貴GPU的誕生。這款GPU的名字是Nvidia DGX-2。
DGX-2雙板總計16塊GPU,總計512GB HBM2 存儲,具有12個NVSwitch。DGX-2 的算力可達 2 千萬億次浮點運算,功耗 10 千瓦。當然,這樣做的成本也是高昂的,這個最大的GPU售價達到了39.9萬美元。
對于英偉達DGX-2的發(fā)布,英偉達CEO黃仁勛表示:“人生完整了?!?/p>
顯然,市場對于英偉達發(fā)布的最大GPU并不買賬,發(fā)布會之后英偉達股價跌幅達到了6.64%。
說完最大的GPU,我們看一下最大的FPGA。就在幾天前,各大FPGA粉絲群里面有一個新聞刷屏了,那就是賽靈思推出了史上最大的FPGA芯片“Virtex UltraScale+ VU19P”。該芯片擁有多達350億個晶體管,密度在同類產品中也是最大的,相比上代Virtex UltraScale VU440增大了1.6倍,而功耗降低了60%。從晶體管數(shù)量來看,超過了AMD 64核心的二代霄龍和英偉達GV100。
馬克杯口大小的FPGA,汽車后備箱大小、重大300斤的GPU,還有就是一片晶圓一顆芯片的Cerebras WSE。到底是什么在驅動芯片越做越大?
尋覓通用人工智能的硬件最優(yōu)解
不管是各界人士的評論里,還是產品的介紹里,最大芯片們都有一個共同的標簽,那就是人工智能。
是的,人工智能出來了許多年,也火了許多年。但是,現(xiàn)在的人工智能讓很多地方政府和投資機構覺得像“雞肋”,實在是食之無味,棄之可惜。造成這一局面的一個很重要的原因在于,當算法在不斷精進的過程中,芯片性能開始滯后,應對單一領域計算已經乏力,更不要說什么通用人工智能了。
當前的AI芯片的設計思想主要有三大類。分別是專用于機器學習的加速芯片;類腦仿生芯片;可高效計算各類人工智能算法的通用AI芯片。
GPU和FPGA性能的不斷提升,以及TPU、NPU和ASIC的出現(xiàn)讓機器學習方面應用有了快速發(fā)展,已經實現(xiàn)了部分落地場景。而在類腦芯片和通用AI芯片方面遲遲沒有動靜,因此,Cerebras WSE的出現(xiàn)確實讓人們看到了曙光。
理想的AI芯片需要具備高度并行的處理能力,能夠支持各種數(shù)據長度的按位、固定和浮點計算,芯片本身具有高端帶、低延遲,在核心計算單元和內存之間有豐富的鏈接,在實現(xiàn)高性能運算的情況下兼?zhèn)涞凸牡奶攸c。并且,這樣的芯片還要低成本。
在Cerebras WSE出現(xiàn)之前,雖然英偉達推出了大型GPU這樣的產品,但是大家對于實現(xiàn)通用AI更為認可的方式是可重構架構設計。通過這種架構設計的可重構芯片具備軟件、硬件雙編程的特性,硬件架構和功能隨軟件變化而實時動態(tài)變化,因而又被稱為軟件定義芯片。可重構芯片的基礎思路是通過找到數(shù)據間的依賴關系,然后通過這種關系進行實踐切割,然后對計算進行分配,最終實現(xiàn)資源的復用。
可重構芯片的基礎架構
目前,可重構芯片應用到的技術主要有計算陣列重構、存儲帶寬重構和數(shù)據位寬重構。通過采用上述技術,軟件定義的層面不僅僅局限于功能這一層面,算法的計算精度、性能和能效等都可以納入軟件定義的范疇。
在可重構芯片領域,目前主要玩家包括傳統(tǒng)芯片公司英特爾和賽靈思,還有初創(chuàng)公司Cerebras、Wave computing、寒武紀、比特大陸等。
是的,你沒有看錯,Cerebras同樣是可重構芯片的玩家之一。不過,Cerebras WSE的價值絕不僅僅是可重構,其在芯片設計和芯片制造方面都有里程碑的意義。
在芯片設計方面,Cerebras WSE絕對算是一次大膽且成功的嘗試。單一芯片上做大規(guī)模的計算核心集成,節(jié)省了芯片之間傳輸?shù)臅r間和功耗,這樣的方式比傳統(tǒng)在數(shù)據中心做訓練明顯更經濟實惠,不僅大大提升了訓練的效率,成本也有望降低。另外,其內部核心不做乘零運算,給予當前的AI芯片以提示,大大縮減了模型訓練的時間,這對于當前的人工智能產業(yè)而言價值非凡。
在芯片制造方面,臺積電在這顆史上最大芯片面世過程中同樣居功至偉。臺積電高級副總裁Brad Paulsen表示,臺積電調整其設備以進行一次連續(xù)設計,而不是多個獨立設計的網格,從而從300毫米的晶圓上,切割下來一個最大的正方形來做芯片。是的,有了臺積電的鼎力支持才會有這顆史上最大芯片,同時也掀開了晶圓代工的新篇章。
Cerebras用最大芯片給通用AI芯片設計提供了一個全新的思路,當材料和設備的物理極限難以突破時,放大芯片的尺寸在大規(guī)模運算中不失為一種好方法。不過,就算有可重構的計算方法,Cerebras WSE也僅僅是作為多種算法的兼容,并不能讓基于一種數(shù)據經過訓練后得到的模型同時適應多種應用場景,這還需要算法上面做攻關。
當然,Cerebras WSE肯定不是完美的。首先第一個要解決的問題就是散熱問題,不管是芯片做高,還是芯片做大,散熱都是共同的難題;其次是生態(tài)問題,打破常規(guī)的芯片就需要打破常規(guī)的系統(tǒng)和機器;第三是算力分配問題,當年聯(lián)發(fā)科“一核有難,多核圍觀”的窘境相信很多人都還記得,40萬個內核如何協(xié)調工作是個大問題;最后是時序問題,如此巨大的芯片如何能夠做到信號傳輸不延遲。
總結
誠然,我們對于Cerebras WSE的商用還有諸多疑問,它的散熱、生態(tài)、時序等等。但是,我們不得不說,這顆芯片是超越摩爾定律路線上濃墨重彩的一筆,在AI大數(shù)據并行的應用場景中也獨具優(yōu)勢。我們期待有一個通用的AI芯片有朝一日能夠像CPU一樣通用,搭載著更先進的算法跑在我們身邊的智能設備中。
無論如何,Cerebras WSE都將成為世界芯片發(fā)展史上的一座里程碑。