昆侖芯科技芯片研發(fā)總監(jiān)漆維：昆侖芯AI芯片—

在近日閉幕的2022北京智源大會上，昆侖芯科技芯片研發(fā)總監(jiān)漆維受邀參與 “芯片前沿技術(shù)”專題論壇。

圍繞當前學術(shù)領域迫切需要解決的問題，以及產(chǎn)業(yè)落地過程中存在的諸多挑戰(zhàn)，漆維與來自中科院、清華大學、北京大學、杜克大學、倫敦帝國理工學院的各位專家學者一同分享重大成果與真知灼見，獻上了一場誠意滿滿的芯片前沿技術(shù)盛宴。

以下內(nèi)容整理于主題報告 “昆侖芯AI芯片：讓計算更智能”直播實錄：

昆侖芯科技芯片研發(fā)總監(jiān)漆維

大家好，我是來自昆侖芯科技的漆維。

相信很多朋友都認同，當下是芯片最好的時代。我個人也是非常幸運，很早就進入AI芯片這個賽道。接下來，結(jié)合我和團隊這十年的積累講一講對這個領域的理解。

AI芯片的機遇：空前繁榮的AI生態(tài)

今天整個AI芯片生態(tài)非常繁榮。從場景看，語音、視覺、自然語言處理這些不同的場景，AI算法都有持續(xù)突破。這些算法的突破不僅僅是對原有業(yè)務進行新的賦能，也極大便利了人們的日常生活。

另外一個維度，AI算法持續(xù)突破，工程師們嘗試更大的模型把AI能力帶到各行各業(yè)。國外GPT-3是首個千億規(guī)模的模型，國內(nèi)像百度的文心、智源的悟道在這塊也有了很多積累和突破。

幾年前看AI的時候，大家可能會覺得AI更多是對現(xiàn)有業(yè)務做賦能，是“AI+”。但其實最近幾年，AI已經(jīng)開始去賦能產(chǎn)業(yè)變革，像自動駕駛這個萬億級的市場，可以改變?nèi)藗兊某鲂蟹绞健Ａ硗庖粋€案例是Alphafold做蛋白質(zhì)結(jié)構(gòu)預測。能看到，AI算法很有機會對當前的科學難題進行突破。

上層整個AI生態(tài)非常繁榮，AI算法也不是第一次提出了，為什么最近這十年發(fā)展特別好？

其實是因為底層的AI計算提供了支持。當然，眾所周知摩爾定律正在逐漸失效，傳統(tǒng)的處理器結(jié)構(gòu)已經(jīng)不能滿足支持。GPU得益于很早在HPC有布局，也對架構(gòu)進行了迭代。除了NV的GPU，國外以谷歌為例，結(jié)合自己的場景和需求去自研了AI芯片。在國內(nèi)，互聯(lián)網(wǎng)紛紛下場造芯，同時也有很多AI的startup進入這個賽道。可以說，對AI芯片來說，這確實是一個歷史性的新機遇。

理想非常好，上層整個生態(tài)及算法對底層都有硬件的依賴，自研AI芯片不僅能解決這種需求，同時也是利國利民的事情。但回到現(xiàn)實，就沒有那么豐滿了，這是一件很有挑戰(zhàn)的事情。

AI芯片的挑戰(zhàn)

AI芯片真的能做到在產(chǎn)業(yè)大規(guī)模落地是一件非常有挑戰(zhàn)的事情。

首先，算法的多樣化。前面提到，AI是有多種產(chǎn)品的，語音、視覺、自然語言處理，不同的業(yè)務場景有各自不同的算法模型以及底層計算精度的需求。除此之外，即便是同一個業(yè)務線，算法也在持續(xù)優(yōu)化和突破。今天的算法需求或設計的芯片是不是能夠滿足明天的需求，這也是一個挑戰(zhàn)。一個很有意思的例子，谷歌也在GPU的一篇論文中提到過，他們剛開始做芯片的時候跟業(yè)務團隊溝通，業(yè)務告訴他們1%精度損失可接受。等芯片做完要推到業(yè)務做落地部署，發(fā)現(xiàn)業(yè)務改了說法，之前說的模型精度被推翻了。這也是對AI 芯片設計的一個挑戰(zhàn)。

其次，行業(yè)巨頭的生態(tài)壁壘。雖然大家都看好這個賽道、紛紛進入，但其實它不是一個藍海。這個賽道是有一個行業(yè)巨頭在前面。一方面，它確實做的比較早，到現(xiàn)在已經(jīng)有十多年的積累，做成了一條非常強大的護城河。另外，它也敢于對自己的架構(gòu)做持續(xù)的創(chuàng)新。隨著AI算法的需求，它的GPU產(chǎn)品已經(jīng)跟所有的主流框架做了適配。大家天然地去用GPU做AI算法的應用。面對新的硬件、定制的指令集和微架構(gòu)，以及新建的整個軟件生態(tài)，對于客戶來說，為什么要選你？一定是有一個心理防線的。所以，一定要兩個維度都做到，第一方面，要有一個非常可觀的實際的性能收益去吸引業(yè)務。另一方面，需要整個軟件棧做的非常靈活，用盡量小的遷移成本去打破客戶的這種心理防線。

第三，『苛刻』的客戶需求。客戶的需求不是一成不變的，也是非常嚴苛的。以互聯(lián)網(wǎng)為例，客戶并不會關心一個單一的指標，他們關心延時、關心吞吐，也關心TCO，而且這些指標很多時候是融合在一起的。舉個例子，客戶關心的可能是在滿足一定的延時條件下，單卡能夠帶來的吞吐是多少。甚至，有時候他還會加一些限制：要求他的CPU、整個AI芯片或者GPU在一定程度的利用率去確保整個業(yè)務系統(tǒng)的魯棒性。TCO也不是說單卡的性能和成本，而是說單卡跟服務器整機適配，在實際業(yè)務應用場景整機的分攤成本，甚至具體到分攤的網(wǎng)絡成本、功耗成本等等。

最后，復雜的真實部署環(huán)境。從研發(fā)人員的角度，會覺得把芯片做出來、點亮，是非常關鍵的milestone，這一點肯定毋庸置疑。但其實從點亮到芯片在真實業(yè)務場景中實現(xiàn)規(guī)模落地，這中間還有非常大的工程挑戰(zhàn)，這是軟硬件、整個系統(tǒng)都會面臨的挑戰(zhàn)。硬件層面，做到萬級、十萬級甚至更高的時候，穩(wěn)定性怎么樣？成本對業(yè)務來說是不是可接受？軟件也是，整個軟件棧要適配不同的深度學習框架，包括國內(nèi)外主流的各種操作系統(tǒng)甚至不同機型的適配等等。

這些都是實際的工程工作，克服這兩塊到了實際業(yè)務部署的時候，會發(fā)現(xiàn)并不是一個單線程的作業(yè)，有時候會做多線程的混部，甚至為了把整個運營資源利用率做高，會做兩個不同的業(yè)務線混部。在這種場景下，AI卡的實際性能能不能做到很穩(wěn)定，這些都是走向量產(chǎn)之后需要面臨的工程化挑戰(zhàn)。

AI芯片：從定制到通用

伴隨上述挑戰(zhàn)，我們團隊的發(fā)展其實也是分成了兩個階段。

第一階段：2011到2017年，跟著整個AI算法的迭代，AI逐漸在更多的業(yè)務線落地。跟這個階段相匹配的，我們基于FPGA開發(fā)了AI的加速集群，做到了行業(yè)中一個非常大規(guī)模、有影響力的部署。16年17年的時候，隨著Intel收購Altera，Amazon推出FPGA云服務，F(xiàn)PGA突然變得特別火；但因為我們在這個領域布局得很早，其實已經(jīng)明顯能感覺到FPGA從業(yè)務形態(tài)上、架構(gòu)上的一些瓶頸。

在2017到2018年我們開始轉(zhuǎn)型，2018年正式啟動昆侖芯片的研發(fā)。目前，兩代芯片都已經(jīng)正式量產(chǎn)。

為什么做通用的AI處理器？尤其是像芯片這種高投入的場景，前面也提過，整個業(yè)務的算法其實都還在持續(xù)迭代和變化，如果要做一個AI芯片，尤其是真正能達到量產(chǎn)，一定是通用、能夠靈活支持所有的應用和產(chǎn)品的，同時，需要軟件棧去對接所有的業(yè)務系統(tǒng)。這就需要非常靈活的可編程的方案，一方面要能夠適應業(yè)務需求，另外，商業(yè)化落地要能夠盡量減少對應的軟件成本以及對用戶來說的遷移成本。

昆侖芯2代

以昆侖芯第二代芯片架構(gòu)XPU-R為例做一個分享。該架構(gòu)非常核心的兩部分分別是：Cluster和SDNN。

Cluster是通用計算單元，我們有自定義的指令集，支持標量和向量計算。某種程度上，其實軟件可以像寫擴展一樣，或者說是像寫處理器一樣去編程。

SDNN是面向AI運算的指令、加速單元，主要是支持像卷積、矩陣乘等這種高頻、高算力需求的一些算子。SDNN是Software Defined Neural Network。為什么要軟件定義呢？其實我們早期也做過偏定制的架構(gòu)，它的問題在于模型持續(xù)變化的時候，尤其是涉及到分支跳轉(zhuǎn)，或者動態(tài)reshape這種，不一定能支持好。另外一個維度，整個算法一定是持續(xù)迭代的，未來一定還會有新的模型、新的算法出現(xiàn)。某種程度上，Cluster和SDNN對標CUDA Core和Tensor Core。

除了這兩塊之外，整個Memory的設計也是結(jié)合我們的產(chǎn)品定義做的設計。比如說，片上有比較大的Shared Memory能夠支持Cluster和SDNN之間的數(shù)據(jù)交互。片外的Device Memory這塊，昆侖芯2代選的是GDDR6，可以兼顧帶寬和成本。昆侖芯2代也是國內(nèi)首款應用GDDR6的AI芯片。跟主機的接口這塊，集成了PCIe4.0協(xié)議。同時，我們也具備片間互聯(lián)能力，多個芯片之間能夠互聯(lián)通信去支持訓練和大規(guī)模推理的應用場景。

還有很多功能，比如我們自研的調(diào)度系統(tǒng)。AI芯片計算加速有的時候還不到微秒，這個時候如果是一個非常重的處理器進行調(diào)度，或者依賴于host的話，會有一些性能的影響。所以我們也是自研了一個調(diào)度系統(tǒng)，能夠做到ns（nanosecond，納秒）級別的調(diào)度，確保整個硬件的利用率非常高。

如果說芯片提供了這個能力，那整個軟件棧就關系到產(chǎn)品到底能不能快速在多個業(yè)務場景、大規(guī)模量產(chǎn)落地。我們也提供了一套非常完善的SDK，包括底層驅(qū)動、Runtime，到上層也包括一些高性能的控制庫以及圖編譯的引擎。結(jié)合不同客戶的需求，可以做到快速的實現(xiàn)和部署。

這是昆侖芯2代AI芯片。這代芯片采用7nm工藝，算力高達256TOPS@INT8。

我們在這個芯片上也引入了很多新的feature，包括硬件虛擬化。另外，芯片集成了包括視頻的編解碼以及圖像處理能力，能夠做到整個視頻全流程的打通。

在GEMM、BERT/ERNIE、YOLOv3和ResNet-50這些模型上，昆侖芯2代實際性能全面領先，針對很多業(yè)務實際的模型也會有更好的表現(xiàn)。

目前，昆侖芯2代已經(jīng)在多個場景落地。互聯(lián)網(wǎng)領域，不局限于百度集團，我們在外部也有很好的突破。智算中心，比如智源研究院項目的合作。還有一些新的領域，像生物計算，我們有跟國內(nèi)的一些高校和社會系統(tǒng)、公司合作探索，有一些項目的落地。也就是說，我們的產(chǎn)品并不僅限于AI。

未來的課題

面向未來，第三代AI芯片已投入研發(fā)，同時也在規(guī)劃第四代產(chǎn)品。

昆侖芯科技剛剛成立一周年，我們也在持續(xù)思考，結(jié)合應用場景哪些地方能夠做優(yōu)化，以及性能提升，做到通用，同時能夠兼顧實際的性能。在這個過程中，我們的產(chǎn)品到底怎么定義、是不是能夠有更先進的技術(shù)，甚至說產(chǎn)品到底是做“AI+”還是賦能產(chǎn)業(yè)變革，能否做更大的場景等等，這些也是我們?nèi)粘９ぷ髦谐掷m(xù)在思考的課題。

最后，借著這個機會，非常歡迎日后有機會能夠跟同行、跨行的人進行更多交流。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

昆侖芯科技芯片研發(fā)總監(jiān)漆維：昆侖芯AI芯片——讓計算更智能

數(shù)獨大挑戰(zhàn)2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數(shù)有氧達人2018-06-03

每日養(yǎng)生app2018-06-03

體育訓練成績評定2018-06-03