基于多年研發(fā)的CVKit™ NN IP的N1系列SoC芯片刷新了端側(cè)AI芯片性能記錄。領(lǐng)先的每TOPs處理幀數(shù),實(shí)時(shí)數(shù)據(jù)流處理能力,支持高精度FP16神經(jīng)網(wǎng)絡(luò)模型直接無損部署,高性能的INT8網(wǎng)絡(luò)支持能力,多級(jí)精細(xì)功耗控制,將端側(cè)AI芯片的能力提升到了一個(gè)新的高度。
01.單位算力下,誰能夠支撐更快更準(zhǔn)的神經(jīng)網(wǎng)絡(luò)推理,是衡量AI芯片性能的關(guān)鍵
對(duì)于AI應(yīng)用和系統(tǒng)廠商而言,AI芯片是其核心元器件,是人工智能的基礎(chǔ)設(shè)施,其重要性不言而喻。 每個(gè)應(yīng)用和系統(tǒng)廠商都在尋找在性能、功耗、成本等方面綜合因素下合用的AI芯片。 評(píng)估AI芯片是否適合使用往往從每元錢能獲得的性能、每度電能獲得的性能、部署實(shí)施的成本、元器件是否穩(wěn)定可靠等幾個(gè)方面來衡量。其中,芯片廠商宣稱的每TOPs(Tera operations per second)的算力對(duì)應(yīng)的實(shí)際每秒計(jì)算多少幀數(shù)據(jù)(例如圖片或者視頻),以及算法從訓(xùn)練到部署的轉(zhuǎn)換中對(duì)精度的保持成為關(guān)鍵。每秒計(jì)算多少幀數(shù)據(jù)的能力,決定了應(yīng)用和系統(tǒng)廠商能以什么樣的性價(jià)比來部署AI算法;算法從訓(xùn)練到部署的數(shù)據(jù)類型轉(zhuǎn)換帶來精度損失,決定了應(yīng)用和系統(tǒng)廠商算法部署前的數(shù)據(jù)投入(比如如何增加數(shù)據(jù)來盡量覆蓋數(shù)據(jù)類型轉(zhuǎn)換所帶來的損失從而保持精度)、和部署后的實(shí)際效果。
肇觀電子作為2016年成立的AI芯片領(lǐng)域第一梯隊(duì)企業(yè),其團(tuán)隊(duì)在芯片、數(shù)學(xué)、算法等方面深耕多年,一直潛心研發(fā)核心技術(shù),已獲60余件國(guó)內(nèi)外專利授權(quán)。
02.AI 芯片性能,“又快又準(zhǔn)”是主要指標(biāo)
AI應(yīng)用和系統(tǒng)的客戶對(duì)于AI芯片實(shí)際的深度神經(jīng)網(wǎng)絡(luò)處理能力有著明確需求。對(duì)于系統(tǒng)性能而言,“又快又準(zhǔn)“是其主要指標(biāo)。“快”主要取決于芯片的每秒計(jì)算能力。芯片是個(gè)復(fù)雜系統(tǒng),由于各種因素,芯片的理論計(jì)算能力和實(shí)際能達(dá)到的計(jì)算能力之間往往存在差距。 如何能夠在單位成本和單位功耗下最優(yōu)地支持神經(jīng)網(wǎng)絡(luò)模型的各種神經(jīng)層的不同數(shù)據(jù)類型并使得客戶的模型部署的精度損失最小,體現(xiàn)出不同公司之間的技術(shù)水平的差異。綜合來看,客戶可感知、利用、發(fā)揮的芯片性能是整個(gè)系統(tǒng)的性能的關(guān)鍵因素。
根據(jù)不同算法網(wǎng)絡(luò)的測(cè)試結(jié)果,N161芯片每TOPS算力下每秒可推理圖片的數(shù)量展示出了業(yè)界領(lǐng)先的水平。同時(shí),N161還支持FP16高精度網(wǎng)絡(luò),同樣展示出強(qiáng)悍的性能。
在INT8精度下,N161跑各項(xiàng)網(wǎng)絡(luò)可以達(dá)到的每秒幀數(shù)
在FP16的精度下,N161跑各項(xiàng)網(wǎng)絡(luò)可以達(dá)到的每秒幀數(shù)
針對(duì)五種算法網(wǎng)絡(luò),N161芯片與某業(yè)界旗艦芯片的運(yùn)行結(jié)果對(duì)比
“準(zhǔn)”主要取決于芯片對(duì)于算法中的神經(jīng)網(wǎng)絡(luò)模型的各種神經(jīng)層的不同數(shù)據(jù)類型的支持,支持能力方面的差異帶來模型部署的精度損失方面的差異。客戶的算法從模型的訓(xùn)練到模型的部署的數(shù)據(jù)類型轉(zhuǎn)換所導(dǎo)致的精度損失往往十分昂貴。比如在無人零售設(shè)備的應(yīng)用中,如果物體識(shí)別算法在實(shí)際運(yùn)行中有1%的精度下降,會(huì)直接導(dǎo)致貨損率的上升以及運(yùn)營(yíng)成本的增加。
根據(jù)各種不同網(wǎng)絡(luò)的測(cè)試結(jié)果,N161 INT8量化網(wǎng)絡(luò)幾乎無精度損失(1%以內(nèi))。
采用1000張imagenet數(shù)據(jù)測(cè)試
基于對(duì)應(yīng)用的深刻理解和長(zhǎng)時(shí)間的技術(shù)積累,肇觀電子創(chuàng)新的CVKIT™ NN IP在諸多方面遙遙領(lǐng)先,并已部署至N1系列芯片,以及D163(3D視覺)、V163(車載)芯片。
03.Infer Studio™解決“算法落地難”問題
人工智能落地的挑戰(zhàn),一方面在于整個(gè)產(chǎn)業(yè)鏈亟待在性能、成本、功耗等方面合用的上游核心芯片來破局;另一方面在于算法部署實(shí)施至具體應(yīng)用所需知識(shí)技能過于專業(yè)而導(dǎo)致的綜合成本高昂。人工智能等相關(guān)領(lǐng)域的人才,由于稀缺,其薪酬水平較高已是業(yè)界共識(shí);既懂AI算法又懂硬件部署的人才更為缺乏,這導(dǎo)致很多應(yīng)用和系統(tǒng)廠商的開發(fā)能力較為欠缺,落地較慢。不僅是各個(gè)中小企業(yè)面對(duì)這一挑戰(zhàn),大廠也往往面對(duì)高薪招不到合用的人才的問題。人工智能落地成本高昂,是業(yè)界公認(rèn)的一個(gè)突出問題。
為了解決“算法落地難”的問題,肇觀電子發(fā)布了“5分鐘部署”的AI應(yīng)用開發(fā)平臺(tái)Infer Studio™,助力算法快速商用。Infer Studio™能夠?qū)⑺惴?ldquo;翻譯”成芯片能讀懂的表述文件,并快速部署,這種“一鍵式”開發(fā)體驗(yàn)顯著地提高了開發(fā)者的效率。 Infer Studio™支持TensorFlow / TensorFlow Lite / ONNX / Caffe這些主流框架,開發(fā)者可以自由選擇訓(xùn)練框架。從功能上來說,在軟件層Infer Studio™ 具有 Model Visualization 可視化模型、Compiler 編譯器、Evaluator 效果評(píng)估器、Debugger 調(diào)試器四種功能。
Infer Studio™ 操作平臺(tái)
不同于算法表現(xiàn)出來的精彩效果,算法網(wǎng)絡(luò)在PC端呈現(xiàn)出來的是一連串晦澀難懂的二進(jìn)制數(shù)據(jù)和無數(shù)層的文本描述。然而Model Visualization可視化模型卻可以將這些描述轉(zhuǎn)換成網(wǎng)絡(luò)圖,便于開發(fā)者直觀地分析網(wǎng)絡(luò)的結(jié)構(gòu)和屬性。
Compiler編譯器 可支持將客戶基于主流AI框架開發(fā)出來的算法,包括Caffe,Tensorflow,Tensoflow Lite,ONNX等,轉(zhuǎn)換成芯片可以理解的表述文件。同時(shí)Compiler還能完成Weight Compression的功能,進(jìn)一步精簡(jiǎn)算法模型大小,使其真正部署到存儲(chǔ)空間有限的端設(shè)備,提升了網(wǎng)絡(luò)推理性能。同時(shí),編譯器也支持算子融合,預(yù)編譯等優(yōu)化選項(xiàng),進(jìn)一步將推理性能提升至硬件的極限
一套在PC端運(yùn)行強(qiáng)大的算法如何確保在芯片上也能快速呈現(xiàn)效果?Evaluator 評(píng)估器可以幫助客戶快速評(píng)估結(jié)果是否正確,性能是否能被發(fā)揮出來。通過Infer Studio™的Evaluator功能,客戶可以一鍵式將模型部署在設(shè)備上,全面透徹的看到運(yùn)行結(jié)果,同時(shí)對(duì)分類,檢測(cè)分割等網(wǎng)絡(luò)在測(cè)試圖片中可視化呈現(xiàn)算法效果。
為了高效分析算法移植過程中可能遇到的偏差和兼容性問題,Infer Studio™ 的Debugger調(diào)試器能夠按層調(diào)試,隨時(shí)發(fā)現(xiàn)錯(cuò)誤。客戶可以導(dǎo)出算法運(yùn)行中的每一層數(shù)據(jù),跟原本算法中的每一層數(shù)據(jù)做對(duì)比,便于隨時(shí)調(diào)試,找出錯(cuò)誤。
04.Infer Studio™ 的行業(yè)落地應(yīng)用
客戶的方案在算法移植驗(yàn)證以后,是否也能在產(chǎn)品層面快速部署,正常運(yùn)行?與Infer Studio™ 配套的SDK可以通過積木搭建的方式快速構(gòu)建多媒體pipeline,并將算法模型靈活嵌入到pipeline中。
例如,一個(gè)經(jīng)典的AI應(yīng)用是:VI (Video Input) 從攝像頭外部接入原始數(shù)據(jù),這些數(shù)據(jù)經(jīng)過ISP模塊轉(zhuǎn)換成YUV格式,一路傳輸?shù)紼ncoder進(jìn)行編碼,并輸出。另一路ISP輸出的數(shù)據(jù)傳輸?shù)紺NN引擎運(yùn)行各種AI算法。AI應(yīng)用中各個(gè)功能模塊之間有著靈活的數(shù)據(jù)流向構(gòu)建方式;通過模塊間Bind(一種數(shù)據(jù)建立的方法)的方式,客戶可以更靈活的根據(jù)自己的應(yīng)用需求,組合功能模塊,完成應(yīng)用部署落地。
客戶也可以自由刪除某些模塊,替換或者增加某些算法模塊。所有這些pipeline搭建工作都可以通過可視化或者幾行配置代碼來實(shí)現(xiàn)。將AI算法開發(fā)到產(chǎn)品落地的時(shí)間壓縮到極限。對(duì)于典型的AI應(yīng)用,物體分類,人臉/車輛檢測(cè),物體分割等應(yīng)用,從算法編譯到應(yīng)用部署,5分鐘內(nèi)即可完成。
目前,Infer Studio™ 在諸多客戶的項(xiàng)目中作為日常使用的重要工具,得到了普遍認(rèn)可和好評(píng)。
例如:在一個(gè)監(jiān)測(cè)司機(jī)是否在說話、瞌睡、打電話的車載項(xiàng)目中,工程師需要檢測(cè)眼部的狀態(tài)來判斷司機(jī)是否在走神或者瞌睡,檢測(cè)耳朵旁邊是否有電話,等等。客戶原本需要一個(gè)星期甚至更久才能讓這套算法在芯片上跑起來,但是結(jié)合了Infer Studio™之后, 對(duì)多個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行硬件加速,對(duì)神經(jīng)網(wǎng)絡(luò)的前后處理再結(jié)合計(jì)算機(jī)視覺加速單元 CV Accelerator里的內(nèi)置算子來完成,使得該算法迅速完成編譯并在平臺(tái)上高性能跑起來。
肇觀電子的Infer Studio™是目前市面上罕見的的人工智能算法的硬件移植和部署開發(fā)平臺(tái),在提高人工智能算法的落地效率、降低部署實(shí)施成本方面實(shí)效顯著,受到下游廠商的廣泛好評(píng)。
05.結(jié)語
人工智能技術(shù)所賦予時(shí)代的意義,往往短期被高估,長(zhǎng)期被低估。作為AI芯片設(shè)計(jì)領(lǐng)域的核心公司之一的肇觀電子,不僅在芯片核心技術(shù)上不斷突破,還為客戶提供 “一鍵式” 配套開發(fā)工具。 這不僅促進(jìn)了客戶的解決方案在應(yīng)用場(chǎng)景中的部署,也推動(dòng)了整個(gè)人工智能行業(yè)的發(fā)展。