沉浸式全息影像、虛擬數(shù)字人員工、數(shù)字藏品、虛擬營業(yè)廳、城市數(shù)字孿生、超寫實(shí)數(shù)字人......近日舉辦的2022世界人工智能大會(huì)成了眾多元宇宙應(yīng)用的博物館。在亦真亦幻的展示中,元宇宙的精彩已經(jīng)撲面而來。
不過,元宇宙的完全落地還需滿足多重條件,其中之一就是要得到端側(cè)和邊緣側(cè)AI的強(qiáng)力支撐。因?yàn)?,AI部署在端側(cè)可以提升用戶數(shù)據(jù)的安全性,并助力高效地利用有限的網(wǎng)絡(luò)資源和帶寬;而在邊緣側(cè),AI則能及時(shí)處理多種元宇宙場景下的海量數(shù)據(jù),并推動(dòng)AI整體的規(guī)?;渴鸷吞嵘贫酥悄芩?。
其實(shí),支撐元宇宙只是端側(cè)和邊緣側(cè)AI的應(yīng)用目標(biāo)之一。隨著AI技術(shù)不斷融入邊緣側(cè)和端側(cè),各節(jié)點(diǎn)都將獲得空前強(qiáng)大的計(jì)算和決策能力。在此過程中,作為AI技術(shù)的具體載體,邊緣側(cè)和端側(cè)AI芯片將發(fā)揮無可比擬的作用。
邊緣側(cè)和端側(cè)AI的崛起
邊緣側(cè)是一個(gè)經(jīng)常被提起又難以被理解的概念,在物聯(lián)網(wǎng)的世界特指為設(shè)備端的附近,而為應(yīng)用開發(fā)者和服務(wù)提供商在網(wǎng)絡(luò)的邊緣側(cè)提供云服務(wù)和IT環(huán)境服務(wù)就稱為邊緣計(jì)算。當(dāng)邊緣計(jì)算、AI和應(yīng)用場景相結(jié)合,就產(chǎn)生了邊緣側(cè)AI。由于邊緣側(cè)覆蓋了各種應(yīng)用場合和設(shè)備,邊緣側(cè)AI得到了無比廣闊的發(fā)展空間。
邊緣側(cè)AI運(yùn)行在邊緣設(shè)備上,相較于云端的AI,其數(shù)據(jù)安全性更高,功耗更低,時(shí)延更短,可靠性更高,帶寬需求更低,還可以更大限度的利用數(shù)據(jù),以及進(jìn)一步縮減數(shù)據(jù)處理成本。
相對來說,端側(cè)AI更容易理解,活躍在我們的手機(jī)和其他各種終端設(shè)備上的AI技術(shù)就是端側(cè)AI。與邊緣側(cè)AI相同,端側(cè)AI運(yùn)行在本地設(shè)備上,使得其更加安全、高效,也不會(huì)對帶寬有過分依賴。
由于傳感器技術(shù)的進(jìn)步和5G的普及,邊緣側(cè)AI開始大規(guī)模部署,并為制造、醫(yī)療健康、金融服務(wù)、交通、能源等行業(yè)開發(fā)出新的業(yè)務(wù)模式,如制造行業(yè)的預(yù)測維護(hù)和醫(yī)療行業(yè)的AI診療等。同時(shí),端側(cè) AI 在底層技術(shù)和業(yè)務(wù)應(yīng)用等方面也取得了快速發(fā)展,逐漸從嘗試性應(yīng)用變成驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新的核心推動(dòng)力之一,計(jì)算攝影、智能門禁、車載ADAS等應(yīng)用就是最好的證明。
這些端側(cè)和邊緣側(cè)AI的主流應(yīng)用中都采用了智能視覺技術(shù),結(jié)合圖像識(shí)別與AI訓(xùn)練,構(gòu)建起強(qiáng)大的智能視覺應(yīng)用生態(tài)。
因?yàn)楦兄獔鼍胺浅K槠?,面對越發(fā)復(fù)雜的場景應(yīng)用,智能視覺所面臨的技術(shù)挑戰(zhàn)也日益艱巨。比如,在暗光、逆光場景下輸出高質(zhì)量圖像就是行業(yè)公認(rèn)的難題。解決的辦法之一就是采取多光譜融合技術(shù),將可見光與紅外光感知信息進(jìn)行融合,在不增加光污染的同時(shí),解決低照環(huán)境下由于可見光感光能力不足所造成的細(xì)節(jié)損失的問題,實(shí)現(xiàn)圖像色彩與細(xì)節(jié)的最佳平衡。愛芯元智采用AI ISP的方式,對傳統(tǒng)ISP的某些能力進(jìn)行增強(qiáng),能夠?qū)崿F(xiàn)黑光全彩的效果。
同樣,為了做到對不同目標(biāo)的區(qū)分和運(yùn)動(dòng)場景下的目標(biāo)識(shí)別,結(jié)構(gòu)化識(shí)別、多算法融合也是必要的技術(shù)。諸如此類的AI算法越來越多,就意味著需要強(qiáng)大的AI算力作為支撐,也意味著作為端側(cè)和邊緣側(cè)AI最直接載體的AI芯片必須要在算力和感知方面不斷創(chuàng)新,才能發(fā)揮出算法的最大作用。
算力和感知:NPU和ISP的完美融合
在端側(cè)和邊緣側(cè)AI芯片中,負(fù)責(zé)提供算力的主要是NPU單元。它是整個(gè)AI芯片中非常重要的一個(gè)模塊,能夠很好地支持最新的深度學(xué)習(xí)算法,且算力表現(xiàn)遠(yuǎn)超傳統(tǒng)的CPU/GPU。
不過NPU也面臨著內(nèi)存墻和功耗墻的挑戰(zhàn),要發(fā)揮NPU的潛力,降低開發(fā)成本,需要特殊的技術(shù)——混合精度。
混合精度就是將不同精度的浮點(diǎn)數(shù)/定點(diǎn)進(jìn)行數(shù)值計(jì)算。業(yè)內(nèi)專家通過研究發(fā)現(xiàn),通過合理分配不同環(huán)節(jié)的數(shù)值精度,就可在保證最終計(jì)算結(jié)果準(zhǔn)確度的條件下,實(shí)現(xiàn)整體計(jì)算的加速。
愛芯元智設(shè)計(jì)了混合精度的NPU,可以在端側(cè)邊緣側(cè)成本受限的情況下提供充沛的有效算力,支持更多的智能算法。
該NPU是一個(gè)異構(gòu)多核的系統(tǒng),除了專注于網(wǎng)絡(luò)本身加速的CONV計(jì)算核外,還配有豐富的在Vector內(nèi)核上實(shí)現(xiàn)的CV算子,同時(shí)還會(huì)有SDMA等用于數(shù)據(jù)的搬運(yùn),使得算力在AI圖像處理中能夠有更好的提升。
為了降低NPU系統(tǒng)對 CPU的占用,愛芯元智還專門設(shè)計(jì)了多核硬件同步的機(jī)制,這樣整個(gè)應(yīng)用的絕大部分Pipeline都可以跑在NPU上,不對CPU占用,從而讓整個(gè)應(yīng)用跑得更快。
NPU的強(qiáng)大算力在智能視覺應(yīng)用中有了巨大的發(fā)揮空間。因?yàn)橹悄芤曈X的感知是由AI ISP所負(fù)責(zé),為了能應(yīng)對更加復(fù)雜的場景應(yīng)用,需要將服務(wù)器上的AI分析處理能力前移放入ISP中,沒有強(qiáng)大算力的支撐,這就是一個(gè)無法完成的任務(wù)。
比如,在智慧城市場景中,使用AI ISP可以解決暗光背景下的噪聲問題,輸出清晰的畫面,但使用AI ISP的技術(shù),就必須用AI算法全分辨率、全幀率地對視頻進(jìn)行處理。僅一個(gè)500萬像素的視頻碼流,要做到全分辨率、全幀率的處理,就會(huì)對NPU的算力提出非常高的要求。
另一方面,要對場景進(jìn)行智能分析,就要把一些行業(yè)專家系統(tǒng)用神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行構(gòu)建。這個(gè)AI專家系統(tǒng)要足夠聰明,對應(yīng)的就是一個(gè)龐大的神經(jīng)網(wǎng)絡(luò),要讓其順利運(yùn)轉(zhuǎn),也會(huì)對NPU算力提出很高的要求。
當(dāng)然,僅有強(qiáng)大的算力也是不夠的,要讓AI ISP發(fā)揮最大的潛力,還需要對算法進(jìn)行選擇,如果將所有算法進(jìn)行裝載,勢必會(huì)加重芯片的運(yùn)算負(fù)擔(dān)和功耗,反而會(huì)影響芯片的表現(xiàn)。
愛芯元智公司進(jìn)行了很好的創(chuàng)新,其沒有將AI ISP整體的Pipeline進(jìn)行替換,只擇其中重要的模塊進(jìn)行AI增強(qiáng),將有限的算力集中于整個(gè)AI ISP中最關(guān)鍵、人眼最可知的這些功能中,以實(shí)現(xiàn)整個(gè)AI ISP的最佳效果。這樣不但能使得畫質(zhì)明顯改善,還能隨AI模型迭代實(shí)現(xiàn)快速升級(jí)。
為了讓NPU和ISP實(shí)現(xiàn)強(qiáng)強(qiáng)聯(lián)合,愛芯元智還開發(fā)了聯(lián)合架構(gòu)設(shè)計(jì),最終大幅提升了傳統(tǒng)ISP中多個(gè)關(guān)鍵模塊的性能,將AI畫質(zhì)提升算法應(yīng)用到4K視頻顯示上。
愛芯元智的兩個(gè)主要產(chǎn)品完美體現(xiàn)了上述設(shè)計(jì)思路。其中,AX620A是目前在智慧城市等應(yīng)用中的主流產(chǎn)品,擁有一個(gè)四核Cortex-A7CPU,32bitLPDDR4x,包含H.264、H.265編碼功能,算力為14.4TOps,有兩路的MIPI,一路的USB,具有快速喚醒、低功耗的特點(diǎn)。
另一款產(chǎn)品是AX170A,為影像方面專用的人工智能芯片,集成了四核Cortex A7 CPU、自研AI-ISP和混合精度NPU,同時(shí)片上搭載LPDDR4專用內(nèi)存,可以支持4路MIPI信號(hào)輸入;最高算力可達(dá)28.8TOPS,獨(dú)立DDR帶寬最高可達(dá)到8.5GBps,可對4K 30fps的影像進(jìn)行實(shí)時(shí)畫質(zhì)優(yōu)化,配合主控芯片可實(shí)現(xiàn)超級(jí)夜景視頻和優(yōu)秀的暗光拍攝功能。
寫在最后
端側(cè)和邊緣側(cè)AI正在隨日益增長的實(shí)時(shí)性業(yè)務(wù)需求而變得愈發(fā)重要,IDC 預(yù)測,到 2023 年,接近20%的用于人工智能工作負(fù)載的服務(wù)器將部署在邊緣。
可以預(yù)期,AI芯片將有更廣闊的市場空間,同時(shí)也要增加與算法和應(yīng)用場景的契合度。對于廠商來說,可以針對不同應(yīng)用自主開發(fā)算法,只是這樣將耗費(fèi)大量的資源,也不可能實(shí)現(xiàn)全覆蓋。是否還可存在別的路徑呢?
在這方面,愛芯元智的做法可以值得借鑒。其提供了對多種框架生成的AI算法的支持,也可以廣泛接收來自于不同廠商的算法,通過離線編譯優(yōu)化的工具進(jìn)行編譯,或利用其提供的分析工具對性能做一些分析,從而實(shí)現(xiàn)算法在芯片上的部署和快速迭代。
在自主開發(fā)的基礎(chǔ)上,增加兼容性,這也許就是今后端側(cè)和邊緣側(cè)AI芯片發(fā)展的新方向。
【來源:集微網(wǎng)】