人工智能與計算機(jī)視覺技術(shù)息息相關(guān),視覺信息處理成為人工智能現(xiàn)階段最重要的技術(shù)引擎之一,智能視覺計算技術(shù)也已經(jīng)廣泛應(yīng)用于各行各業(yè)。為加快實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略,促進(jìn)人工智能領(lǐng)域智能視覺計算技術(shù)的研究創(chuàng)新與應(yīng)用突破。2022年12月17日-12月18日,由中國人工智能學(xué)會主辦,中國人工智能學(xué)會會士之家(杭州站)承辦,浙江杭州未來科技城(海創(chuàng)園)管委會協(xié)辦的中國人工智能學(xué)會創(chuàng)新技術(shù)講習(xí)班第二期“智能視覺計算技術(shù)與應(yīng)用”在線上成功舉辦。
在此期的講習(xí)班上,來自北大、清華、大連理工、哈工大等8所頂尖高校智能視覺計算技術(shù)與應(yīng)用領(lǐng)域的10位國內(nèi)外領(lǐng)軍人才、權(quán)威學(xué)者開展線上8場授課交流,與50W+在線觀眾開展學(xué)術(shù)對話。聚焦“智能視覺計算技術(shù)與應(yīng)用”領(lǐng)域,旨在為我國人工智能領(lǐng)域?qū)W者和科創(chuàng)人才提供重要交流平臺,加速人工智能科技創(chuàng)新和產(chǎn)業(yè)應(yīng)用高水平高質(zhì)量發(fā)展。
中國人工智能學(xué)會組織主席徐楓老師主持開場,彭宇新教授發(fā)表致辭。計算機(jī)視覺作為人工智能領(lǐng)域的一個重要分支,是工程與科學(xué)領(lǐng)域中的一個極具挑戰(zhàn)性的研究方向。隨著深度學(xué)習(xí)的快速發(fā)展,這一技術(shù)已成長為技術(shù)發(fā)展和數(shù)字化轉(zhuǎn)型不可或缺的力量。未來伴隨著算法更迭、硬件算力升級、數(shù)據(jù)大爆發(fā)及5G技術(shù)發(fā)展帶來的高速網(wǎng)絡(luò),計算機(jī)視覺技術(shù)的應(yīng)用將會擁有更廣闊的發(fā)展空間。
(徐楓老師作開場主持)
(彭宇新教授作開場致辭)
程明明教授進(jìn)行了“開放環(huán)境下的自適應(yīng)圖像理解”的專題分享。面對計算機(jī)圖像視覺感知和理解技術(shù)在實際應(yīng)用中的痛點問題,從自適應(yīng)的角度出發(fā),解釋該技術(shù)如何適應(yīng)開放環(huán)境。詳細(xì)講解通過粒度自適應(yīng)表達(dá)、算力自適應(yīng)的高效視覺感知以及通用屬性知識引導(dǎo)的視感知三方面技術(shù)緩解現(xiàn)實開放環(huán)境中遭遇的三大挑戰(zhàn)性問題。強(qiáng)調(diào)盡管無監(jiān)督無法事先預(yù)知類別數(shù),但從evaluation的角度出發(fā),類別數(shù)作為一個不固定參數(shù),一般會略大于實際的類別數(shù)。
(程明明教授授課)
王立君副教授圍繞“單目圖像深度估計”開展專題分享。從背景出發(fā),細(xì)致介紹了國內(nèi)外研究現(xiàn)狀,團(tuán)隊最新研究進(jìn)展及單目圖像深度估計在計算機(jī)視覺其它任務(wù)中的四方面應(yīng)用。指出,單一數(shù)據(jù)集下訓(xùn)練后的模型泛化能力較弱,主要是數(shù)據(jù)集在室內(nèi)室外不同場景中,存在深度尺度不兼容的問題。團(tuán)隊為解決該問題開展了“相對深度預(yù)測”的探索,可實現(xiàn)多場景數(shù)據(jù)集混合的訓(xùn)練,泛化能力更強(qiáng),但存在不是絕對深度的缺陷。基于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計進(jìn)行優(yōu)化是訓(xùn)練數(shù)據(jù)外必要的探索方向。單目圖像深度估計的誤差值依據(jù)不同場景存在差異,誤差與評價指標(biāo)存在相關(guān)性(關(guān)注絕對誤差或相對誤差),誤差計算一般考慮所處區(qū)域遠(yuǎn)近及其容忍度,根據(jù)不同的任務(wù)會設(shè)計不同評價標(biāo)準(zhǔn)。為了更好對同一類別物體的深度相似性進(jìn)行建模會采用同一套參數(shù),但同一物體出現(xiàn)在不同位置,其深度存在差異。要求模型在預(yù)測過程對類似“近大遠(yuǎn)小”信息進(jìn)行歸納總結(jié),根據(jù)語意信息判定類別、根據(jù)可能的變化、大小判斷深度,并結(jié)合上下文和相對尺度進(jìn)行預(yù)測。通過端到端的映射,能夠?qū)崿F(xiàn)從輸入圖像到真值的預(yù)測,但存在一定誤差,需要判定任務(wù)對誤差的容忍度。單目圖像深度可能無法滿足對精度有高要求的任務(wù),需結(jié)合多種數(shù)據(jù)源才能解決問題。
(王立君副教授授課)
谷延鋒教授圍繞“多模遙感圖像本征分解”帶來了專題授課,結(jié)合高光譜遙感探測和高光譜本征分解兩部分,分享了其團(tuán)隊近幾年圍繞遙感圖像本征分解的研究進(jìn)展。詳細(xì)介紹了高光譜遙感探測的成像原理、多模探測及其存在的關(guān)鍵問題。系統(tǒng)闡述了高光譜本征分解中多模本征信息提取、理論模型、先驗信息建模、實驗驗證、方法流程等內(nèi)容。谷教授指出通過衛(wèi)星的粒子測繪,利用多角度相機(jī)可計算地面上對應(yīng)的高程數(shù)據(jù),基于高程數(shù)據(jù)可進(jìn)行空間三維建模,描述地面物體空間三維結(jié)構(gòu)。均勻的光照和它法線方向作用并不需要額外相機(jī)參數(shù),同理激光雷達(dá)可直接利用它的點云數(shù)據(jù)。
(谷延鋒教授授課)
鄭偉詩教授進(jìn)行了“行為協(xié)同與交互建模”的專題分享。基于行為分析的背景,回顧現(xiàn)有行為協(xié)同與交互建模的方法,探討團(tuán)隊主要研究進(jìn)展及未來方向。指出協(xié)同技術(shù)商業(yè)化廣泛應(yīng)用的主要障礙在于未知環(huán)境下難以對未識別物體進(jìn)行建模的問題。例如機(jī)器人對于未識別物體的抓取成功率低,需進(jìn)行泛化處理的問題,未來商業(yè)化應(yīng)用將聚焦人和機(jī)器的行為協(xié)同研究。構(gòu)建多尺度的幾何特征主要通過多個Scale的建模,拓展自由度抓取,進(jìn)行點云分析,擴(kuò)大感知范圍。行為分析的訓(xùn)練工具是目前團(tuán)隊待解決的痛點問題,未來標(biāo)準(zhǔn)化的算法庫建設(shè)值得團(tuán)隊探索的研究方向。
(鄭偉詩教授授課)
操曉春教授圍繞“‘病態(tài)的’計算機(jī)視覺算法”進(jìn)行專題授課,指出“計算機(jī)視覺”是一個相對“病態(tài)”的問題。圍繞解決“病態(tài)”問題的“規(guī)則化的數(shù)值分析”與“引進(jìn)新假設(shè)”兩個方法詳細(xì)闡釋現(xiàn)有研究工作。指出主流的視頻分析軟件有生成、識別、分類等多種類型,區(qū)別較大且領(lǐng)域內(nèi)更新迭代快。強(qiáng)調(diào)了學(xué)術(shù)角度的視覺算法攻擊是指攻擊對方的識別模型。
(操曉春教授授課)
方玉明教授開展了“圖像質(zhì)量評價:理論、方法及應(yīng)用”專題講解,介紹圖像質(zhì)量評價的概念、分類及評價研究的主流方法,解釋了真實相機(jī)失真的圖像質(zhì)量評價,多曝光圖像融合以及相關(guān)內(nèi)容,分享圖像質(zhì)量評價在Perceptual Optimization中的應(yīng)用及進(jìn)展。強(qiáng)調(diào)HDR圖像如何評價來選擇多曝光圖像的張數(shù)主要取決工作的過程。
(方玉明教授授課)
黃惠教授圍繞“面向智能機(jī)器人的智能圖形技術(shù)”帶來專題授課。從概念出發(fā)講解了目前的主流智能機(jī)器人及其智能化深入發(fā)展的卡脖子難題。在當(dāng)前非實驗環(huán)境下機(jī)器人面臨的挑戰(zhàn)和技術(shù)應(yīng)用之間依舊存在較大的空間局限性,需在工業(yè)制造、智能倉儲等預(yù)定環(huán)境和場景中進(jìn)行預(yù)定設(shè)計才能運(yùn)行,但預(yù)定設(shè)計的控制算法在面臨人類真實的物理環(huán)境及復(fù)雜的動態(tài)情況時可能會失敗,機(jī)器人認(rèn)知真實三維動態(tài)環(huán)境能力缺失會阻礙其智能化深入發(fā)展。期望在未來實現(xiàn)城市信息的精準(zhǔn)映射和良性代謝,最終形成完善的城市孿生數(shù)字生態(tài)。關(guān)于智能圖形技術(shù)與無人機(jī)攝像渲染的區(qū)別性問題,黃教授指出,圖像采集的最終目的是三維重建,其機(jī)理是基于Multi-View System的實景重建,與無人機(jī)攝像渲染具有本質(zhì)區(qū)別。目前智能圖形技術(shù)正應(yīng)用于將激光雷達(dá)和視覺技術(shù)相結(jié)合的自動駕駛環(huán)境建模,通過深入研究有助于推進(jìn)僅依靠激光雷達(dá)難以實現(xiàn)的、真正意義上的3D地圖的重建。
(黃惠教授授課)
馬思偉教授開展了以“視頻編碼:從信號建模到特征學(xué)習(xí)”為專題的分享,深入闡釋視頻編碼的歷史及關(guān)鍵技術(shù)進(jìn)展。從技術(shù)背景、難題出發(fā),講解了深度學(xué)習(xí)、智能視頻編碼的研究進(jìn)展及挑戰(zhàn)。強(qiáng)調(diào)深度學(xué)習(xí)正推動視頻編碼技術(shù)框架的演變,基于神經(jīng)網(wǎng)絡(luò)的智能編碼是突破傳統(tǒng)視頻編碼效率提升瓶頸的重要方向。智能編碼雖面臨算法模型、計算平臺和質(zhì)量評價等多方挑戰(zhàn),但也在推動深度編碼的發(fā)展。馬教授指出,全景視頻雖簡單沿用傳統(tǒng)視頻編碼技術(shù)進(jìn)行視頻拼接,但概念有了更大的拓展,更強(qiáng)調(diào)指陣列式、多路相機(jī)的、使用多視點的編碼方法。另“MIV”形式主要通過投影映射進(jìn)行拼接處理,保留多路相機(jī)的視頻內(nèi)容進(jìn)行傳輸。在未來人們更加看好數(shù)據(jù)量大、表現(xiàn)形式更豐富的點云式三維模型的采集和傳輸。
(馬思偉教授授課)
講習(xí)班的尾聲,盧湖川教授總結(jié)指出,專家學(xué)者們的專題授課,精彩紛呈、亮點頻現(xiàn)、交流碰撞,提出了人工智能領(lǐng)域探索的新觀點、新見解、新方法,為人工智能的創(chuàng)造性發(fā)展提供了諸多可供參考的新路徑。
(盧湖川教授作結(jié)業(yè)總結(jié))