一場由蘋果引發(fā)的空間計算時代革命,鐫刻在AR(增強現(xiàn)實)發(fā)展的里程碑上。由Vision Pro打造的沉浸式空間,正在為用戶帶來全新的人機交互體驗,比如:突破傳統(tǒng)顯示屏的限制,用戶瀏覽 app 時,只要輕松地看著它們、捏合手指來選擇,即可在空中任意拖拉點擊。
事實上,這也是Rokid一直探索的方向——將人、現(xiàn)實世界與虛擬世界的融合,更自然真實地結(jié)合在一起。
在今年3月的Rokid Open Day上,Rokid發(fā)布了全新一代自研AR空間操作系統(tǒng)——YodaOS-Master:基于Rokid Max Pro眼鏡,張開手掌,菜單立馬浮現(xiàn)在眼前。點擊圖標,便可進入應(yīng)用,享受靈動隨心的空間多屏互動體驗。其中,業(yè)內(nèi)首創(chuàng)基于單攝像頭即可實現(xiàn)SLAM及3D裸手交互等能力,這一全新的技術(shù)路線,發(fā)布即引發(fā)行業(yè)的關(guān)注與熱議。
今天,中國開發(fā)者最重要的年度盛典之一“2023年Unity技術(shù)開放日”首站在北京隆重舉行,Rokid出席本次活動。會上Rokid系統(tǒng)研發(fā)總工程師石文峰帶來了主題為《Rokid YodaOS-Master系統(tǒng)介紹及應(yīng)用開發(fā)與落地》的演講,分享了這一備受關(guān)注的技術(shù)路線,以及Rokid最新的技術(shù)發(fā)展,與現(xiàn)場開發(fā)者們進行了深入的交流與探討。
Rokid全新一代自研空間AR系統(tǒng)
業(yè)內(nèi)首創(chuàng)單攝SLAM技術(shù)
在今天的游戲論壇上,Rokid系統(tǒng)研發(fā)總工程師石文峰,結(jié)合多年豐富的AR行業(yè)技術(shù)研發(fā)經(jīng)驗,向現(xiàn)場開發(fā)者們介紹了備受關(guān)注的YodaOS-Master系統(tǒng),以及Rokid背后的技術(shù)思考。
圍繞感知、理解、交互、展現(xiàn)、協(xié)同和數(shù)字創(chuàng)作五個方面,YodaOS-Master從芯片優(yōu)化、硬件設(shè)計、軟件架構(gòu)、AR算法還有創(chuàng)作工具等諸多方面都做了巨大升級,或是目前最為完整的一套面向AR時代的空間操作系統(tǒng)。
基于Rokid Max Pro眼鏡,首創(chuàng)基于單攝像頭即可實現(xiàn)SLAM、3D裸手交互、第一視角分享、視覺定位VPS等能力,可以支持多任務(wù)運行、空間創(chuàng)作等AR體驗,給更輕量化、普惠的AR眼鏡帶來無限可能。
在YodaOS操作系統(tǒng)誕生之初,Rokid就秉持著一個觀點,通過YodaOS操作系統(tǒng)賦能開發(fā)者,釋放想像力,創(chuàng)造價值。
石文峰表示,“YodaOS-Master操作系統(tǒng)通過模塊化的方式,將Rokid語音識別、手勢識別、SLAM等在內(nèi)的多項核心技術(shù)進行‘打包’處理,形成SDK供開發(fā)者高效開發(fā),比如SDK for Unity,可以讓Unity開發(fā)者能夠快速使用Rokid核心技術(shù)進行開發(fā)。”
Rokid一直致力于更自然的AR交互體驗。相比于傳統(tǒng)的2D手勢識別,3D手勢識別更具有挑戰(zhàn)性?;赮odaOS-Master的底層系統(tǒng)能力,文峰老師重點談到了Rokid目前的單目3D手勢識別技術(shù)。
基于深度學習算法和大量實驗數(shù)據(jù),Rokid自研的單目3D手勢算法能在移動端實時重建手部姿態(tài)參數(shù),包括手部6DoF、手部關(guān)節(jié)點26DoF,以及Hand Mesh信息,為AR的手勢交互提供良好的算法基礎(chǔ)。
目前,Rokid的手勢識別在3D空間中可實現(xiàn)多種操作,包括點、捏、抓、握、拖、拉等等,完全可以滿足AR交互應(yīng)用需求。例如,戴上Rokid Max Pro,伸出手,在眼前張開手掌即可呼出菜單。
值得一提的是,Rokid軟硬件于一體的AR空間體驗已在全國多個場景落地,包括全國首個基于AR眼鏡的元宇宙街區(qū)項目——杭州文三元宇宙AR數(shù)字生活街區(qū)、全國文旅行業(yè)內(nèi)首個基于單目視覺SLAM的AR眼鏡導覽方案——敦煌AR智能導,以及釘釘攜手Rokid所打造的全國首個企業(yè)AR數(shù)字展廳等等。
若琪數(shù)字人+AIGC
多模態(tài)交互體驗全新升級
隨著AI時代的加速發(fā)展,人機交互方式的發(fā)展趨勢為多模態(tài)交互。單一的鍵盤交互、觸摸交互、語音交互等方式,已經(jīng)不能滿足未來人們更深層次的需求。
試想,如果你想要邊聽音樂邊辦公的話,需要先通過語音或觸摸交互的方式喚醒音響,再通過鍵盤交互的方式打開辦公軟件。但如果你擁有一個“數(shù)字人”助手,一切變得簡單起來,只需一個指令,就可以同時完成這兩件事。
這也是Rokid做AI數(shù)字人的原因之一。石文峰表示,AI數(shù)字人技術(shù)可以串連系統(tǒng)所有的能力,包括語音助手AI數(shù)字人、SLAM、3D手勢、6DOF空間音頻等Rokid核心技術(shù),從而為用戶帶來更豐富的人機交互體驗。
目前,Rokid所打造的“若琪”數(shù)字人已經(jīng)全面接入AIGC,用戶可以隨時喚起“若琪”,和這位虛擬助手探討任何有趣的話題。
石文峰介紹,這背后采用的是AIGC多模態(tài)數(shù)字智能驅(qū)動的模式,通過ASR、NLP、TTS等自研算法技術(shù),驅(qū)動“若琪”產(chǎn)生準確的面部表情、語音表達、肢體動作,并且表現(xiàn)得更真實、自然、流暢。
Rokid全方位賦能開發(fā)者
共同迎接下一個人機互交時代
觀影、游戲、辦公、教育等多種場景,隨著AR、MR等技術(shù)的趨向成熟,未來將有著無限的想像空間。多重生態(tài)內(nèi)容的重新構(gòu)建,亟待開發(fā)者們帶來更多突破與創(chuàng)新。
Unity技術(shù)開放日是中國開發(fā)者最重要的年度互動盛典之一,通過每年的若干場線下巡回活動,為創(chuàng)作者群體搭建技術(shù)交流平臺,傳達技術(shù)演進路徑,營建多元活躍的開發(fā)者社區(qū)氛圍,同時聆聽來自開發(fā)者的聲音,賦能實時3D技術(shù)的內(nèi)容創(chuàng)新與應(yīng)用延展。
Rokid作為AR行業(yè)領(lǐng)軍企業(yè),參與共促行業(yè)繁榮。當天的活動中,Rokid除了帶去最新的技術(shù)分享演講,還在現(xiàn)場設(shè)置展臺區(qū),帶來了包括Rokid最新AR產(chǎn)品與生態(tài)建設(shè)場景,供現(xiàn)場開發(fā)者們體驗,幫助他們更直觀地了解Rokid的最新技術(shù)與生態(tài)。
近年來,Rokid始終致力于賦能更多的開發(fā)者,打造了專門的AR開放平臺(ar.rokid.com),推出了“若琪空間站”開發(fā)者助力計劃,舉辦全球范圍的AR應(yīng)用開發(fā)大賽等,激勵開發(fā)者共同參與生態(tài)共建,促進AR生態(tài)繁榮。
文峰介紹,Rokid為開發(fā)者們量身打造的“若琪空間站”開發(fā)者助力計劃,在硬件設(shè)備、算法能力、開發(fā)支持、市場推廣等方面全方位支持開發(fā)者。同時,Rokid聯(lián)合多個行業(yè)頭部企業(yè)與VC成立10億人民幣規(guī)模的生態(tài)智投聯(lián)盟,對優(yōu)秀的開發(fā)者直接進行投資。
在大力扶持開發(fā)者的同時,Rokid成功舉辦了首屆全球AR應(yīng)用開發(fā)大賽,為全球開發(fā)者頒出11項重磅大獎。今年5月,Rokid首屆高校XR內(nèi)容創(chuàng)作大賽面向全國高校正式啟動,激發(fā)高校創(chuàng)新力量。
未來,Rokid愿攜手更多合作伙伴,一起加入AR生態(tài)構(gòu)建中,打造開放共贏的生態(tài)體系,持續(xù)為行業(yè)賦能,推動AR行業(yè)加快發(fā)展,共同迎接下一個人機交互時代。