【ITBEAR】近日,知名增強現實(AR)技術公司Rokid推出了其最新一代AR眼鏡——Rokid Glasses,該眼鏡集成了攝像頭、多模態大模型以及光波導技術,實現了對真實世界的深度感知與用戶交互的顯著提升。然而,盡管技術進步顯著,當前的AI模型在理解真實世界的空間關系上仍面臨巨大挑戰。
具體而言,現有的AI視覺模型主要依賴于二維照片進行物體識別,缺乏像人類一樣的空間理解能力,難以準確描述物體間的相對位置和空間關系。這一局限性不僅影響了AR技術的進一步發展,也限制了AR眼鏡在實際應用中的廣泛普及。
為了突破這一瓶頸,AR技術的未來或許需要從更先進的AI大模型中尋找答案。早前,《Pokémon Go》的開發商Niantic宣布正在開發一種名為“地理空間大模型”(LGM)的新技術,旨在利用大規模機器學習來理解和模擬真實世界的空間關系。
Niantic認為,通過大語言模型的訓練方式,AI有望實現超越人類的空間理解能力,即“空間智能”。這一野心的背后,是Niantic在全球范圍內收集的大量真實影像和地圖數據,這些數據來自于其熱門游戲《Pokémon Go》和《Ingress》的玩家。Niantic還開發了視覺定位系統(VPS),能夠在3D地圖中根據單個圖像確定用戶的位置。
事實上,Niantic在2021年已經發布了一項名為ManyDepth的技術,該技術能夠通過單個手機攝像頭直接創建3D地圖,將二維圖像轉化為帶有深度信息的三維圖像,而無需依賴LiDAR等深度傳感器。
Niantic的LGM模型目前已經訓練了超過5000萬個神經網絡,擁有超過150萬億個參數,能夠在全球超過100萬個位置運行。該模型的目標是在全球范圍內實現對地理空間的共同理解,即使對于那些未被玩家掃描過的地區也能提供準確的空間信息。
對于AR眼鏡而言,LGM模型的意義不僅在于提供了高精度的空間定位能力,更重要的是,它使計算機能夠更準確、高效地感知和理解物理空間,從而深刻改變人與機器在物理世界中的交互方式。這一技術突破有望推動AR眼鏡以及智能機器人等設備的普及和應用。
然而,盡管LGM模型在理論上具有巨大的潛力,但在實際應用中仍面臨諸多挑戰。首先,LGM模型在中國等尚未出現類似《Pokémon Go》這樣的AR+LBS游戲市場的地區,缺乏足夠的用戶數據和場景應用。其次,LGM模型目前仍在開發中,其實際表現和未來前景尚難以斷言。
盡管如此,AI大模型對AR眼鏡的影響已經顯而易見。近年來,AR眼鏡的關鍵轉變在于大模型帶來的自然理解能力的大幅提升,使得人機語音交互變得更加自然和流暢。這一變化為AR眼鏡的爆發提供了前提條件。
從交互體驗的角度來看,AI語音交互的引入顯著改善了AR眼鏡在人機交互方式上的短板。同時,大模型也在推動計算機視覺能力的“基因突變”,為AR眼鏡的未來發展方向提供了更多可能性。盡管目前AI視覺的價值尚未完全展現,但基于攝像頭的AI視覺(端云混合)在理論上具有更高的潛力,能夠降低空間交互的復雜度和門檻,減少傳感器和傳統計算開銷,從而實現重量和成本的降低以及續航的提升。