【ITBEAR】在具身智能領域,環境感知與理解能力被視為其核心競爭力。特別是在Transformer架構問世后,視覺模型與其融合,經歷了一場從“小模型到大型模型,從多任務到單一模型”的變革,顯著提升了全場景視覺感知能力,為技術的實際應用開辟了更廣闊的道路。
近日,IDEA研究院在深圳舉辦的2024 IDEA大會上,隆重發布了最新的DINO-X通用視覺大模型。該模型具備物體級別的理解能力,能夠無需人工提示,實現對開放世界目標的自動檢測。同時,IDEA研究院還推出了行業平臺架構,通過大模型基座與通用識別技術的結合,使得模型能夠在不重新訓練的情況下,邊使用邊學習,滿足多種應用需求。
IDEA研究院創院理事長、美國國家工程院外籍院士沈向洋在會上表示,當前具身智能正處于新一輪的落地浪潮中,技術路徑更加注重泛化性和現實場景的適應性。為此,IDEA研究院宣布了三項重要合作:與騰訊合作,在深圳福田區及河套深港科技創新合作區建設福田實驗室,專注于人居環境具身智能技術的研發;與美團攜手,探索無人機視覺智能技術;與比亞迪合作,拓展工業化機器人的智能應用。
傳統機器人在工廠制造、汽車生產車間、物流倉儲等半結構化領域中已有所應用,但面對真實場景時,其認知能力仍有待提升。IDEA研究院計算機視覺與機器人研究中心負責人張磊指出,不同類型的機器人,如雙臂機器人和移動機器人,在面對復雜環境時,需要更高的認知與決策能力。特別是移動機器人,在室外環境中,其面臨的挑戰與無人駕駛類似,需要應對結構化、半結構化甚至非結構化的道路環境。
AI大模型的引入,為機器人的認知和決策能力帶來了顯著提升。騰訊Robotics X實驗室智能體中心負責人韓磊認為,語言是人類知識和思維的高度抽象,而機器人則是通過第一人稱視角來感知世界,因此,視覺理解是機器人首要的任務。
在圓桌討論《從視覺到行動:具身智能的挑戰和機遇》中,與會專家一致認為,多模態信息的加入,結合物理世界的認知,可以顯著增強機器人對世界的理解角度。這對于機器人的運動控制、環境適應以及任務執行等方面都具有重要意義。
美團副總裁兼無人機業務部負責人毛一年表示,機器人應用的首要場景應該是人類的高風險任務,如上山巡檢、深海檢測、油田鉆井、高樓清潔等。通過從小場景切入,逐步擴大應用范圍,可以逐漸提升用戶對機器人的接受度和信任度。他強調,機器人的應用需要確保安全穩定,避免給用戶帶來不必要的麻煩或損失。
沈向洋院士在會上還指出,在技術大爆發的時期,對技術的深度理解尤為重要。深圳這座城市以其快速的迭代速度,不僅在硬件領域不斷創新,也在軟件領域取得了顯著成果。IDEA研究院除了與福田實驗室合作外,還與前海深港合作區、深圳龍崗區、橫琴粵澳深度合作區等地建立了多個分支機構,共同推動技術創新和成果轉化。
在初創生態方面,IDEA研究院還孵化了一批生態企業,如識淵科技、AI玩伴機器人愛小伴、GPU加速電影工業渲染器Smaray慧光追等,這些企業在各自的領域內取得了不俗的成績,為IDEA研究院的創新生態增添了新的活力。