【ITBEAR】在人工智能領域,莫拉維克悖論揭示了AI與人類認知能力之間的顯著差異:復雜邏輯對AI來說相對容易,而基本的感知運動技能卻需耗費巨大計算資源。這一悖論凸顯了當前AI技術的局限性。
人類作為多模態生物,通過多種感官模式感知世界,并據此進行決策和行動。隨著傳感器融合和AI技術的演進,現代機器人也逐步配備多模態傳感器,變得愈加智能。
![圖片1: 機器人配備多模態傳感器](圖片鏈接1)
Transformer模型和大語言模型(LLM)的出現,推動了多模態AI的集成化發展,使得單個模型能同時處理多種數據類型,大幅提高了AI系統的綜合感知能力。
2024年,多模態技術加速發展。OpenAI發布的Sora能根據文本描述生成視頻,而GPT-4o則顯著提升了人機交互性能,實現了音頻、視覺和文本之間的實時推理。
![圖片2: OpenAI發布的Sora和GPT-4o](圖片鏈接2)
谷歌也不甘落后,發布了Gemini 1.5,大幅擴展了上下文長度,并探討了Project Astra的未來愿景,這是一款能處理多模態信息的通用AI助手。
多模態LLM有望改變機器人的分析、推理和學習能力,推動機器人從專用轉向通用,進而產生規模化的經濟效應,被更多領域采用。
![圖片3: 通用機器人](圖片鏈接3)
在具身智能方面,盡管已取得一定進展,但仍需更輕便的設計、更長的運行時間以及更強大的邊緣計算平臺。人形機器人因形體與人類相似,有望在人類環境中駕輕就熟,執行所需操作。
Robotics Transformer(RT)正在快速發展,它可以將多模態輸入直接轉化為行動編碼,展現出強大的泛化能力。
![圖片4: Robotics Transformer](圖片鏈接4)
Arm作為未來機器人技術的基石,提出機器人腦應為異構AI計算系統,以提供出色性能、實時響應和高能效。Arm處理器已廣泛應用于機器人領域,期待與生態系統合作,共同推動AI機器人發展。
![圖片5: Arm處理器在機器人領域的應用](圖片鏈接5)