【ITBEAR】在人工智能領(lǐng)域,莫拉維克悖論揭示了AI與人類認(rèn)知能力之間的顯著差異:復(fù)雜邏輯對(duì)AI來(lái)說(shuō)相對(duì)容易,而基本的感知運(yùn)動(dòng)技能卻需耗費(fèi)巨大計(jì)算資源。這一悖論凸顯了當(dāng)前AI技術(shù)的局限性。
人類作為多模態(tài)生物,通過(guò)多種感官模式感知世界,并據(jù)此進(jìn)行決策和行動(dòng)。隨著傳感器融合和AI技術(shù)的演進(jìn),現(xiàn)代機(jī)器人也逐步配備多模態(tài)傳感器,變得愈加智能。

Transformer模型和大語(yǔ)言模型(LLM)的出現(xiàn),推動(dòng)了多模態(tài)AI的集成化發(fā)展,使得單個(gè)模型能同時(shí)處理多種數(shù)據(jù)類型,大幅提高了AI系統(tǒng)的綜合感知能力。
2024年,多模態(tài)技術(shù)加速發(fā)展。OpenAI發(fā)布的Sora能根據(jù)文本描述生成視頻,而GPT-4o則顯著提升了人機(jī)交互性能,實(shí)現(xiàn)了音頻、視覺(jué)和文本之間的實(shí)時(shí)推理。

谷歌也不甘落后,發(fā)布了Gemini 1.5,大幅擴(kuò)展了上下文長(zhǎng)度,并探討了Project Astra的未來(lái)愿景,這是一款能處理多模態(tài)信息的通用AI助手。
多模態(tài)LLM有望改變機(jī)器人的分析、推理和學(xué)習(xí)能力,推動(dòng)機(jī)器人從專用轉(zhuǎn)向通用,進(jìn)而產(chǎn)生規(guī)模化的經(jīng)濟(jì)效應(yīng),被更多領(lǐng)域采用。

在具身智能方面,盡管已取得一定進(jìn)展,但仍需更輕便的設(shè)計(jì)、更長(zhǎng)的運(yùn)行時(shí)間以及更強(qiáng)大的邊緣計(jì)算平臺(tái)。人形機(jī)器人因形體與人類相似,有望在人類環(huán)境中駕輕就熟,執(zhí)行所需操作。
Robotics Transformer(RT)正在快速發(fā)展,它可以將多模態(tài)輸入直接轉(zhuǎn)化為行動(dòng)編碼,展現(xiàn)出強(qiáng)大的泛化能力。

Arm作為未來(lái)機(jī)器人技術(shù)的基石,提出機(jī)器人腦應(yīng)為異構(gòu)AI計(jì)算系統(tǒng),以提供出色性能、實(shí)時(shí)響應(yīng)和高能效。Arm處理器已廣泛應(yīng)用于機(jī)器人領(lǐng)域,期待與生態(tài)系統(tǒng)合作,共同推動(dòng)AI機(jī)器人發(fā)展。
