【ITBEAR】智能駕駛行業正迎來技術革新的浪潮,“端到端”技術尚未被全面掌握,便已進入了換代時期,深度融合多模態大模型成為新的進化方向。
近期備受關注的VLA(Vision-Language-Action Model)模型,便是這一技術革新的典型代表。該模型結合了視覺、語言和動作,展現出更高的場景推理與泛化能力,被業界視為“端到端”方案的升級版。
VLA模型最初在機器人行業亮相,由谷歌DeepMind推出。然而,其影響力正迅速擴散至智能駕駛領域。谷歌旗下自動駕駛公司Waymo已率先基于該模型推出了自動駕駛多模態模型EMMA,標志著VLA模型正式進軍智能駕駛市場。
與傳統的智能駕駛方案相比,VLA模型的最大特點在于其深度融合了多模態大模型。這使得智能駕駛系統不僅能夠依賴規則算法進行決策,更能借助大模型的強大能力,提升對復雜交通場景的理解與應對能力。
理想汽車等業內領軍企業已經開始布局VLA模型。理想汽車在三季度財報電話會議上透露,公司已啟動L4級別自動駕駛的預研工作,重點研發車端VLA模型與云端世界模型相結合的強化學習體系。這顯示出VLA模型在智能駕駛領域的應用前景備受期待。
然而,VLA模型的上車應用并非易事。該模型對技術和車端芯片算力提出了極高要求。業內人士指出,能夠支持VLA模型上車交付的芯片可能在2026年才會出現。這意味著,在短期內,VLA模型的大規模應用仍面臨挑戰。
盡管如此,VLA模型的出現無疑為智能駕駛行業帶來了新的發展機遇。其深度融合多模態大模型的特點,有望助力智能駕駛系統在復雜交通場景中實現更擬人化的表現,推動智能駕駛技術的持續進步。
同時,VLA模型的發展也將對智能駕駛行業的競爭格局產生影響。對于尚未發力端到端技術的玩家而言,VLA模型的出現無疑增加了其追趕的難度。后發制人的機會在這一技術革新面前顯得更加稀少。
總體來看,VLA模型作為智能駕駛行業的新星,雖然面臨諸多挑戰,但其巨大的發展潛力和廣闊的應用前景已然顯現。未來,隨著技術的不斷進步和芯片算力的提升,我們有理由期待VLA模型在智能駕駛領域大放異彩。