【ITBEAR】在自動駕駛技術的浩瀚星空中,一條名為“端到端+大模型”的軌跡似乎正逐漸清晰,成為眾多行業巨擘心中的終極方向。
然而,正如自動駕駛技術的多樣性與復雜性,大模型的構建亦無固定模板可循。技術的海洋總是波瀾壯闊,隨著時光的流逝與新技術的涌現,自動駕駛技術也在不斷進化,展現出千姿百態的面貌。
自2022年末ChatGPT橫空出世以來,生成式AI大模型逐漸分化為兩大流派:語言模型與世界模型。語言模型在數字世界深耕細作,從單一文本模態拓展至包含圖片、視頻的多模態,實現了文生圖、看圖說話、圖生圖、文生視頻等能力,Sora與GPT4-o便是其中的佼佼者。而世界模型則跨越數字與物理的界限,從一維的數字智能邁向三維的空間智能。
李飛飛,這位出生于北京、在美國成就輝煌的AI先驅,對空間智能有著獨到的見解。她認為,空間智能意味著AI能在三維空間與時間中以三維方式感知、推理并行動,與現實世界進行交互。相較于大語言模型以文本序列對世界進行一維表示,空間智能將三維視為表達的核心。
從自動駕駛大模型的賽道來看,小鵬與理想的選擇更偏向于在文本基礎上疊加圖片和視頻模態的語言模型,而蔚來與特斯拉則傾向于空間智能的世界模型。語言模型如東北大哥,先聲奪人,再決定行動;世界模型則如湖南老表,干脆利落,直接給出行駛軌跡。
在自動駕駛技術的激烈競爭中,數據標注成為關鍵一環。然而,隨著端到端范式的到來,許多數據需要重新標注。語言模型依賴于海量的有監督學習數據標注,而世界模型則通過無監督學習,無需數據標注,便能應對海量數據的新范式。蔚來汽車的世界模型通過推演萬千平行世界,選擇最優行駛軌跡,這一能力不僅直接給出行駛結果,更通過無監督學習訓練出對駕駛場景的深度理解能力,實現了從感知到認知的躍升。
相較于傳統的BEV+OCC感知能力,世界模型展現出更加細膩的場景理解能力。它能夠理解當前的光照條件、天氣情況,這些對自動駕駛至關重要的因素。通過海量數據的無監督訓練,世界模型建立了對當前世界的深度理解能力,為準確推演未來世界奠定了堅實基礎。
在這場自動駕駛技術的革命中,算力成為制約發展的關鍵。蔚來選擇世界模型,或許正是基于其對算力的更高要求。而隨著算力的不斷升級,理想和小鵬從語言模型向世界模型的過渡,似乎已成為一個可期的未來。