【ITBEAR】在自動駕駛技術(shù)的浩瀚星空中,一條名為“端到端+大模型”的軌跡似乎正逐漸清晰,成為眾多行業(yè)巨擘心中的終極方向。
然而,正如自動駕駛技術(shù)的多樣性與復雜性,大模型的構(gòu)建亦無固定模板可循。技術(shù)的海洋總是波瀾壯闊,隨著時光的流逝與新技術(shù)的涌現(xiàn),自動駕駛技術(shù)也在不斷進化,展現(xiàn)出千姿百態(tài)的面貌。
自2022年末ChatGPT橫空出世以來,生成式AI大模型逐漸分化為兩大流派:語言模型與世界模型。語言模型在數(shù)字世界深耕細作,從單一文本模態(tài)拓展至包含圖片、視頻的多模態(tài),實現(xiàn)了文生圖、看圖說話、圖生圖、文生視頻等能力,Sora與GPT4-o便是其中的佼佼者。而世界模型則跨越數(shù)字與物理的界限,從一維的數(shù)字智能邁向三維的空間智能。
李飛飛,這位出生于北京、在美國成就輝煌的AI先驅(qū),對空間智能有著獨到的見解。她認為,空間智能意味著AI能在三維空間與時間中以三維方式感知、推理并行動,與現(xiàn)實世界進行交互。相較于大語言模型以文本序列對世界進行一維表示,空間智能將三維視為表達的核心。
從自動駕駛大模型的賽道來看,小鵬與理想的選擇更偏向于在文本基礎上疊加圖片和視頻模態(tài)的語言模型,而蔚來與特斯拉則傾向于空間智能的世界模型。語言模型如東北大哥,先聲奪人,再決定行動;世界模型則如湖南老表,干脆利落,直接給出行駛軌跡。
在自動駕駛技術(shù)的激烈競爭中,數(shù)據(jù)標注成為關(guān)鍵一環(huán)。然而,隨著端到端范式的到來,許多數(shù)據(jù)需要重新標注。語言模型依賴于海量的有監(jiān)督學習數(shù)據(jù)標注,而世界模型則通過無監(jiān)督學習,無需數(shù)據(jù)標注,便能應對海量數(shù)據(jù)的新范式。蔚來汽車的世界模型通過推演萬千平行世界,選擇最優(yōu)行駛軌跡,這一能力不僅直接給出行駛結(jié)果,更通過無監(jiān)督學習訓練出對駕駛場景的深度理解能力,實現(xiàn)了從感知到認知的躍升。
相較于傳統(tǒng)的BEV+OCC感知能力,世界模型展現(xiàn)出更加細膩的場景理解能力。它能夠理解當前的光照條件、天氣情況,這些對自動駕駛至關(guān)重要的因素。通過海量數(shù)據(jù)的無監(jiān)督訓練,世界模型建立了對當前世界的深度理解能力,為準確推演未來世界奠定了堅實基礎。
在這場自動駕駛技術(shù)的革命中,算力成為制約發(fā)展的關(guān)鍵。蔚來選擇世界模型,或許正是基于其對算力的更高要求。而隨著算力的不斷升級,理想和小鵬從語言模型向世界模型的過渡,似乎已成為一個可期的未來。