特斯拉近日正式發布了其“完全自動駕駛”軟件的最新版本FSD V13.2,并已完成首批用戶的交付。此次更新帶來了多項新功能,包括停車啟動、自動換擋以及目的地自動泊車等。特斯拉自動駕駛工程師Arek Sredzki強調,新版本中的端到端網絡已經能夠實現從一個停車位到另一個停車位的全程自動駕駛(P2P)。
特斯拉FSD的每一次重要更新,總能引起行業內各大智能駕駛玩家的密切關注。今年年初,特斯拉推送了FSD V12的測試版本,將城市街道駕駛的軟件棧升級為單一的端到端神經網絡。這一變革不僅在美國本土引發了熱議,也遠隔重洋,在中國掀起了一股端到端技術的熱潮。
當前,眾多致力于在自動駕駛領域取得領先地位的汽車制造商和智能駕駛供應商,開始將端到端技術作為宣傳的重點。2024年,多家車企或智能駕駛供應商聲稱已進入“智駕第一梯隊”,無論其技術和產品能力如何,端到端都成為了不可或缺的一個關鍵詞。
端到端技術究竟有何魅力?又存在哪些潛在問題?其與傳統自動駕駛算法的主要區別在于系統架構和數據處理方式。傳統算法通常采用模塊化部署,將感知、預測、規劃和控制等功能劃分為獨立模塊,雖然結構清晰,但存在誤差累積和信息丟失的問題。而端到端架構則通過統一的神經網絡模型,直接從傳感器數據映射到車輛控制指令,簡化了系統結構,提高了整體性和穩定性。
用比喻來說,傳統自動駕駛算法就像是制作蛋糕的分步驟過程,每一步都由專門的廚師負責,而端到端則像是一個特級大廚,從準備原料到蛋糕出爐全程掌控。這種方式能夠更好地協調整個過程,減少錯誤,并快速學習和調整。
然而,在實踐過程中,行業內部出現了兩種路徑選擇:一體化端到端(One Model)和分段式端到端。一體化方案從感知到預測規劃無縫銜接,確保信息完整傳遞,但一旦出現問題,整個系統難以精確調試。分段式方案則將感知和決策規劃分開,并在中間嵌入人工接口,以實現更靈活和可擴展的系統設計。
黑芝麻智能采用了One Model架構的端到端智能駕駛系統,能夠輸入攝像頭、激光雷達、4D毫米波雷達、導航地圖等信息,直接輸出駕駛決策所需的預期軌跡。而Momenta則在去年實現了兩段式端到端,今年上半年又進一步實現了一段式端到端。
為了進一步提升端到端系統決策的準確性和靈活性,行業里流行的做法是結合VLM(視覺語言模型)架構。端到端系統負責處理感知、決策和執行的全過程,而VLM則作為輔助系統,提供對復雜交通場景的理解和語義解析。理想汽車的端到端與VLM相結合的雙系統架構方案,基于人類兩套思維系統理論,旨在賦予車端模型更高的性能上限和發展潛力。
許多觀點認為端到端+VLA(視覺語言動作模型)是端到端+VLM的下一個階段。VLA將端到端系統與多模態大模型更徹底地結合,形成一個統一的模型框架,使系統能夠更全面地理解和響應復雜的駕駛環境。元戎啟行CEO周光表示,從VLM到VLA的進步就像是從有人指導的初學者變成了經驗豐富的老手直接操作,更加高效和安全。
然而,端到端技術的挑戰也顯而易見,尤其是對高質量數據的需求呈指數級增長。受限于高階智能駕駛的量產規模、算力資源,大多數車企和智能駕駛公司都面臨高質量駕駛數據獲取難度大、效率低、成本高的問題。為此,商湯絕影升級發布了“開悟”世界模型,以滿足端到端模型訓練和仿真對數據質量的高要求。
蔚來也在今年的創新科技日上發布了智能駕駛世界模型NWM,該模型能夠在100毫秒內推演出216種可能發生的場景,并找到最優決策。理想汽車也在運用云端世界模型對其快慢雙系統進行能力的訓練和測試,以加速系統迭代。
盡管端到端技術的研發推進面臨重重困難,但眾多企業正在積極尋求解決方案。奇瑞汽車副總經理兼大卓智能CEO谷俊麗表示,核心研發能力將變為數據、云計算以及頂級AI科學家三大要素。奇瑞推出的智能駕駛大模型,也是通過云端世界模型生成豐富場景,預計將在未來幾年實現兩段式和一段式端到端方案的量產上車。
端到端技術的落地將促進其依賴的上游工具鏈和芯片等技術的加速發展,同時進一步提升數據和AI人才的重要性。然而,關于端到端是否就是自動駕駛的終極方案,行業內仍存在不同聲音。商湯絕影CEO王曉剛曾表示,端到端技術并非終點,未來還有通用人工智能、多模態等新技術不斷涌現和突破。