特斯拉近日宣布其“完全自動駕駛”軟件FSD迎來了最新版本V13.2,并已順利完成首批用戶交付。此次更新亮點紛呈,新增了停車啟動、自動換擋以及目的地自動泊車等功能,進一步提升了用戶體驗。特斯拉自動駕駛工程師Arek Sredzki強調,新系統的端到端網絡如今能夠直接將乘客從一個停車位安全送達至另一個,實現了P2P(點到點)的無縫銜接。
特斯拉FSD的每次重大更新,總是能迅速吸引國內外智能駕駛領域的廣泛關注。年初,特斯拉推送FSD V12測試版時,就將城市街道駕駛的軟件棧革新為單一的端到端神經網絡,這一變革如同在平靜的水面投下了一顆巨石,不僅在美國本土引起了軒然大波,也在遙遠的中國掀起了一股端到端技術的熱潮。
當前,眾多致力于在自動駕駛領域拔得頭籌的汽車制造商和智能駕駛供應商,紛紛將端到端技術置于其宣傳的核心位置。2024年,多家車企和智能駕駛供應商宣稱自己已進入“智駕第一梯隊”,盡管技術和產品能力各異,但端到端技術無一例外地成為了他們的關鍵詞。
端到端技術究竟有何魔力,又隱藏著哪些不為人知的秘密呢?從根本上看,端到端與傳統自動駕駛算法的主要區別在于系統架構和數據處理方式。傳統算法采用模塊化部署,將感知、預測、規劃和控制等功能分割為獨立模塊,雖然結構清晰,但容易導致誤差累積和信息丟失。而端到端架構則將整個駕駛過程視為一個整體,通過統一的神經網絡模型,直接從傳感器數據映射到車輛控制指令,不僅簡化了系統結構,還顯著提高了整體性和穩定性。
在實踐過程中,行業內部對于端到端的路徑選擇出現了分歧,主要分為一體化端到端(One Model)和分段式端到端(模塊化端到端)兩種方案。一體化端到端從感知到預測規劃無縫銜接,確保了信息的完整傳遞,系統響應速度更快,但調試難度較大。分段式端到端則將感知和決策規劃分開,并在中間嵌入人工接口,以實現更靈活和可擴展的系統設計,但可能面臨信息損失和全局最優性問題。
為了進一步提升端到端系統決策的準確性和靈活性,行業普遍采用端到端+VLM(視覺語言模型)架構。在這種架構下,端到端系統負責處理感知、決策和執行的全過程,而VLM作為輔助系統,提供對復雜交通場景的理解和語義解析。例如,理想汽車的端到端與VLM相結合的雙系統架構方案,就基于人類兩套思維系統理論,旨在賦予車端模型更高的性能上限和發展潛力。
不過,許多專家認為,端到端+VLA(視覺語言動作模型)將是端到端+VLM的下一個發展階段。VLA將端到端系統與多模態大模型更徹底地結合,形成一個統一的模型框架,能夠更全面地理解和響應復雜的駕駛環境。元戎啟行CEO周光表示,從VLM到VLA的進步,就像是從有人指導的初學者變成了經驗豐富的老手直接操作,后者更為先進且可靠。
然而,端到端技術的落地并非易事,其中最大的挑戰之一是對數據的高要求。商湯絕影指出,端到端智駕模型對于高質量數據的需求呈指數級增長,但目前受限于高階智駕的量產規模、算力資源,高質量駕駛數據的獲取難度大、效率低、成本高。為此,商湯絕影發布了“開悟”世界模型,以滿足端到端模型訓練和仿真對于數據質量的高要求。
蔚來也在今年的創新科技日上發布了其智能駕駛世界模型NWM,該模型能夠在短時間內推演出多種可能發生的場景,并找到最優決策。理想汽車則運用云端世界模型對其快慢雙系統進行能力的訓練和測試,以加速系統的迭代升級。
盡管端到端技術的研發面臨諸多困難,但眾多企業仍在積極尋求解決方案。奇瑞汽車副總經理兼大卓智能CEO谷俊麗表示,面對越來越大的AI模型,企業需要強大的數據、云計算以及頂級AI科學家的支持。奇瑞推出的智駕大模型,也是通過云端世界模型生成豐富場景,預計將在未來幾年內實現兩段式和一段式端到端方案的量產上車。
隨著端到端技術的不斷發展和完善,它將進一步推動上游工具鏈、芯片等技術的加速發展,并提升數據和AI人才的重要性。然而,關于端到端是否就是自動駕駛的終極方案,行業內仍存在不同看法。但可以預見的是,這一輪端到端的技術競爭,將推動整個行業向更加智能化、高效化的方向發展。