在探討大模型對科學(xué)發(fā)現(xiàn)的助力時,其“幻覺問題”似乎并不構(gòu)成障礙,反而成為了一種優(yōu)勢。然而,在自動駕駛,尤其是L4級高安全要求的場景中,這一問題卻成為了亟待解決的難題。
具體到自動駕駛的錯誤率,華為在《云計算2030》報告中指出,L3級自動駕駛的容錯率為0.1-1%,而L4級則要求更為嚴(yán)苛,容錯率需在0.0001-0.001%之間。這一數(shù)據(jù)為我們提供了衡量當(dāng)前大模型性能的重要參考。
近年來,隨著模型參數(shù)量的增加、訓(xùn)練數(shù)據(jù)的豐富以及新方法的引入,大模型的準(zhǔn)確率確實在穩(wěn)步提升。例如,GPT3在2020年問世時錯誤率約為40%,而到了2022年底,GPT3.5的錯誤率已降至20%,GPT4更是進(jìn)一步將錯誤率降低到了10%。然而,即便如此,與L4級自動駕駛所需的容錯率相比,仍然存在著顯著的差距。
這種差距在理想汽車的實踐中得到了體現(xiàn)。理想汽車曾嘗試將LLM改造為視覺語言模型DriveVLM,并應(yīng)用于自動駕駛系統(tǒng)。然而,在直播測試中,該系統(tǒng)卻出現(xiàn)了公然逆行的錯誤,暴露了模型輸出錯誤率依然較高的問題。盡管DriveVLM在阿里巴巴的Qwen-VL或meta的LLaMA2-3B基礎(chǔ)上進(jìn)行了額外的訓(xùn)練和優(yōu)化,但準(zhǔn)確率的提升仍然有限。
自動駕駛系統(tǒng)不僅需要高準(zhǔn)確率,還需要在復(fù)雜車流環(huán)境中實現(xiàn)實時決策。這就要求模型的運(yùn)行頻率至少要在十幾赫茲以上。然而,目前理想汽車的視覺語言模型DriveVLM的運(yùn)行頻率僅為3.3赫茲,無法滿足實時軌跡規(guī)劃的需求。
對于如何提升自動駕駛大模型的性能和實時性,業(yè)界存在著不同的看法。有人認(rèn)為,通過升級硬件,如將自動駕駛芯片從Orin升級為英偉達(dá)的Thor,可以顯著提升模型的運(yùn)行頻率。然而,這種觀點(diǎn)忽視了模型參數(shù)量對性能的影響。目前,理想汽車的視覺語言模型DriveVLM的參數(shù)量僅為22億,遠(yuǎn)低于實現(xiàn)L4級自動駕駛所需的參數(shù)量。
相比之下,特斯拉的FSD模型在參數(shù)規(guī)模上更為龐大。據(jù)特斯拉透露,其FSD模型的參數(shù)量已經(jīng)從V12.4版本的10億增加到V13版本的數(shù)百億級別。這種參數(shù)量的提升為特斯拉的自動駕駛系統(tǒng)提供了更強(qiáng)的性能和更高的準(zhǔn)確性。
另一方面,本土智駕企業(yè)在自動駕駛大模型上的實踐也取得了一定的進(jìn)展。他們利用頭部AI企業(yè)開源的具備圖像理解能力的多模態(tài)大模型,結(jié)合駕駛場景進(jìn)行微調(diào)訓(xùn)練,開發(fā)出了自家的視覺語言智駕大模型。這些模型具備圖文識別能力和一定的場景理解能力,可以用于識別潮汐車道、公交車道等交通標(biāo)識,并給出相應(yīng)的駕駛建議。
然而,這些視覺語言模型仍然存在著局限性。它們主要基于2D圖像輸入進(jìn)行后融合處理,缺乏真正的空間理解能力。要實現(xiàn)精準(zhǔn)的空間理解,需要同時輸入車前、車后、左右等多個攝像頭的圖像輸入,并在3D視角下進(jìn)行綜合判斷。這正是BEV前融合技術(shù)的價值所在。因此,盡管生成式AI大模型為自動駕駛帶來了新的可能性,但要真正提升自動駕駛能力,仍然需要克服許多技術(shù)和實踐上的挑戰(zhàn)。