最近兩年,自動駕駛儼然已經成為一個大眾話題,但很多問題的討論仍然聚焦在表面。
比如,對于自動駕駛的討論更多還是集中在感知領域,涉及到要用多大算力的芯片、要不要上激光雷達,上幾顆等爭論,看不看得懂,看不看得清的問題。
但其實隨著智能駕駛產品(主要是輔助駕駛產品)的規模量產,越來越多的普通用戶其實已經能夠體驗到自動駕駛到底是司機的福音,還是帶來更多駕駛難題?
當智能駕駛開始交付給普通用戶的時候,作為乘用車的基礎功能,除了感知智能識別的準確性外,決策和控制的安全性、穩定性和舒適性也同樣重要。
盡管說市面上很多車企都推出了被稱為L2級的輔助駕駛產品,但實際上,性能和體驗差別極大。主要的差別,一方面在于硬件方面的傳感器精度、范圍,以及算力的上限,所決定的能夠識別環境、場景的廣度和范圍,另一個就是車輛對這些感知的判斷和決策。
這也成為很多車主日常吐槽輔助駕駛不夠聰明,也不夠省心,更不夠舒適的地方。
比如這種“自主了但又沒自主”問題,有些帶有高速域輔助駕駛功能車輛開啟了自主變道超車功能,但在高速遇到稍微車多的情況,車輛就遲遲完成不了變道指令,讓變道變了一個寂寞。
又比如,“新手剎車”問題,有些輔助駕駛系統就像剛上路的新手一樣,很難把握剎車的輕重,一些明明可以勻速減速的場景,車輛卻總會拖到最后一刻才急剎。
實際來說,當下這些自動駕駛或者說輔助駕駛產品,其決策系統更多依靠執行既定駕駛策略和規則,而不是采用人類的泛化學習。
當人類新手有了半年時間或者幾千公里的開車實踐,基本就可以做到非常絲滑的駕駛,那么,對于自動駕駛來說,是不是有真正能解決認知決策痛點的“第一性原理”呢?
接下來,我們透過中美兩家極具代表性的自動駕駛技術玩家特斯拉和毫末智行(參數|圖片),看下自
動駕駛究竟要怎樣才能做到更有“人性的智慧和溫度”?
復刻“老司機”邏輯:特斯拉自動駕駛的“自我學習”
日本作家夏目漱石在他的長篇小說《貓》中,曾借貓咪之口這樣講到,“人類所有的研究,都是為了研究自己”,其實自動駕駛又何嘗不是對人工駕駛的學習呢。
在自動駕駛領域中,馬斯克可以說是第一個“明牌”這一想法的人,而他的這一邏輯則是源于對第一性原理的思考。
基于第一性原理,我們也可以對人工駕駛再做一次復盤:想象一下,在擁堵的城市中跟車時,在紅綠燈路口與對向車流博弈時,我們是怎么做的?
美國科學院院士丹尼爾·卡尼曼在其書籍《思考,快與慢》中,將人類的思維分為了本能反應與深度思考。我們之所以能高效舒適地完成復雜場景下的駕駛,靠的便是通過不斷學習實現這二者的融合,這也是人能否從新手蛻變至老司機的關鍵。
對于自動駕駛而言,當前現狀再清晰不過了。由于大量手寫規則的采用,自動駕駛實際并不具備深度思考的前提條件,僅能依靠本能反應決策;想讓自動駕駛媲美人工駕駛,首先要賦予其深度思考的能力,其次則是實現其與本能反應的融合。
想清楚了這一點,自動駕駛至少有方向可循了,但方向只是第一步,想要讓自動駕駛更像人,還需要有好的方法。
關于這一點,早早實現高速域與城市域輔助駕駛的特斯拉已經給我們打好了樣板。按照駕駛場景,特斯拉首先會進行辨別,哪一種是相對簡單的,哪一種是更復雜的,由此將規劃&控制分為兩線,給予不同的邏輯。
以大型商超的停車場為例。工作日的商超停車場車流量稀少,能夠給到駕駛者很高的自由度,算是簡單的場景;而節假日的商場停車場則完全相反,大量的車流、擁擠的車道、搶手的車位,以及隱藏在視野盲區下胡亂奔跑的小孩,這種環境非??简烋{駛者與其它交通參與者的博弈心理與駕駛能力,是非常復雜的場景。
那么特斯拉是如何應對這兩種場景的?在一些相對簡單的場景中,特斯拉會根據感知繪制的3D向量空間的基礎上,加入一條粗估的行進路徑,再加入安全性、舒適性等指標進行優化,得出一條具備多種參數的時空軌跡。
而面對復雜場景,特斯拉借助Transformer大模型全局注意力機制的特點,并以車主數據為基礎訓練一套算法模型,由此讓AI決策與人腦的想法更接近,并提高實時性。
此外,在與其他車輛、人等交通參與者遭遇時,特斯拉會對其他交通參與者的狀態參數收集,并得出其路徑,由此再調整自己的軌跡與規劃。這一特征將是實時的,以確保特斯拉能夠針對環境的改變快速做出反應。
總結來看,特斯拉的自動駕駛復刻了人工駕駛的思維邏輯,而這些思維邏輯換算到自動駕駛的語言,便是數據、算力、算法。
數據是自動駕駛的基石,就像書本中的文字一樣,想要讀懂書籍,就必須先學會識字,而算法便是書籍,其將零散而無意義的文字組合,提供自動駕駛需求的知識;算力的理解就很簡單了,有一顆聰明的大腦,自動駕駛才能將看到的知識真正學會。
當然,特斯拉的自動駕駛技術在當下也算不上足夠“聰明”,但其自動駕駛與第一性原理融會貫通、并將其成功運用于規劃與控制環節中,卻依舊是領先的。
換句話說,特斯拉確實走在了自動駕駛的前列,而在其余自動駕駛企業中,誰能率先領悟到這一點、并率先實現落地,誰的自動駕駛技術與產品就能獲得更多用戶、乃至整個市場的青睞。
從怎么學到學什么:毫末讓自動駕駛更有“人性溫度”
如今縱觀整個行業,以數據為基石的自動駕駛企業并不多,而除特斯拉外,毫末智行絕對是最吸引人的那一家。
毫末智行為自家的數據智能體系命名為MANA,其具備感知智能、認知智能、標注、驗證與計算五大能力。MANA在2021年底被毫末智行正式提出,并在4個月后宣布實現了感知智能、認知智能、成本&速度三大領域的進化。
在這之中,認知智能就是毫末用以幫助自動駕駛技術實現更人性化、更有溫度的方法。
在毫末智行看來,認知智能很難被量化、規則化,因為牽扯到很多變量,如果按照以往的手寫規則,必然會因為規則量的暴漲導致整個自動駕駛崩潰。
同樣,自動駕駛作為人工智能的一大分支,其核心應當是智能,而規則只是機械的命令執行。所以認知智能的目標,就是替代手寫規則,讓自動駕駛更像人。
基于此,毫末智行為感知智能設定了三大要素,分別是安全、高效與舒適。安全是自動駕駛的前提,而高效與舒適則需要從數據中學習,其他交通參與者行為的理解和超時空的歷史經驗。
概念說太多容易眼高手低,所以對于如何讓自動駕駛更像人,毫末提出了讓自己的自動駕駛學徒畢業的“兩步走”策略:第一步是讓自動駕駛懂得“怎么學”,第二步是讓自動駕駛知道“學什么”。
對于“怎么學”,毫末智行的想法是,借助Transformer大模型及其全局注意力機制的特點進行預訓練,為自動駕駛不同的算法模塊設計算法模型。
這樣做的好處是,經過統一大模型預訓練得到的模型具有更高的泛用性,各模型之間可以快速建立聯系,提升整個自動駕駛系統的工作效率;另外具備全局注意力機制的模型也具備更強的魯棒性,在面對復雜場景時,更能高效消化海量數據、輸出更準確的決策。
對于這一功能的優勢,最好的演繹莫過于經典的紅綠燈場景。想象一下,如果此時的你是左轉道的頭車,而在綠燈后,你將如何穿過對向的直行車流,完成左轉?
按照傳統輔助駕駛產品的邏輯,此時必定是以保證安全+遵守法規為前提的,然而現實情況是,如果你完全遵循這一前提,你是根本無法在綠燈內實現左轉的,而后車也會因你影響通行效率,夸張點引起怒路癥都不為過。
人是會審時度勢進行變通的,但手寫規則不會。所以毫末智行的做法便是,以車主在這一場景下的行為動作進行解析,由此解出為一套完整的思維邏輯。
而全局注意力機制的優勢則體現在,駕駛者在與臨近的對向車輛進行博弈時,還會將附近的交通參與者加入進來,做到“抬起頭走路”;而缺少全局注意力機制帶來的結果就會像“低著頭走路”,出門只能中午走,因為早晚要撞墻。
毫末智行將認知智能“怎么學”模塊命名為TarsGo模塊。TarsGo會以數據驅動,并以模型的形式訓練算法,由此實現對人腦思維邏輯與學習的模擬,實現最終對手寫規則的替代。
解決了“怎么學”,下一個問題就是“學什么”。同樣在紅綠燈左轉的場景中,有的車主會以非常暴力、或者過于激進冒險的方式通過,極容易引發事故或擁堵。而這種駕駛數據和策略,對于自動駕駛來說,顯然是不值得學習的數據。毫末會將人類駕駛中那些更穩妥安全駕駛策略的數據進行篩選,作為機器學習模型用來學習的樣本,從而訓練出更安全、更符合交通規則,也更具人性化的駕駛策略。
對此,毫末智行的解法則是引入大模型訓練。通過大模型的引入并預訓練,毫末智行為LucasGo模塊建立了能夠篩選優質數據的算法模型,這也使得認知智能中數據、算力、算法能夠形成良性閉環循環。以大算力平臺為支撐,海量標注的優質數據將推動算法日漸成熟,自動駕駛也將由此變得更具人性,更有智慧和溫度。
自動駕駛,開始于自主認知決策之后
總而言之,對于自動駕駛而言,想要變得比人類駕駛更加安全、舒適、高效,核心還是要讓其擁有自主決策的能力,將長期訓練中獲得的開車的經驗變成不斷累積的智慧。
從人類智能的角度來說,真正掌握知識的標準不是機械地記憶和重復背誦,而是可以靈活應用到解決實際的問題過程中。因此,對于自動駕駛,僅僅依靠人類制定的開車規則是不可能學會開車,靠自身算法訓練建立起來的認知決策模型才更具生命力。
不論是特斯拉的規劃&控制方案,還是毫末智行數據體系MANA的認知智能能力,盡管二者在技術路線等方面存在許多不同,但其在認知領域的內核都是相通的,即通過對第一性原理的思考,讓自動駕駛以人工智能自主學習的形式實現迭代升級。
在認知決策上引入AI的大規模訓練,這讓特斯拉與毫末智行在自動駕駛技術的進化上領先了一大步。讓汽車模仿人類開車,變成讓汽車像人類一樣學會開車,這是自動駕駛行業接下來更為重要的一項任務。