【ITBEAR】2024成都車展期間,有一場針對理想汽車智駕研發團隊的圓桌訪問,受訪者為理想汽車智能駕駛研發副總裁郎咸朋和理想汽車智能駕駛高級算法專家詹錕。2個小時時間里,與會記 者和受訪者貢獻了一場坦率、專業的對話,不僅討論了理想汽車對智能駕駛的核心認知,也討論了智能駕駛和人工智能的前景。
本文根據訪談記錄做的整理,為便于讀者理解,重新做了段落梳理,刪減了小部分冗余內容。全文較長,且有許多專有名詞和新概念,但對于關心智駕的讀者來說,這是一篇有價值的訪談。從中不僅可以看到智駕領域正在展開的激動人心的探索,也可以看到理想汽車這家公司的價值觀和方法論。
理想汽車智能駕駛研發副總裁 郎咸朋 理想汽車智能駕駛高級算法專家 詹錕
端到端之爭:1和2的區別到底是啥?
Q1:One Model端到端是如何實現的?相比其他的分段式端到端的區別?
詹錕:我們是傳感器的輸入做編碼,然后交給統一的Transformer Decoder網絡做輸出。它的輸出分為幾個維度,一個是感知信息的輸出,感知信息可以用來做顯示,跟駕駛員做交互。另一個是輔助監督,讓這個模型收斂得更快。
另一個更重要的就是直接輸出的軌跡,我們這個軌跡交給了一個控制模塊,控制模塊會做安全校驗,最后轉成油門開度、方向盤轉角,最后輸出出來。整個模型架構其實非常簡單,不是特別復雜的架構,而是一個非常簡潔清晰的架構。我們更多是通過數據,通過配比,通過訓練策略調整One Model端到端的效果。
郎咸朋:相比其他的分段式、分模塊最大的優點是模型在進行推理的時候所有的信息是一手信息。如果是分段式的,上游是個感知,下游是個規劃,最終車開的好不好還是要看規劃,規劃來的信息不是一手的,感知如果出了問題,規劃拿到的信息可能就是有瑕疵的,或者有錯誤的。模型就算訓練的再好,輸入不好,規劃還是會存在問題,這是最大的區別。
One Model有沒有它的問題呢?有,它的訓練難度非常大。來的是原生數據,出來的是些軌跡線,這樣一聽就感覺不太好訓練。第二就是數據。理想有非常好的訓練數據,我們有非常多的視頻訓練片段,我們有22億公里訓練數據,今年年底將達到30億公里,但是30億公里不會都用來訓練。因為我們會挑選那些老司機的數據,就是開的好的,什么叫開的好?我們有幾個維度,比如他平時的駕駛習慣,是不是總是急加速、急減速,包括總是開出AEB來,這種數據肯定我們就不要了。我們給每個司機都打了分,現在理想90萬車主,大概有3%的司機,可以被我們評價成老司機。也就是說22億公里里邊我們能拿來訓練的是優中選優的一些數據,但其他的企業我不知道他們有沒有這些數據可以選,甚至有沒有這些數據,這種情況下要訓練的話,分段式或者模塊化是更好的選擇。
詹錕:分段式和One Model的區別我再補充一個比較形象的例子。因為分段式重點是中間要傳出一個信息給下游規劃這個模型,它傳出的信息一定是有損的,因為我要對中間信息做一個設計。比如說這個車的3D位置,它的朝向、它的偏向轉角在哪里,我要給它一個結構化信息的描述,但是這樣的描述一定是有損的,因為這是加了人類先驗信息的。比如它是一個渣土車,渣土車在掉渣和沒掉渣對于駕駛來說會有明顯的不同。但是在分段式里面很有可能把這些信息丟掉了,只有完全One Model,才能把這種隱晦的信息徹底理解,才讓車駕駛的更像老司機。分段式的是Two Model,會導致中間的信號是有損的,這個有損信號和無損信號比,規劃不能給出很好的決策。
Q2:One Model模型怎么優化?只能靠優質數據嗎?系統本身是否會有調整?
詹錕:我們現在用數據大幅訓練模型。微博上有人總結我們三個版號的含義。第一個版號是數據,1表示100 萬量級的clips;2表示200萬的clips。第二個版本號是模型結構。所以優化不只是依靠數據,模型結構也很重要,里面有各種細分類型,比如Cross Attention、Self Attention,我們在這方面會做各種各樣的設計和實驗,所以第二個版號有各種變化。訓練策略也會發生變化,模型訓練一遍就結束,還是訓練一遍以后把重點那點挑出來,再重新訓練一遍?還是先訓練一部分,再做精選數據的訓練。這些都是在大模型訓練過程中,我們逐漸積累的經驗,肯定不是僅用數據來迭代。
端到端、VLM和世界模型的關系?
Q3:大家頻繁的把世界模型引入到自動駕駛,但大家的理解都不一樣,想了解理想對這個模型定義是什么?以及和系統1、系統 2 是怎么去配合?世界模型的上限像人類認知世界,難度很高,那在自動駕駛領域怎么去定義?
詹錕:大家對世界模型的說法、理解和概念都有很大的差異,就和端到端一樣。世界模型最早來自諾貝爾圖靈獎獲得者楊立昆,他提出這個模型意思是,在這個模型中能夠想象未來會發生什么,即我對物理世界有個虛擬的抽象,根據現象可以知道未來會做什么事情。
對我們來說,是想把世界模型用在自動駕駛中,我們的世界模型主要是用來做一個完整的驗證系統。這就是對未來的抽象,我們把所有路上遇到的場景和未來可能會發生的交互,甚至各種危險情況,都模擬在了一個模型里。
這個模型會對我當前所有的行為做出下一刻的預判,這樣的預判可以幫助我們驗證這個模型是不是對的。所以我們想把模型用在我們整個自動駕駛校驗系統上,這也是我們做這個世界模型的初衷。對于我們來說,我們想把世界模型在云端驗證系統上用的更高效,系統1、系統2其實是在做驗證、做校驗。系統1和系統 2 是一個超級大的模型,它的校驗是最重要的一個環節。衡量標準就是,看你校驗是不是準,是不是快。
郎咸朋:世界模型對系統1和系統 2 來說,最大作用是提供一個訓練和測試的場地。原來是這個場地放在真實的世界里面,我們把世界弄到模型。在世界模型里,我們的測試、錯題、真題,都在這個世界模型中進行訓練。
Q4:端到端+VLM兩個系統怎么配合?未來的發展是什么樣的?
詹錕:VLM在車上類似于GPT,各個系統模塊都會找它問問題,車機會問它,有個高架橋是不是要在橋下走?如果不是的話VLM可以跟車機進行交互,輸出軌跡進行切換。端到端問它當前在這個路口走到了左轉人行道上,能不能沿左轉走,還是違背路徑,沿著其他方向走,這種復雜路況VLM都需要做判斷。各個模塊會問VLM,同時VLM也會自己判斷情況,比如遇到比較復雜的路況,如施工坑洼等,VLM會主動給端到端系統發信號,端到端收到減速信號,或者是一個注意安全的信號,會把文字信息會變成一個embedding,就是把它變成一個特征向量編碼,放到端到端模型里,最后端到端模型對應采取減速策略或者避讓策略,輸出軌跡。
同時還有一些情況,比如我們告訴端到端這個地方是公交車道不能走,那端到端在輸出軌跡的時候就不會向公交車道這個方向去。通過各種語言文本信號的配合,讓端到端能聽懂VLM的相關建議值。
VLM 相當于教練一樣,旁邊有個這樣的司機告訴你,這里要注意車輛減速,車輛預判駕駛,但具體怎么踩剎車,這個會讓端到端去判斷,但是VLM會給出相關的建議,甚至踩剎車程度的建議也會給。
Q5:現在端到端在不同城市的表現不一樣,會針對不同城市來做不同模型嗎?還是說會在一個模型上不斷地去調優?
詹錕:首先,模型在不同城市有不同表現,這并不代表我們要對不同城市下發不同模型,讓模型獲得不一樣的錯題。而是說在世界模型的評測體系下,能夠精準地知道這個模型在不同城市是什么表現,便于我們對其做有針對性的分析。
比如在過去的Case里,杭州和廣州偏弱,那么對應補足杭州、廣州的一些特定場景,加入訓練數據中,放到模型中,讓模型有全面的提升,所以模型迭代的過程并不是盲目的。如果我們不知道產品在不同城市的表現,我們就會盲目地尋找全國各地的數據,最后實車體驗時用戶發現杭州還是不行。這樣的結果就是迭代效率非常低,訓練數據量增加并沒有效果,這就是大家都在說的大模型需要高質量數據。有精準的評測才能提高質量,而不是盲目增加數據量。
不同城市不同模型的效果其實是我們非常好的一個特點,能知道很細節的評測維度,不同模型我們有很多維度。在不同城市,還能知道它更細分的情況,讓我們更有針對性。比如是不是因為廣州的高架橋特別復雜,是不是杭州的可變車道特別復雜才導致端到端的表現不如其他城市,我們是通過這種方式迭代我們的智能駕駛。最終,我們肯定最后會把一個在全國都非常均衡的智能駕駛推送給用戶。
Q6:大家都在探索自動駕駛,目前沒有一個共識方案。所以理想端到端+VLM進入市場的同時,還會不會有其他探索?關于智能駕駛的短期目標,或者最終目標是怎么樣?
第二個事實是,在這個過程當中,不同數據、不同的模型結構、不同的訓練方法,對模型的迭代都有幫助。這其實是各家都在做的一個關鍵,解決數據和訓練算力的基礎問題之后,我相信我們,包括特斯拉都能成功煉丹。但是煉丹第一步就是得有原材料,當原材料得到解決,煉丹的比例調整好,這個丹的作用才大。
類似于以前煉火藥,按照一硝二磺三木炭的比例來,火藥的威力就大,如果1:1:1做出來的就是“呲花”,這就是各家在迭代過程當中的一些技術訣竅。我們和用戶共同成長,所以我們也需要知道每一套模型實際的表現如何,我們內部有自己的測試,如果表現不好就會內部消化,這種模型就不讓去用戶使用,但是每當模型有迭代、有提升的時候,我們都會拿給用戶去進行測試、驗證,這是我們研發過程當中的一些迭代。
關于下一代方案,不知道大家有沒有看上周智元的發布會,智元展示了G1到G5的具身智能過程。其實我們內部也有自動駕駛整個研發過程的階段,我認為在現階段,無論是對于理想汽車來說,還是對于特斯拉來說,其實都是在向雙系統方向發展。
所以端到端肯定是一個非常好的階段,我們認為已經達到了L3。我們想進一步向L4發展,其實就是需要端到端+VLM雙系統,我們認為這是面向L4的一個終局方案。那再往后,L4不是終局的話,我們還有L5,像智元發布的G5一樣,我們肯定還會有一體化的、超大規模的統一模型,像GPT-4o模型。未來,肯定要把兩個模型合在一起,實現手腦完全結合的大模型方案,這是我們之后要嘗試,要探索的東西。
端到端以后,怎么解決安全問題?
Q7:目前所有的車企能夠量產車型都是L2級輔助駕駛,理想汽車端到端+VLM怎么保證保證智駕的安全?
郎咸朋:從流程上來講,內部主要研發流程分為產品交付研發流程以及智能AI的研發流程,兩個流程相互配合。
端到端+VLM這套技術系統在一個月的測試過程中,雖然開啟城市NOA功能始終是通過撥兩次方向盤桿,實現從A點到B點的智能駕駛,但是模型迭代的能力卻在不斷提升。在模型迭代的時候,整個功能跟原來完全一樣,所以這個功能之前做的測試仍然有效。對于這個能力的表現,我們用生成和重建的方式做模型的泛化測試和檢驗,比實車在全中國駕駛測試好得多。這是我們在 AI 時代到來之后,對于產品研發的深度思考,從而帶來的研發變化。
安全另外一層含義就是:怎么能在產品交付之前,做更多更有效的測試。如果用實車做測試,一方面是成本,另一方面是是測試效果可能達不到交付有監督自動駕駛的程度,特別是當模型迭代比較迅速的時候。
我們現在用Diffusion Transformer技術,再加上3DGS技術,能夠把曾經遇到過錯題以及遇到過的場景,舉一反三地形成模擬題,實現不斷地測試模型能力,不斷地優化各個城市表現。
我們在每一個維度上都有非常嚴格的打分,比如安全、法律法規等維度。如果不安全、不合規,模型就不能交付給用戶。現在在千人團內測階段,還沒有到量產階段,所以在安全、合規方面的要求會更加嚴格,確保我們的產品是一個安全可靠的產品。
詹錕:我從技術角度來說,我們有安全兜底模塊,甚至有些東西我們會保證它有絕對的下限。以前寫了很多規則應對不同的場景,但是現在只需要寫下限的規則,上限全靠端的端 、VLM去捕捉,甚至有些防御性駕駛,VLM都可以提前告訴系統,比如丁字路口、坑洼小路等,這些都在一定程度上提升了系統安全性。無論是數據還是算法,都是在把安全性往上提升。并不是大家說的那樣,用端到端了安全就差了,這是針對設計不完善的一種想法。
另外,AEB/AES 其實是在最極端的情況下,最兜底的一種保證絕對安全的方式。這就是用算法、冗余一起來解決安全問題。
Q8:現在從生成到輸出,對于傳感器包括數據需要有一些質量監測,這個過程中如果出現惡意攻擊,甚至說出現各種故障,這種情況理想汽車怎么解決這數據安全的問題?
詹錕:面對數據被污染或者傳感器遭受惡意攻擊,以及對神經網絡進行對抗性破壞,我們已經將這種情況涵蓋到整個網絡訓練過程中。
模型訓練并不是針對單一的傳感器,比如一個傳感器損壞,我們能夠通過BEV解決。即使在雨天某個傳感器臟污的很厲害,我們依然能穩健駕駛,同時能給用戶對應提醒,會告訴你找個安全的地方停車,不會讓系統直接失效。
因為有Radar、Lidar等多個傳感器,各個傳感器在不同環境下能冗余互補,單一的攻擊很難起效,這就是為什么很難有單一的攻擊策略能讓智駕系統失效,因為在技術上做了很多防護。
算法、算力和數據的關系?
Q9:目前,理想AD Max由兩顆OrinX來支撐現在測試的能力開發,端到端方案對車端算力的要求是什么樣的?未來隨著Thor上車端到端會不會變得更加強大?算法、算力和數據究竟是個什么樣的關系?
詹錕:各家在使用算法的時候,都會跟自己的硬件做匹配,無論是用地平線方案,還是Orin方案。雙OrinX可以完美適配我們的雙系統方案,如果要給出一個固定的上限,不是很好直接預測或配置。但是我們可以知道,隨著算力增加,整個能力是一個非常線性的增加,包括特斯拉也證明了12.5版本比12.3提升了五倍,這也完美符合這種大模型的Scaling Law。
對我們來說,到Thor階段我們肯定會有一個更大規模數據量訓練的端到端大模型,效果會進一步提升。我們可以看到它的趨勢,我們會基于芯片對它進行相關算法的定制化調整;同時模型規模越來越大,最后產出的端到端效果會越來越好。
另外,其實也可以看到特斯拉現在正在宣傳2026年要做一個AI5的芯片,大概有3,000到4,000TOPS的水平,這個階段是他在做Robotaxi的一個想法。我們也在持續關注高算力的車端芯片的性能。
郎咸朋:我補充一點,Thor芯片上車后,因為它的算力比現在OrinX又大了很多,那么我們會在Thor上更多地發展我們系統化VLM的模型能力。端到端模型我們認為是比較吃算力的,但是它使用算力的上限比VLM少很多,而且它有一定的上限,要1,000萬clips,訓練這樣一個模型所需要的參數量非常大。所以在向L4發展過程中,整個系統需要讓它具備更好地應對未知場景的能力,而未知場景能力的提升,需要提升的是系統2,就是VLM的模型能力,所以我們現在22 億公里的產出量,將來可能再去擴大。
Q10:端到端方案對算力要求的下限最低到多少?
郎咸朋:我們認為沒有下限。
Q11:仿真訓練和車主自己駕駛的比例分別是多少?
詹錕:我們的評分體系是非常嚴格,不是所有的車主數據都會拿過來訓練,我們會有非常嚴格的分數,分數會卡在3%-5%的水平,隨著后面數據采集的越多多,對質量的要求并不會降低,這是我們訓練的體系。22億的數據里面只有高質量的數據有價值的數據會拿出來用。仿真我們會把無論是自動駕駛還是人開的不好的場景我們會拿進來用,這個比例隨著用戶使用程度越來越高,我們會越來越收緊。相當于大的仿真考試題庫一樣,我們會持續驗證是不是每個版本都可以了,是一個積累的過程,并不是說我單獨選擇一個值。目前我們有一千萬公里的仿真測試集,這是實車測試不可能在短期內實現的。
郎咸朋:我們每個模型的發版至少進行了一千萬公里的測試,不僅節省做路試的時間,效果也有顯著的提升。而且錯題集一定是有代表性的場景,比如有安全類問題、效率類問題等。今天我們在發布會上重點講了系統1和系統2模型,后面我們會給大家介紹更多訓練模型相關的信息。
現在我們做到了每兩到三天迭代一次模型,這其中最關鍵的技術就是 AI 評價體系,也就是測試系統。測試系統需要很多人、很多車進行路試,消耗大量的人力和物力。但是我們覺得這依然不夠,第一模型迭代速度過慢,第二場景受到限制,我們不可能將同樣的場景開過兩次,也不可能在夏天去模擬冬天的場景,所以我們做了AI評價體系,上千萬公里的錯題集對應的是上百萬個case。
在錯題集之外我們還有模擬題,將以前的錯題在不同的場景下生成用來評測是否依然能夠開的比較好,而且要達到我們80分的及格線。此外我們在云端有非常強大的模型,收集到有問題的用戶數據之后,模型能夠幫助我們進行分類并且直接放入錯題庫,這樣的效率是非常高的。如果我們想要去訓練模型,迭代模型,這樣非常厲害的評價系統是必須的,就像考試要有人批卷子,有人告訴你哪里對哪里錯。
Q12:路試的和仿真訓練的比例是多少?
郎咸朋:現在路試的數據還沒有用完,是22億公里。我們到了100億公里量級時候,可能路試的數據就不那么多了,那個時候我們在下一階段會用很多的仿真數據。而且大家也可以看到生成模擬器的生成場景不仔細看的話是無法辨別是真實的還是模擬的。我們做出“有監督的自動駕駛”以后,這套模型迭代會比現在快很多,能夠直接生成訓練數據,這樣我們在訓練下一階段的L4自動駕駛的時候,我們肯定會用到仿真數據。
Q13:理想給這么多用戶評分,未來還會有很多的用戶,即使不是理想的車主,都會想在理想的智駕領域得到老司機的認證。這些數據會不會在以后開源,作為一個公開的東西進行評測?
郎咸朋:我們把這些建議先記下來,我們目前沒想過這些問題,因為數據都是用于我們內部的研發,如果以后有需要我們再做。
Q14:用戶駕駛行為好,理想汽車打了很高的評分,如果是高分用戶希望通過理想能夠把這個信息傳播給更多的消費者呢?
郎咸朋:我們會考慮。但是我們也考慮到了一些競爭因素,因為這個相當于高質量數據篩選的規則。是我們的核心機密,如果一旦公開數據其他人可能也會學會。
對未來的認知與業務和組織的迭代邏輯
Q15:您認為理想在中國智能駕駛的體系中排在什么樣的位置?
郎咸朋:我們一定希望達到第一的位置。但是我們深刻理解做人工智能,除了要建立各種平臺體系外,最關鍵的競爭就是算力和數據。特斯拉從不避諱講自己的技術,就是因為他相信其他人無法超越他的算力和數據。我們也是一樣的,人才的互相流動是非常正常的,模型和算法對于大家而言都不是秘密,最終大家比拼的是有沒有算力和數據去訓練算法,更直接一些就是資金,也就是能不能有足夠的銷量去獲取更多的利潤去養自動駕駛的算力和數據。很多人說理想卷銷量,實際上銷量背后是我們對于自動駕駛深刻的思考。
Q16:理想汽車怎么衡量技術發展和銷售規模平衡問題?
郎咸朋:理想L系列外觀比較相似,外界也說是在套娃,但是這讓我們有個最大的優勢。傳感器布局和傳感器型號完全一致,所以理想L系列的數據可以完全復用,這個是我們比其他企業想的更長遠的,所以說大家覺得我們套娃了,實際上對自動駕駛的研發非常有好處。
我認為技術發展和銷售規模平衡并不矛盾,最近兩個月我們的AD Max車型銷量每個月保持10%以上的提升,30萬元以上車型AD Max銷量占比達到70%,部分車型部分地域AD Max占比達到90%以上,這就是我們最近這幾個月技術發展帶來的變化。如果技術沒有影響銷售的話,可能是技術落地沒有做好,沒有真正解決用戶需求。之前行業普遍做輕圖和有圖方案的時候,其實也在做一些功能,但是一定沒有端到端的使用效果好。我覺得還是因為到了端到端這個時代,大家對這個產品的效果有了更好的體驗之后,用戶就會買單。
Q17:智能駕駛的技術升級是否能帶來銷量提升?
郎咸朋:銷售有幾個非常重要的漏斗。第一個是品牌,只有用戶認可品牌后才會比較智駕、電池、續航等。如果說一開始品牌就不在老百姓的選擇范圍內,那可能做什么都跟銷量沒有關系。
Q18:按照我們的理解,理想智駕從一開始的落后,到進展和體驗的靠前,有些做法非常關鍵,比如從RD轉PD和快速試錯,在轉PD過程的驗證工作,如何兼顧速度和質量?對于有詬病的驗證不充分就上市的說辭,我們如何應對這種質疑?
郎咸朋:后進生逆襲到第一梯隊很正常。第一點是我們的組織效率確實非常高效,我們是向華為學習的組織架構,比如我們內部有IPD流程等。這是我們學習一些先進經驗,然后結合理想汽車自己的企業特點進行內化處理的結果。
在驗證測試方面,我們通過技術提升做到更好的測試和發布效果,同時也減少了時間和人力。而且,測試效果比原來人力測試更好,這是人工智能技術帶來的結果。我們用重建、生成技術取代了人工的測試,重建技術很快就能夠重建幾百公里的場景,包括各種天氣路況下的場景,這些場景通過人類駕駛未必能夠獲取。
詹錕:目前在整個智駕團隊,我們的PD、RD和交付這三者同步進行,我們是交付一代、研發一代、預研一代,這是我們為什么能一直緊跟目前智駕最新技術方案的原因,我們有比較好的階梯式研發流程。
我們在做無圖NOA研發的時候,其實端到端已經開始預研。并不是等無圖NOA做完,再慢慢的切換到端到端架構研發中,其實我們前面就有儲備,所以這是我們為什么會速度比較快的原因。如果大家覺得犧牲了效率,其實是因為沒有找到提效的方法,我們逐漸已經找到了通過自動化測試、世界模型高效驗證模型的方法,所以我們才能兼顧速度和質量。
Q19:現階段理想智駕研發架構中分為算法研發和量產研發,分別對應著不同的小組,小組對應的是端到端不同模塊。隨著未來算法的迭代和成本的優化,未來的組織架構是否會進行調整?朝哪些方向來做調整?這個過程中有遇到哪些難題?
我們的組織變化要追溯到去年或者更早。我們把智能駕駛作為公司戰略之后,業務和組織開始發生迭代和變化。在去年秋季的雁棲湖戰略會,我們首次明確提出PD和RD都非常重要,但是其實在那之前PD、RD已經有了,只是在戰略會上,進一步明確了將智能駕駛和RD都作為公司級戰略展開,所以業務發生了變化。接下來組織會不會發生變化,要看跟業務是否有關聯。
Q20:現在行業中有共識,智能駕駛會分為能用,好用和愛用三個階段,目前理想汽車的智駕做到了哪個階段,我們如大概需要多長時間可以做到“愛用”階段,哪一年可以達到這個目標?
郎咸朋:能用、好用和愛用這其實是由用戶決定的。我們的千人團車主以及購買AD Max的車主比例顯著提升,我認為這就已經進入到了“能用”階段。我認為端到端內測推送之后就是一個“好用”的狀態。我自己上下班的智能駕駛比例達到95%以上,好用和愛用是培養大眾對于智能駕駛理念認同的過程。我們現在的千人團、萬人團包括一些發燒友車主,他們依然處于早期大眾的階段。當步入晚期大眾,也就是50%的消費者在沒有智能駕駛的時候會不習慣甚至不會開了,等進入到這個階段就是真正的“愛用”階段,或者說是必須要用。
理想汽車的研發迭代速度是非常快,我們最早今年年底,最晚明年上半年就會將這套“有監督的自動駕駛”量產交付,那個時候一定會讓大家非常愛用這個產品。
Q21:理想是怎么看待車企做Robotaxi?
郎咸朋:我認為Robotaxi是一個產品或商業的形式,并不是技術。在技術發展到一定程度之后,它可能會催生很多的商業形態。Robotaxi,Robobus等。
第二,消費者的需求是不是已經到了大家更愿意用Robotaxi的階段,或者用自己車來做Robotaxi。
當然還有一些相關的國家法規,國家法規激勵新能源車,才能讓我們走到現在,所以者和國家法規對這些產品形態的支持。
Q22:您覺得智能駕駛未來的商業前景怎樣?
郎咸朋:我認為對于智能車,智能駕駛和自動駕駛是不可分割的一部分。如果收費,就會涉及到不繳費的智能車體驗會不好。我們的智能駕駛功能是免費的,當技術和能力到了一定程度之后會催生出一些新的商業場景和模式。
大家現在會有很多的暢想,如果實現自動駕駛會有各種各樣的場景、產品,現在端到端+VLM是一個分水嶺,之前無論是有圖還是無圖,都是用非人工智能的方式來做智駕,我們做詳細產品的需求、規劃、拆解以及驗證,而對于端到端,與其說我來測試它不如說我來體驗它,體驗一下它今天學到了什么樣的能力。
舉個例子,今天發布會上的視頻中有,一輛車突然向左方避讓了一下,但實際上前方是沒有車的,而是后面來了一輛自行車,他會讓自行車先過然后再回來,這樣規則幾乎是不可能有產品經理設計出來的,但是我們的模型可以實現。所以大家要用不同的思路和眼光來審視接下來人工智能時代的自動駕駛,他一定會超越所有人的預期,我們提到一個月內迭代12代,會有些人覺得我們測試不充分,但是兩個月,三個月,甚至一年之后就不會再這樣想了,因為自動駕駛會大規模落地。
Q23:剛才提到的自行車場景是否類似于自動駕駛?
郎咸朋:有這種感覺,但還是最初的階段,到了1000萬clips的時候肯定能夠涌現出來很多東西。
作者: 第一電動編輯部