多模態技術正成為智能座艙的新熱點。隨著技術的不斷迭代,大模型正逐步從單一模態向多模態演進,預計將成為人機交互的重要入口。咨詢公司Gartner預測,基于多模態大模型的生成式AI應用將在未來幾年內激增,從2023年的1%增長至2027年的40%,展現出巨大的發展潛力。
智能汽車成為原生多模態大模型的理想應用場景。GPT-4o和商湯絕影的最新版本已經能夠感知外部環境、人的情緒以及其他非語音信號,實現了多模態實時交互,為車企帶來了更多商業落地的可能性。商湯認為,多模態大模型的引入突破了空間限制,實現了車內用戶與更廣闊物理和數字世界的聯接,推動了智能汽車向超級智能體的進化。
火山引擎汽車行業總經理楊立偉也持相似觀點,認為大模型天生跨終端,能夠生態打通,將來大模型在座艙的最大價值在于幫助集成生態并打通各個終端。中國企業在這一領域的快速發展,正硬剛國際巨頭如GPT-4o。
那么,何為原生多模態?原生多模態指從訓練階段開始,模型就利用大量不同模態的數據進行預訓練,實現緊密的耦合。它不僅可以在輸入和輸出端實現多模態,還具備強大的多模態推理能力以及跨模態遷移能力。商湯絕影已率先實現原生多模態大模型的車端部署,展示了強大的車端推理能力。
然而,大模型在車載應用中也面臨挑戰。科大訊飛智能汽車事業部智能座艙業務總經理呂思南指出,多模態大模型的引入對算力和算法提出了更高要求。如何在多樣化的芯片選擇中更優地使用算力,以及實現跨模態數據的全鏈路打通,是當前亟需解決的問題。
智能座艙在實際應用中也面臨取舍問題。火山引擎座艙大模型負責人張航強調,座艙內的用戶需求近幾年沒有太大變化,其核心是與車的交互。因此,當前的重心應是改變車內場景的交互效率,而非急于產品創新。百度智艙業務部總經理李濤也表達了類似觀點,指出頻繁使用的功能可能反映了整體車輛設計的智能化程度較低。