在深度學習及自然語言處理領域,Transformer架構因其出色的自注意力機制而被廣泛應用,諸如OpenAI的GPT、meta的BART及谷歌的T5等頂尖模型均基于此設計。然而,Liquid AI卻選擇了一條不同的道路。
受“交通信號處理系統”與“數值線性代數”的啟發,Liquid AI對其模型架構進行了大膽革新。新推出的LFM模型主打“通用性”,能夠靈活應對不同類型的數據建模需求,包括視頻、音頻、文本、時間序列乃至交通信號等多種內容格式。
相較于傳統的Transformer模型,LFM系列在處理大量輸入時展現了顯著的RAM使用優勢。由于Transformer在處理長輸入時需存儲龐大的鍵值緩存,導致RAM占用隨序列長度急劇增加。而LFM則通過高效的數據壓縮技術,大幅降低了對硬件資源的依賴,使得在相同硬件環境下能夠處理更長的數據序列。
在性能表現上,LFM系列模型同樣令人矚目。據悉,LFM-1.3B已在多項基準測試中擊敗了包括蘋果OpenELM、meta Llama 3.2、微軟Phi 1.5及Stability Stable LM 2在內的多款領先模型。而LFM-3.1B更是跨越了規模界限,在某些特定任務中甚至超越了更大規模的7B與13B模型,其性能已凌駕于谷歌Gemma 2、蘋果AFM Edge等頂尖模型之上。
至于LFM-40.3B,該模型在規模與輸出質量間取得了精妙平衡。盡管擁有高達400億個參數,但在實際推理過程中僅激活了120億個參數。Liquid AI解釋稱,這一限制舉措旨在確保模型輸出的高品質,同時提升運行效率并降低硬件配置要求。