在信息和數據極度繁榮的當下,人工智能正在通過各種方式影響著人類生活。其中,AI推薦系統作為互聯網時代最關鍵的伴生技術之一,正在幫助人類梳理著各種紛繁雜亂的信息,讓資源實現更精準的調配,讓一切變得井然有序。
推薦系統:數字營銷的重要引擎
當你到一座旅游城市,不知道當地有什么美食時,AI推薦系統在手機上的本地生活平臺會為你列出當地所有美食;
當你在線上購物,不知道時下有哪些新款式衣服時,AI推薦系統在電商平臺上又會為你列出應季又適合你的衣服。
對于企業而言,AI推薦系統更為重要,在浩渺的商業世界里,AI推薦系統就像一條秩序鏈,通過這條秩序鏈,數以千萬計的企業得以找到分布在全球各地最需要他們產品的用戶。
上海市人工智能行業協會秘書長鐘俊浩指出:“隨著人工智能技術的迅速發展及軟硬件進步,我們正步入一個AI技術廣泛應用并深刻影響各行各業的新時代,與此同時,如今電商、個性化廣告等諸多商業場景背后都在以AI推薦系統作為依托,AI推薦系統已經是人工智能技術在商業領域最為成熟的應用之一。”
數字營銷就是使用了AI推薦系統的一個主要場景, 作為國內領先的商業數字營銷平臺,阿里媽媽就在用AI推薦系統為企業提供全鏈路的營銷解決方案。
阿里媽媽的使命是“讓天下沒有難做的營銷”,通過自研的數字營銷平臺,阿里媽媽每年都在為各行各業的商家和品牌解決一系列營銷和廣告投放問題,通過精準營銷幫助商家將產品推廣到最需要他們的消費者面前,從而幫助企業實現他們應有的價值。
為了將海量商品與消費者進行更加精準的匹配,阿里媽媽的AI推薦算法和模型在過往幾年里一直在不斷升級迭代,與此同時,日益復雜的AI模型也使得AI推薦系統對硬件算力的需求越來越高。
“線上購物已經很普遍,實際上,每次用戶在線上瀏覽商品都會涉及百億量級的浮點運算”,阿里媽媽軟件工程師劉征宇解釋稱。
由此帶來的是日益增長的算力需求和有限算力供給之間的矛盾,這一矛盾也成了像阿里媽媽這樣基于人工智能技術開展數字營銷業務的企業的一大痛點。
要解決這一痛點,最直接的方法就是增加AI算力、優化AI算法。尤其是AI算力的提升,是數字營銷業務不斷升級迭代最重要的保障。
是挑戰也是機遇,最適合的才是最好的
大模型的出現,讓GPU呼聲越來越高,似乎GPU在一夜之間成了人工智能技術在算力上的唯一選擇。
其實不然,在數字營銷這樣實際商業應用場景中,GPU不僅不是唯一選擇,甚至也可能不是最優解。
實際上,人工智能技術對于算力的強需求主要來自于AI訓練和AI推理兩方面。而要想將人工智能技術轉化為各行各業的生產力,幫助各行各業提升生產效率,最關鍵的是AI推理。
鐘俊浩也做過解析:“在大模型深入產業的這一年里,越來越多行業開始關注AI推理,而如何將CPU發揮到極致,加速AI推理,并推動其產業落地就成了關鍵問題。”
某些硬件廠商對于推薦系統、語音識別、圖像識別、基因測序這樣傳統的AI應用,在CPU上已經做了大量的優化。特別是在執行AI推理任務時,經過優化的大模型在CPU上已經可以實現高效執行。
英特爾數據中心和人工智能集團至強生態賦能事業部(中國)總經理李亞東就指出:“當模型很大,涉及到需要跨異構平臺計算時,使用CPU速度反而更快,效率也更高。”
2023年12月,英特爾在國內正式發布了第五代至強? 可擴展處理器,它從多方面提升了硬件算力,包括頻率,功耗,LLC緩存,內存帶寬和延遲都有明顯的改進。
最關鍵的是它內置的英特爾? 高級矩陣擴展(英特爾? AMX技術),特別針對深度學習模型最常見的矩陣乘法運算優化,支持BF16(訓練/推理)和INT8(推理)等常見數據類型。
英特爾? AMX位于每個CPU內核上并靠近系統內存,可減少數據傳輸延遲、提高數據傳輸帶寬,并且同步降低實際使用上的復雜性。
實際上,在目前AI推薦系統面臨的硬件算力挑戰中,CPU已經成了解決AI推理計算需求的核心算力。
據劉征宇透露:“阿里媽媽在選擇以第五代英特爾? 至強? 可擴展處理器作為算力平臺,使用英特爾? AMX和AVX-512優化后,針對廣告推薦模型,性能相比第四代至強? 可擴展處理器有了明顯提升,在滿足SLA的前提下,吞吐量提升(達)1.52倍。”
基于此,阿里媽媽通過不斷提升算力和優化算法,使得整個營銷鏈條更加絲滑,也更加智能高效。
除了硬件創新,英特爾在軟件方面也在持續發力,以確保現有的AI框架和應用能夠充分發揮出硬件潛力。
英特爾不僅持續為主流開源框架PyTorch、TensorFlow等貢獻力量,還提供了多種針對CPU平臺的優化插件,如IPEX(Intel? Extension for PyTorch)、ITEX(Intel? Extension for TensorFlow)等,同時提供了諸如xFT(xFasterTransformer)、OpenVINO? 工具套件等多種優化工具。
“最適合的,才是最好的,我們現在最需要的不是無限高的算力,而是擁有足夠算力的超能戰士。”劉征宇進一步解釋稱。
同樣, CPU平臺廣泛部署、易于獲取,便于應用和優化,能兼顧通用計算又能做推理加速,且不用為此導入異構帶來的各種復雜性,自然就會收獲高效的應用表現、落地速度和更強的成本競爭力。
以阿里媽媽所在的數字營銷應用場景為例,無論是矩陣乘法這樣計算密集型的AI運算,還是數據查詢這樣訪存密集型的AI運算,都離不開CPU的參與。
即便是在CPU-GPU協同應用場景中,GPU這樣協處理器的算力發揮作用,也非常依賴CPU的處理速度。
用CPU加速AI落地,未來可期,大有可為
如果說2023年是大模型技術爆發的一年,那么,2024年就是大模型深入產業應用的關鍵年。不論是大模型還是傳統的AI技術,要想得到落地,做到“快、好、省”才是關鍵。
CPU能確保整個系統的穩定運行、各組件的高效通信協作,并最終推進任務的順利執行。
除了熱門的AI推理和訓練,一條AI流水線中還包括數據預處理、后處理等可能需要CPU通用處理能力的環節。在這些環節中,CPU具備的通用性和靈活性,能夠適應各種不同的計算場景,適應廣泛的應用需求。
第五代至強? 可擴展處理器充分考慮到這些需求,內置了諸如英特爾? 數據流加速器(英特爾? DSA)來主攻數據存儲與傳輸;英特爾? 存內分析加速器 (英特爾? IAA)來針對數據庫和數據分析加速;英特爾? 數據保護與壓縮加速技術(英特爾? QAT)來加速數據壓縮、對稱和非對稱數據加密解密,提高CPU效率和整體系統性能。
李亞東還指出:“從企業長遠發展來看,CPU在穩定性、安全性等方面的表現值得信賴,這對于保護企業數據和客戶隱私至關重要。第五代至強? 可擴展處理器內置的英特爾? SGX和TDX,可以為企業分別提供更強、更易用的應用隔離能力和虛擬機層面的隔離和保密性,為現有應用提供了一條更簡便的向可信執行環境遷移的路徑。”
未來英特爾數據中心產品組合,預計可以覆蓋通用計算與AI加速,實現從數據預處理、到模型訓練與優化,再到部署與推理的AI“全管線”加速。
CPU不僅是老伙伴,還是新變量,隨著新一代CPU在各方面性能的不斷提升,CPU也正在成為為千行萬業企業智能化轉型提供源源不斷動力的心臟。
正如鐘俊浩所說:“持續創新和進化的CPU,在全新技術周期下,成為一代又一代科學家留給新時代最好的禮物。”