劃重點:
- Nvidia的RAPIDS cuDF框架的新版本可使Pandas在GPU上運行時性能提升150倍。
- Pandas是一種廣泛使用的Python數據框架,用于數據處理和分析,現在可在GPU上獲得顯著的性能提升。
- 新的Pandas加速模式允許未更改的Pandas代碼在統一的CPU/GPU環境中運行,從而為數據科學家提供更快速的數據處理能力。
(ChinaZ.com)11月9日 消息:Nvidia最新發布的RAPIDS cuDF框架的新版本引起了廣大數據科學家和Pandas用戶的興趣,因為它聲稱可以使Pandas在GPU上運行時性能提升150倍。Pandas是一種受歡迎的基于Python的數據框架,用于數據處理和分析。它是由Wes McKinney于2018年作為開源項目發布的,目前已經被全球約950萬開發者廣泛使用。
Nvidia的RAPIDS框架包括了cuDF,這是一個構建在Apache Arrow之上的Python GPU數據框架,它提供了一種類似Pandas的API,用于加載、過濾和操作數據。隨著RAPIDS版本23.10的發布,cuDF已經更新,使Pandas代碼可以在GPU加速環境中不經修改地運行。
新的Pandas加速模式使未更改的Pandas代碼可以在統一的CPU/GPU環境中運行,并且性能提升高達150倍,Nvidia的產品營銷經理Jay Rodge、高級技術產品經理Nick Becker和高級軟件工程師Ashwin Srinath在一篇博客文章中寫道。他們解釋說:“cuDF一直以來都為用戶提供了頂級的數據框架庫性能,同時使用了類似Pandas的API。然而,采用cuDF有時需要繞過一些問題。”
其中一個問題是,一些Pandas功能在cuDF中尚未實施或支持,因此無法從GPU加速計算中受益。另一個問題是,需要為GPU和CPU執行設計單獨的代碼路徑,以及在與其他PyData庫互動時手動切換cuDF和Pandas。
Nvidia表示,這一新功能是為那些希望在數據規模不斷增長并且Pandas性能下降的數據科學家而設計的。在cuDF的Pandas加速模式中,操作在GPU上盡可能運行,否則在CPU上(使用Pandas),并在必要時在底層同步。這使得用戶可以獲得統一的CPU/GPU體驗,為Pandas工作流程提供卓越的性能。
Nvidia使用DuckDB的新版H2O.ai數據庫樣本測試了性能提升。測試是在一個5GB的數據集上進行的,包含了連接和高級分組操作。結果顯示,在CPU上運行的Pandas平均需要約5分鐘7秒來執行這兩項任務,而在經過RAPIDS cuDF加速的Pandas上執行這兩項任務的平均時間只需約1.5秒。
GPU加速的Pandas目前以beta版形式在RAPIDS版本23.10的開源項目中提供,公司表示它將很快添加到Nvidia AI Enterprise中。這一新功能將有望使更多數據科學家受益,特別是那些需要處理大規模數據的用戶。