日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

Databricks 上周發布了 Apache Spark 3.0,并將此作為新版 Databricks Runtime 7.0 的一部分。3.0.0 版本包含 3400 多個補丁,為 Python 和 SQL 功能帶來了重大進展。

Spark 是用于大數據處理,數據科學,機器學習和數據分析等領域的統一引擎。

Spark 3.0 重要變化:

  • 與 Spark 2.4 相比,TPC-DS 的性能提升了2倍,主要通過自適應查詢執行、動態分區修剪和其他優化實現
  • 兼容 ANSI SQL
  • 針對 pandas API 的重大改進,包括 Python 類型提示和額外的 pandas UDF
  • 改進 Python 錯誤處理,簡化 PySpark 異常提醒
  • 為結構化流(structured streaming)提供新 UI
  • 調用 R 語言自用戶定義函數(User-Defined Function)的速度可提高 40 倍
  • 解決了 Jira 上 3400 多個 issue,這些 issue 的分布情況如下圖所示
「開源資訊」Apache Spark 3.0 發布,TPC-DS 性能提升2倍

 

改進 Spark SQL 引擎

Spark SQL 是支持大多數 Spark 應用程序的引擎。在 Spark 3.0 中,46% 的補丁被應用于 SQL,提升了性能和 ANSI 兼容性。如下圖所示,Spark 3.0 的性能大約是 Spark 2.4 的 2 倍

「開源資訊」Apache Spark 3.0 發布,TPC-DS 性能提升2倍

 

下面看看 Spark SQL 引擎中的主要新功能。

自適應查詢執行(Adaptive Query Execution)

新的自適應查詢執行(AQE) 框架通過在運行時生成更好的執行計劃來提高性能并簡化調整,即使由于缺少或使用不正確的數據統計信息和錯誤估計的成本而致使初始計劃不理想時,也是如此。此版本引入了三個主要的自適應優化:動態合并 shuffle 分區可簡化甚至避免調整 shuffle 分區的數量、動態切換連接策略部分避免了由于缺少統計信息或錯誤估計大小而導致執行次計劃的情況,以及動態優化傾斜連接(optimizing skew joins )。

動態分區修剪 (Dynamic Partition Pruning)

當優化器無法在編譯時識別其可以跳過的分區,將會應用“動態分區修剪”功能。這在星型模式中很常見,星型模式由一個或多個事實表組成,這些事實表引用了任意數量的維度表。在執行這種聯接操作中,我們可以通過識別維度表過濾之后的分區來修剪聯接從事實表中讀取的分區。在 TPC-DS 基準測試中,102 個查詢中有 60 個查詢獲得 2 到 18 倍的顯著加速。

「開源資訊」Apache Spark 3.0 發布,TPC-DS 性能提升2倍

 

Spark 3.0 中的其他更新

Spark 3.0 除了在 SQL,Python 和流技術方面包含部分關鍵改進,還提供了許多其他的新功能。詳情查看發布說明,發現對 Spark 的所有其他改進,包括數據源、生態系統和監視等。

「開源資訊」Apache Spark 3.0 發布,TPC-DS 性能提升2倍

分享到:
標簽:發布 Apache Spark 3.0
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定