全球最大的開源軟件基金會 Apache 軟件基金會(以下簡稱 Apache)于美國時間 2022 年 6 月 16 日宣布,Apache Doris 成功從 Apache 孵化器畢業,正式成為 Apache 頂級項目(Top-Level Project,TLP)。
Apache Doris 是一個基于 MPP 的現代化、高性能、實時的分析型數據庫,以極速易用的特點被人們所熟知,僅需亞秒級響應時間即可返回海量數據下的查詢結果,不僅可以支持高并發的點查詢場景,也能支持高吞吐的復雜分析場景?;诖?,Apache Doris 在多維報表、用戶畫像、即席查詢、實時大屏等諸多業務領域都能得到很好應用。
Apache Doris 最早是誕生于百度內部廣告報表業務的 Palo 項目,2017 年正式對外開源,2018 年 7 月由百度捐贈給 Apache 基金會進行孵化,之后在 Apache 導師的指導下由孵化器項目管理委員會成員進行孵化和運營。
“我們很自豪 Doris 能夠順利從Apache孵化器畢業,這是一個重要的里程碑。在整個孵化階段,依靠 Apache 理念的指導和孵化器導師的幫助,我們學會了如何以Apache的方式去發展我們的項目與社區,也在這一進程中獲得了巨大的成長。” Apache Doris VP 陳明雨說道。
目前 Apache Doris 社區已經聚集了來自不同行業近百家企業的 300 余位貢獻者,并且每月活躍貢獻者人數也接近 100 位。在孵化期間,Apache Doris 一共發布了 8 個重要版本,完成了包括存儲引擎升級、向量化執行引擎等諸多重大功能,并正式發布了 1.0 版本。正是依靠這些來自開源貢獻者的力量,才使得 Apache Doris 取得了今天的成績。
與此同時,Apache Doris 如今在中國乃至全球范圍內都擁有著廣泛的用戶群體,截止目前, Apache Doris 已經在全球超過 500 家企業的生產環境中得到應用,在中國市值或估值排行前50的互聯網公司中,有超過 80% 的公司長期使用 Apache Doris,包括百度、美團、小米、京東、字節跳動、騰訊、快手、網易、微博、新浪、360 等知名公司。同時在一些傳統行業如金融、能源、制造、電信等領域也有著豐富的應用。
“你可以基于 Apache Doris 快速構建一個簡單易用并且性能強大的數據分析平臺,非常易于上手,所需要付出的學習成本非常低。并且 Apache Doris 的分布式架構非常簡潔,可以極大降低系統運維的工作量,這也是越來越多用戶選擇 Apache Doris 的關鍵因素。”
作為一款成熟的分析型數據庫項目,Apache Doris 有以下優勢:
- 性能優異:自帶高效的列式存儲引擎,減少數據掃描量的同時還實現了超高的數據壓縮比。同時 Doris 還提供了豐富的索引結構來加速數據讀取與過濾,利用分區分桶裁剪功能,Doris 可以支持在線服務業務的超高并發,單節點最高可支持上千 QPS。更進一步,Apache Doris 結合了向量化執行引擎來充分發揮現代化 CPU 并行計算能力,輔以智能物化視圖技術實現預聚合加速,并可以通過查詢優化器同時進行基于規劃和基于代價的查詢優化。通過上述多種方式,實現了極致的查詢性能。
- 簡單易用:支持標準 ANSI SQL 語法,包括單表聚合、排序、過濾和多表 Join、子查詢等,還支持窗口函數、Grouping Set 等復雜 SQL 語法,同時用戶可以通過 UDF 和 UDAF 等自定義函數來拓展系統功能。除此以外,Apache Doris 還實現了 MySQL 協議兼容,用戶可以通過各類客戶端工具來訪問 Doris,并支持與 BI 工具的無縫對接。
- 架構精簡:系統只有兩個 Frontend(FE)和 Backend(BE)兩個模塊,其中 FE 節點負責用戶請求的接入、查詢計劃的解析、元數據存儲及集群管理等工作,BE 節點負責數據存儲和查詢計劃的執行,自身就是一個完備的分布式數據庫管理系統,用戶無需安裝任何第三方管控組件即可運行起 Apache Doris 集群,并且部署和升級過程都非常簡易。同時,任一模塊都可以支持橫向拓展,集群最高可以拓展到數百個節點,支持存儲超過 10PB 的超大規模數據。
- 穩定可靠:支持數據多副本存儲,集群具備自愈功能,自身的分布式管理框架可以自動管理數據副本的分布、修復和均衡,副本損壞時系統可以自動感知并進行修復。節點擴容時,僅需一條 SQL 命令即可完成,數據分片會自動在節點間均衡,無需人工干預或操作。無論是擴容、縮容、單節點故障還是在升級過程中,系統都無需停止運行,可正常提供穩定可靠的在線服務。
- 生態豐富:提供豐富的數據同步方式,支持快速加載來自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel 等系統中的數據,也可以直接訪問 MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch 等系統中的數據而無需數據復制。同時存儲在 Doris 中的數據也可以被 Spark、Flink 讀取,并且可以輸出給上游數據應用進行展示分析。
“畢業不是最終目標,它是新征程的起點。”陳明雨說到。“在過去,我們發起 Doris 的目標是為更多人提供體驗更佳的數據分析工具、解決他們數據分析的難題。成為 Apache 頂級項目一方面是對 Apache Doris 社區過去所有貢獻者一直以來辛勤工作的肯定,另一方面也意味著我們在 Apache Way 的指引下建立了一個強大的、繁榮的、可持續發展的開源社區。未來我們將會繼續以 Apache 方式運作社區,相信會吸引到更多優秀的開源貢獻者參與社區中來,社區也會在所有貢獻者的幫助下得到進一步成長。”
“Apache Doris 后續將開展更多富有挑戰且有意義的工作,包括新的查詢優化器、對湖倉一體化的支持,以及面向云上基礎設施的架構演進等等。歡迎更多的開源技術愛好者加入Apache Doris 的社區,攜手共成長。”
“我們再次由衷地感謝所有參與建設 Apache Doris 社區的貢獻者們,以及所有使用 Apache Doris 并不斷提出改進建議的用戶們。同時也感謝一路走來,不斷鼓勵、支持和幫助過我們的孵化器導師、IPMC成員以及各個開源項目社區的朋友們。”
關于 SelectDB
SelectDB 是一家開源技術公司,致力于為 Apache Doris 社區提供一個由全職工程師、產品經理和支持工程師組成的團隊,繁榮開源社區生態,打造實時分析型數據庫領域的國際工業界標準?;?Apache Doris研發的新一代云原生實時數倉 SelectDB,運行于多家云上,為用戶和客戶提供開箱即用的能力。