近日,2021云棲大會開源大數據與AI行業實踐論壇上,阿里巴巴開源委員會副主席、阿里云開源大數據平臺負責人王峰首次公開阿里云開源大數據技術的十年演進之路。同時,經歷阿里巴巴自身業務千錘百煉的兩款AI“神兵”宣布開源——大規模稀疏模型訓練引擎DeepRec和多模態向量檢索引擎Proxima,幫助搜索、廣告等AI業務大幅提效。
開源大數據:進擊的十年演進之路
王峰介紹了阿里云開源大數據平臺在過去十年間的技術演進歷程,并分享了數據湖、實時化、云原生、智能化等技術趨勢。阿里巴巴一直堅持自研和開源雙軌制平行發展模式,在自研的基礎上積極擁抱開源生態。早在2009年,基于 Apache Hadoop 構建第一代大數據平臺-云梯,并從 2016 年開始大力推動 Apache Flink 社區的發展,激發社區生態的繁榮和多元化。至2020年,Flink已連續三年在用戶和開發者郵件列表活躍度蟬聯第一。
隨著開源技術與云原生的高度融合,阿里云開源大數據平臺在功能性、易用性、安全性上積累了豐富的實踐經驗,幫助萬千企業聚焦自身核心業務優勢,縮短大數據開發周期、簡化運維難度,更輕松的投入到業務創新。
重磅開源:DeepRec和Proxima
基于業界常見的開源深度學習框架Tensorflow、PyTorch,針對稀疏模型仍具有局限性的問題,阿里巴巴高級技術專家劉童璇在會上宣布大規模稀疏模型訓練引擎DeepRec即將開源。DeepRec針對稀疏模型在分布式、圖優化、算子、Runtime等方面進行了深度的性能優化,同時提供了動態彈性特征、動態彈性維度、自適應彈性特征、多Hash彈性特征等在阿里集團內搜推廣業務中沉淀的稀疏功能。高效助力技術升級,提升模型效果和模型迭代效率,大幅提高搜索、推薦、廣告場景的訓練速度,縮短模型迭代周期。
阿里巴巴達摩院資深技術專家肖允鋒帶來多模態向量檢索引擎Proxima的正式開源。Proxima是阿里巴巴達摩院自研的向量檢索內核,可實現對語音、圖像、視頻等非結構化數據的檢索,廣泛應用于阿里巴巴和螞蟻集團內的眾多業務,如淘寶搜索、優酷視頻搜索、阿里媽媽廣告檢索等。同時,還深度集成在各類大數據和數據庫產品中,為其提供向量檢索的能力。開源項目地址:
https://github.com/alibaba/proximabilin
堅定擁抱開源,共建社區繁榮
在堅定擁抱開源的道路上,阿里巴巴一直強調希望能為開源社區作出更多貢獻,帶動社區繁榮發展,并實現社區多元化,讓開源技術能普惠更多行業和場景。在此期間,阿里巴巴組織了上萬人群參與Flink等開源技術討論、聯合舉辦超過百場社區活動、引入國際盛會Flink Forward等。
目前,阿里巴巴已經成為 Apache Flink 社區全球最大的貢獻者和推動者,阿里云開源大數據團隊也培養出30名以上Apache 頂級項目 Committer 、 PMC Member 和多名 ASF Member,參與了十多個Apache Top Level Project的建設。阿里云也與Spark、Elasticsearch等開源社區展開了深入的合作。
12月4-5日,作為開源大數據領域的頂級盛會之一,Flink Forward Asia 2021再次重磅來襲,聚集全球40+行業一線廠商和80+干貨議題,打造專屬于開發者的技術盛宴。大會議程已上線,點擊鏈接即可免費報名。