近日,2021云棲大會(huì)開源大數(shù)據(jù)與AI行業(yè)實(shí)踐論壇上,阿里巴巴開源委員會(huì)副主席、阿里云開源大數(shù)據(jù)平臺(tái)負(fù)責(zé)人王峰首次公開阿里云開源大數(shù)據(jù)技術(shù)的十年演進(jìn)之路。同時(shí),經(jīng)歷阿里巴巴自身業(yè)務(wù)千錘百煉的兩款A(yù)I“神兵”宣布開源——大規(guī)模稀疏模型訓(xùn)練引擎DeepRec和多模態(tài)向量檢索引擎Proxima,幫助搜索、廣告等AI業(yè)務(wù)大幅提效。
開源大數(shù)據(jù):進(jìn)擊的十年演進(jìn)之路
王峰介紹了阿里云開源大數(shù)據(jù)平臺(tái)在過(guò)去十年間的技術(shù)演進(jìn)歷程,并分享了數(shù)據(jù)湖、實(shí)時(shí)化、云原生、智能化等技術(shù)趨勢(shì)。阿里巴巴一直堅(jiān)持自研和開源雙軌制平行發(fā)展模式,在自研的基礎(chǔ)上積極擁抱開源生態(tài)。早在2009年,基于 Apache Hadoop 構(gòu)建第一代大數(shù)據(jù)平臺(tái)-云梯,并從 2016 年開始大力推動(dòng) Apache Flink 社區(qū)的發(fā)展,激發(fā)社區(qū)生態(tài)的繁榮和多元化。至2020年,F(xiàn)link已連續(xù)三年在用戶和開發(fā)者郵件列表活躍度蟬聯(lián)第一。
隨著開源技術(shù)與云原生的高度融合,阿里云開源大數(shù)據(jù)平臺(tái)在功能性、易用性、安全性上積累了豐富的實(shí)踐經(jīng)驗(yàn),幫助萬(wàn)千企業(yè)聚焦自身核心業(yè)務(wù)優(yōu)勢(shì),縮短大數(shù)據(jù)開發(fā)周期、簡(jiǎn)化運(yùn)維難度,更輕松的投入到業(yè)務(wù)創(chuàng)新。
重磅開源:DeepRec和Proxima
基于業(yè)界常見的開源深度學(xué)習(xí)框架Tensorflow、PyTorch,針對(duì)稀疏模型仍具有局限性的問(wèn)題,阿里巴巴高級(jí)技術(shù)專家劉童璇在會(huì)上宣布大規(guī)模稀疏模型訓(xùn)練引擎DeepRec即將開源。DeepRec針對(duì)稀疏模型在分布式、圖優(yōu)化、算子、Runtime等方面進(jìn)行了深度的性能優(yōu)化,同時(shí)提供了動(dòng)態(tài)彈性特征、動(dòng)態(tài)彈性維度、自適應(yīng)彈性特征、多Hash彈性特征等在阿里集團(tuán)內(nèi)搜推廣業(yè)務(wù)中沉淀的稀疏功能。高效助力技術(shù)升級(jí),提升模型效果和模型迭代效率,大幅提高搜索、推薦、廣告場(chǎng)景的訓(xùn)練速度,縮短模型迭代周期。
阿里巴巴達(dá)摩院資深技術(shù)專家肖允鋒帶來(lái)多模態(tài)向量檢索引擎Proxima的正式開源。Proxima是阿里巴巴達(dá)摩院自研的向量檢索內(nèi)核,可實(shí)現(xiàn)對(duì)語(yǔ)音、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的檢索,廣泛應(yīng)用于阿里巴巴和螞蟻集團(tuán)內(nèi)的眾多業(yè)務(wù),如淘寶搜索、優(yōu)酷視頻搜索、阿里媽媽廣告檢索等。同時(shí),還深度集成在各類大數(shù)據(jù)和數(shù)據(jù)庫(kù)產(chǎn)品中,為其提供向量檢索的能力。開源項(xiàng)目地址:
https://github.com/alibaba/proximabilin
堅(jiān)定擁抱開源,共建社區(qū)繁榮
在堅(jiān)定擁抱開源的道路上,阿里巴巴一直強(qiáng)調(diào)希望能為開源社區(qū)作出更多貢獻(xiàn),帶動(dòng)社區(qū)繁榮發(fā)展,并實(shí)現(xiàn)社區(qū)多元化,讓開源技術(shù)能普惠更多行業(yè)和場(chǎng)景。在此期間,阿里巴巴組織了上萬(wàn)人群參與Flink等開源技術(shù)討論、聯(lián)合舉辦超過(guò)百場(chǎng)社區(qū)活動(dòng)、引入國(guó)際盛會(huì)Flink Forward等。
目前,阿里巴巴已經(jīng)成為 Apache Flink 社區(qū)全球最大的貢獻(xiàn)者和推動(dòng)者,阿里云開源大數(shù)據(jù)團(tuán)隊(duì)也培養(yǎng)出30名以上Apache 頂級(jí)項(xiàng)目 Committer 、 PMC Member 和多名 ASF Member,參與了十多個(gè)Apache Top Level Project的建設(shè)。阿里云也與Spark、Elasticsearch等開源社區(qū)展開了深入的合作。
12月4-5日,作為開源大數(shù)據(jù)領(lǐng)域的頂級(jí)盛會(huì)之一,F(xiàn)link Forward Asia 2021再次重磅來(lái)襲,聚集全球40+行業(yè)一線廠商和80+干貨議題,打造專屬于開發(fā)者的技術(shù)盛宴。大會(huì)議程已上線,點(diǎn)擊鏈接即可免費(fèi)報(bào)名。