歷經123天,第二屆百度搜索創新大賽已于近日落下帷幕。
百度集團副總裁、搜索平臺負責人肖陽曾在致辭中指出,“AI已經重新定義搜索。百度對搜索的理念,一直是更好滿足用戶的需求,不止幫助用戶找到所求、更是得到所求,讓用戶能夠在百度一站式解決問題,享受服務閉環。面對新奇點,百度搜索將串聯并釋放過去20年的積累,深入推動搜索引擎的能力升級與產品創新,引領搜索代際變革?!?/p>
但創新、突破需要的則是更多的高科技人才,擁有更為強大的人才資源。所以,這也是百度聯合各地頂級高校、學會共同舉辦百度創新搜索大賽的重要出發點。
01
“基于GPU的近似最近鄰檢索算法挑戰”賽題成果顯現
有機會,便有挑戰。在賽題的設置上,第二屆百度抖索創新大賽做了些許創新,包括「搜索答案組織」、「基于向量交集的TopK搜索」、「基于搜索用戶充分的調研,洞察用戶在搜索場景的需求,并通過構建AI應用解決」、「基于GPU的近似最近鄰檢索算法挑戰」、「可控圖片生成算法挑戰」。
據了解,本次大賽賽題均來源于搜索核心業務場景,涉及算法、工程、產品三大領域,涉及大模型應用、語義檢索、多模態、軟硬結合優化等豐富的技術方向,適合有著不同興趣和經驗的參賽者。
以賽道四“基于GPU的近似最近鄰檢索算法挑戰”為例,具體任務為:給定數據集,開源+百度內部數據集,數據規模億級,給定測試集,數據規模1萬,稱為query。參賽者設計自己的近似最近鄰檢索算法,返回每個query與數據集內最相似的topK個樣本。提供統一的虛擬環境和benchmark 框架,并QPS-recall作為算法的唯一評估指標,在固定QPS時,召回率越高算法越優秀。在相同的硬件環境下,使用黑箱測試集,統一執從賽道四行參賽者提交的代碼,在固定QPS時,算法的召回率作為參數的最終成績。
基于GPU的近似最近鄰檢索算法是一種利用GPU的并行計算能力加速高維空間中的最近鄰搜索的算法。與傳統的最近鄰搜索算法相比,基于GPU的近似最近鄰檢索算法具有許多優點。它可以利用GPU的并行計算能力加速搜索過程,提高算法的效率。其次,它可以處理大規模高維數據集,并能夠保證較高的準確率。此外,這種算法還可以與其他算法進行結合,進一步提高檢索準確率。
如此來看,完成上述任務并不容易。但從近日舉辦的大賽頒獎典禮來,優秀成果已展現。在「基于GPU的近似最近鄰檢索算法挑戰」賽道上共有273人報名,其中組成的30支隊伍提交上榜。經過激烈角逐,最終來自杭州電子科技大學的HDU01隊伍獲得賽道四冠軍。
02
擁抱創新,開啟新搜索時代
人才驅動,創新不止。
通過與冠軍團隊杭州電子科技大學的HDU01深入溝通可以發現,成功的背后有著別樣的故事。
該團隊成員倪炯康介紹,針對賽道四賽題任務,他們所面臨的主要問題是,“面向用戶對互聯網上日益增長的非結構化數據,如圖片、文本、音視頻等的檢索需求,使用向量檢索技術,通過向量表示這些數據來準確高效地實現用戶的以圖搜圖、內容檢索等需求?!?/p>
為了達到這一要求,在比賽初期,通過流水線技術優化算法,HDU01團隊曾達到baseline 1.5X的分數,位居排名前列,但他們并沒有就此止步。“為了坐穩冠軍寶座,他們不斷探索算法的極限,終于在比賽中后期發現了算法的帶寬瓶頸,最后通過模型索引壓縮的方式將其性能進一步突破了一倍,達到了3X baseline,拿到了本賽道的冠軍?!痹搱F隊回憶稱。
據悉,HDU01團隊的成員均來自杭州電子科技大學知識圖譜實驗室。其中兩名成員曾在國內外各大編程比賽中獲得過數個獎項,如全國編程天梯賽,ACM等;此外,他們小組還在數據庫國際頂級會議,如VLDB、NeurIps中以共同作者的身份發表了數篇向量檢索方向的文章。
“比賽是一種經歷,經歷就有收獲。通過此次百度搜索大賽,我們不僅提升了自己的團隊協作能力,也鍛煉了我們永不放棄的精神?!痹搱F隊表示。
當然,這也是百度搜索創新大賽舉辦的目標之一,更是其構建“百萬英才計劃”的基石。
大語言模型的變革浪潮才剛剛開始,它所引發的全方位創新和創意激發,一定會加速搜索引擎的進化。通過百度搜索創新大賽,不僅可以把搜索這個“世界上最大規模AI應用場景”充分開放出來,讓各位同學參與到創新場域中來,同時也在一定程度上促進了各位參賽者與搜索之間發生激烈的、精彩的碰撞。
擁抱創新,開啟新搜索時代,一扇全新大門正逐步打開。