阿里巴巴淘系技術部與北京大學前沿計算研究中心CVDA實驗室、英國愛丁堡大學等合作,正式開源業界首個大規模的多模態直播服飾檢索數據集(Watch and Buy)以推動視頻多模態檢索技術的研究。
此前,依托該數據集舉辦的第一屆淘寶直播商品識別大賽完美落幕,近2000支隊伍參加了比賽,涌現了一批檢索創新技術,有效提升淘寶直播場景中服飾檢索的效果,形成了一定的學術和工業影響力。
什么是Watch and Buy?
直播帶貨是淘寶連接商品和消費者的重要方式,通過對直播視頻中商品進行實時識別和推薦,可實現消費者邊看邊買的消費體驗,有效提高商品購買的轉化,有非常大的經濟價值。通常情況下直播對應的數百款商品之間相似程度高,且直播畫面中存在大量的背景干擾、燈光變化、商品遮擋和形變等,給直播畫面中商品的匹配識別帶來很大的技術挑戰。
淘寶直播“邊看邊買”效果示例,借助PixelAI 商品識別算法,可以從該直播的商品庫中識別出直播中主播講解的商品,并在直播中通過商品卡片形式推薦給消費者。
為了提升直播中商品匹配識別的效果,我們依托淘寶直播海量數據,構建了業界最大規模的多模態視頻商品檢索數據集Watch and Buy (WAB)。該數據集包含70,000個由直播視頻片段和對應講解商品構成的匹配對,具有規模大、標注全、模態多、功能廣的特點。我們抽取視頻片段若干關鍵幀和商品的全部商品圖進行了實例框級標注,商品id數達82,173個,標注圖像數達1,042,178張,檢測框實例1,654,780個。框級標注信息豐富多樣,包括商品的檢測框、類別、視角、展示方式、同款編號等。除了視覺標注,我們還對主播講解語音進行了人工文本轉錄,同時提供了商品的標題文本信息。該數據集可用于物體檢測的算法、商品重識別算法、主播意圖識別、跨模態檢索和多模態檢索等多種算法的研究。
為什么需要Watch and Buy?
當前開源的服飾檢索數據集都存在一些不足,無法滿足真實視頻場景中服飾實時識別的應用和細致研究。
首先,已有開源數據集均為靜態圖片的數據集,而真實視頻直播場景中還存著運動模糊、遮擋等問題;通過針對視頻場景的數據集能夠有效對上述問題進行研究和解決。
其次,已有開源數據集的圖片多為網上收集,數目少、噪聲大且標注維度不全,我們依托淘寶網和淘寶直播的真實業務場景,能夠獲取大規模、高質量和全面的商品信息。
最后,現有數據集多為單一的圖片數據集,我們還提供了主播語音翻譯文本、商品圖標題文本等多模態的信息,進行多模態商品檢索的研究,能夠更加貼近真實場景。
我們相信Watch and Buy 數據集的這些特性將會持續激發視頻多模態檢索領域的技術創新研究。
淘寶直播商品識別大賽簡介:
為了方便學術界廣泛參與,我們將業務問題抽象為視頻庫和商品庫之間的多模態視覺檢索問題。在評價指標上,提出了片段級、幀級和檢測框級評價標準,全面衡量選手算法效果。
為了保證選手算法既能快速迭代又能有效賦能線上真實業務,我們在初賽、復賽和決賽的賽題中逐步引導選手從技術貼近業務,其中,初賽為萬級視頻片段的檢索問題,復賽則加入了真實場景中存在的商品缺失問題,決賽則是將選手方案部署到真實線上場景,直接評價完整直播視頻的算法效果。
大賽由淘系技術部內容社交互動平臺和天池競賽平臺共同舉辦, 發布了業界最豐富的7W規模多模態視頻檢索數據集,用于進行算法模型的訓練和效果評測,并且提供了24W的比賽獎金獎勵優秀參賽者,考慮到疫情期間高校參賽者的資源困難,額外提供了GPU機器進行模型在線訓練,最終吸引到1945支隊伍參賽。選手來源中,30%的隊伍來自高校,26%來自公司,個人參賽有6%。選手學歷分布為,40%的選手擁有碩士學歷,24%的選手為本科,博士選手占6%。最終,來自中科院計算所和吉林大學的逐星團隊以超越Baseline方案20%的成績奪得本次比賽的冠軍,另外多位來自高校的參賽同學表示已經在數據集上進行算法研究,并保持于主辦方密切聯系。淘系技術的算法同學對優秀方案吸納并補充到淘寶直播線上場景中,實現更好服務于淘寶直播商品識別業務。
我們是阿里巴巴淘系技術,淘系技術旗下包含淘寶技術、天貓技術、閑魚技術、躺平等團隊和業務。我們服務9億用戶,賦能各行業1000萬商家,并成功主導了11次阿里巴巴經濟體雙十一技術大考,打造了全球領先的線上新零售技術平臺。
我們的愿景是致力于成為全球最懂商業的技術創新團隊,讓科技引領面向未來的商業創新和進步。
更多技術干貨可關注【淘系技術】公眾號。