5月21日,知乎聯(lián)合清華大學(xué)對(duì)外開(kāi)放基于知乎的大規(guī)模富文本查詢和推薦數(shù)據(jù)集“ZhihuRec”。該數(shù)據(jù)集包含了知乎上的1億個(gè)行為數(shù)據(jù),是目前為止,國(guó)內(nèi)用于個(gè)性化推薦的最大的實(shí)際交互數(shù)據(jù)集。
作為一個(gè)大型數(shù)據(jù)集,ZhihuRec具有社交化問(wèn)答場(chǎng)景中的詳細(xì)信息,覆蓋了知乎10天內(nèi)、79.8萬(wàn)用戶、16.5萬(wàn)個(gè)問(wèn)題、55.4萬(wàn)個(gè)回答、24萬(wàn)個(gè)作者、7萬(wàn)話題以及50.1萬(wàn)用戶搜索行為日志,保留了完整的用戶交互(例如點(diǎn)擊、跳過(guò)、搜索等)、時(shí)機(jī)和內(nèi)容信息,且所有數(shù)據(jù)均經(jīng)過(guò)脫敏處理。
該數(shù)據(jù)集可用于評(píng)估常規(guī)top-N推薦、順序推薦和上下文感知推薦中的算法應(yīng)用,還可用于集成搜索和推薦以及帶有負(fù)反饋的推薦。 此外,該數(shù)據(jù)集不僅可以用于推薦研究,還可以應(yīng)用于用戶建模(例如,性別預(yù)測(cè),用戶興趣預(yù)測(cè)),搜索和推薦系統(tǒng)的組合以及其他有趣的主題。
個(gè)性化推薦技術(shù)已經(jīng)廣泛應(yīng)用于購(gòu)物、視頻、閱讀、社交等互聯(lián)網(wǎng)場(chǎng)景。但開(kāi)放式大規(guī)模真實(shí)場(chǎng)景數(shù)據(jù)集十分罕有。ZhihuRec數(shù)據(jù)集的開(kāi)放,不僅豐富了開(kāi)放式大規(guī)模真實(shí)場(chǎng)景數(shù)據(jù)集的研究樣本,更填補(bǔ)了推薦系統(tǒng)中用戶交互日志的空白。
知乎成立十年來(lái),聚集了超過(guò)3 .53億條內(nèi)容,每天會(huì)新增超過(guò)2000萬(wàn)條創(chuàng)作和互動(dòng),為中文互聯(lián)網(wǎng)貢獻(xiàn)了寶貴的文本財(cái)富。
2018年,知乎曾聯(lián)合中國(guó)信息檢索學(xué)術(shù)會(huì)議(CCIR)、清華大學(xué)計(jì)算機(jī)系信息檢索課題組(THUIR)共同舉辦了“移動(dòng)環(huán)境下知識(shí)分享平臺(tái)上的內(nèi)容推薦”大賽,首次在比賽中開(kāi)放ZhihuRec數(shù)據(jù)集,吸引了眾多高校和企業(yè)技術(shù)團(tuán)隊(duì)參賽和關(guān)注。此次知乎聯(lián)合清華大學(xué)將該數(shù)據(jù)集進(jìn)一步豐富并全面開(kāi)放,旨在通過(guò)更大范圍的數(shù)據(jù)開(kāi)源,為行業(yè)算法技術(shù)突破與演進(jìn)提供更多數(shù)據(jù)和場(chǎng)景支持。