本文來自于微信公眾號喜新(ID:noyanjiu),作者: 張佳,經授權轉載。
今年4月份,微信聯合清華大學舉辦了「2021中國高校計算機大賽微信大數據挑戰賽」。本次大賽的賽題是基于訪問微信視頻號推薦欄的用戶行為脫敏數據,使用推薦算法,對該部分用戶的未來行為做預測。
簡單來說,就是幫助微信視頻號搞一個推薦算法,提高其推薦的精準度。
沒有機會和能力參加比賽的技術渣,翻看了一下賽題描述和賽制規則以后,發現了視頻號團隊在推薦方面的權重期待。(點擊文末閱讀原文查看)
本次賽題會給到參賽選手們兩組數據,一組是視頻數據,一組是觀看這些視頻的用戶行為數據。
我們先來看一下視頻數據包含哪些維度:
總結表格,排除掉視頻的ID信息,以下內容會影響到推薦算法:
作者是誰、視頻時長、視頻的配文/圖像/語音被識別出的內容、BGM、BGM的歌手是誰、人工標注的關鍵詞/分類、機器標注的關鍵詞/分類。
再來看另一組用戶行為數據包含哪些維度:
總結表格,排除用戶本身和視頻的ID信息,以下行為會影響到推薦算法:
播放視頻的時長(也就是完播)、用戶停留時長(應該是指用戶在視頻號推薦欄的停留時長)、是否查看評論、是否點贊、是否點擊頭像、是否收藏視頻、是否轉發、是否發布評論、是否關注賬號。
參賽選手基于微信給到的以上信息去做推薦算法,然后用給到的測試數據檢驗推薦算法是否合理。具體評比所用的算法我們就不講了,因為一講那玩兒你們就不看了。
三句話講清楚這個事:
1、給你一些視頻的數據和對應的用戶行為數據,你來寫一套推薦算法,把這個推薦算法拿去給用戶推薦視頻。
2、怎么驗證你的推薦算法行不行呢?
3、根據通過你的推薦算法看到視頻的用戶的反饋來判斷,比如用戶看了被推薦的時候后有沒有點贊、轉發、評論、收藏甚至關注。
用戶的反饋行為有很多,肯定要分權重的。然后微信給出了每個行為的權重:
權重最高的是:是!否!查!看!評!論!
也就是說,對于參賽選手來說,如果你寫的推薦算法,讓看到視頻的每個用戶都點開了評論區,那么你就離拿30萬獎金不遠了。
這可以讓我們從兩個角度去猜測:
1、視頻號團隊非常重視用戶“查看評論”這個行為,反映到內容創作者,當你做的視頻讓用戶產生了點開評論的行為,那么視頻號會認為自己的推薦算法很牛,于是給你更多的推薦!
2、視頻號團隊很雞賊,知道這種文檔會被我這種雞賊創作者解讀,所以故意放出一個干擾視聽的評選標準。即便總獎金池是66萬,即便勞師動眾找清華背書、發動廣大學子、找來一大堆專家當評委,即便要持續搞四個月的運營支持,即便……
雖然這并不代表著,視頻號推薦的第一權重影響因素是是否查看評論(因為評價指標里沒有完播率),但至少證明了查看評論比點贊、比轉發、比收藏、比關注要重要的多的多。
我很早就說了,那些流傳“發完視頻以后10分鐘趕緊集齊20個贊就能上熱門”的說法都是放屁。但都沒用,即便有了這樣的硬核技術文檔支持,這種流言依然會有大量的信徒擁躉。
但我還是寫了,總有些聰明人能get到,然后包裝一下去割那幫擁躉!