近兩年來,在移動騰訊網(wǎng)落地了許多召回算法,絕大多數(shù)對業(yè)務指標帶來了不小的提升,趁著假期閑宅無事,泡壺好茶,倚窗聽雨,順便做點總結。一方面希望得到大神們的指點,另一方面也希望幫助到剛好有需要的同學,如果能起到拋磚引玉的作用更是榮幸之至。
召回在推薦系統(tǒng)中的地位
由于我個人主要是做召回算法的,首先免不了自吹自擂一番。以移動騰訊網(wǎng)( http:// xw.qq.com )新聞推薦系統(tǒng)為例,在整個推薦系統(tǒng)中召回具有奠基性,橋接性,決定性。
什么是召回
召回系統(tǒng),本質(zhì)上是個信息漏斗,負責快速從海量信息中篩選出有價值的信息,縮小排序算法的搜素范圍(解決了信息過載的問題);也負責將多路召回的數(shù)據(jù),進行融合(相當于一個信息融合器,解決了單路召回特征單一,信息量小,多樣性差的問題),得到一個精簡的候選集。
召回算法之初體驗
如果用一副通俗易懂的圖來解釋召回算法做了哪些事情的話,就是下面這幅圖。
怎么衡量一個召回系統(tǒng)的好壞
召回算法的衡量雖然有一些通用的衡量指標,比如準確度,覆蓋度 F1等,但是在實際應用中,一般會和自己的應用場景和業(yè)務指標掛鉤,通過一些更貼合實際的指標去衡量,這里暫以移動騰訊網(wǎng)為例。
已經(jīng)落地的召回算法
我們的應用場景主要是圖文推薦(詳情頁相關推薦和列表頁個性化推薦,目前也在做視頻推薦和圖文視頻混推),
由于是新聞推薦,而且是從零到一實現(xiàn)整個推薦系統(tǒng),因此我們的推薦和NLP 一開始就密切的聯(lián)系在了一起,并且一直伴隨著我們的持續(xù)優(yōu)化過程。從開始到現(xiàn)在,按照時間順序,依次實現(xiàn)了如下算法:
召回算法的緣起緣滅
一路有效的召回算法從想法的產(chǎn)生,到最后上線并起作用大致要歷經(jīng)一下各態(tài)
算法之美
召回算法,為移動騰訊網(wǎng)業(yè)務指標的持續(xù)提升發(fā)揮了重要作用,以下為分階段的提升效果(在實際應用時各個階段并非完全串行的,也存在一些并行和交叉的情況,為了更加清晰的表達,做了一下并不完全合理的劃分)
結束語
由于我們是圖文類型的新聞推薦,NLP和召回算法相伴而生,在做召回的過程中也完成了一些基本的NLP基礎建設,具體如下:
在做召回算法的過程中,個人也總結了一些經(jīng)驗:個人認為貼合業(yè)務場景的可落地的創(chuàng)新想法,比盲目追求paper 上的模型更有效,自己能夠全流程控制的可解釋的模型比盲目使用一些黑盒模型要好,再就是如果能跨行業(yè)融匯貫通,把生物學,進化論,自動控制,哲學上的一些理論,活學活用到推薦領域也會起到意想不到的作用。
召回算法實踐總結
近兩年來,在移動騰訊網(wǎng)落地了許多召回算法,絕大多數(shù)對業(yè)務指標帶來了不小的提升,趁著假期閑宅無事,泡壺好茶,倚窗聽雨,順便做點總結。一方面希望得到大神們的指點,另一方面也希望幫助到剛好有需要的同學,如果能起到拋磚引玉的作用更是榮幸之至。
召回在推薦系統(tǒng)中的地位
由于我個人主要是做召回算法的,首先免不了自吹自擂一番。以移動騰訊網(wǎng)( http:// xw.qq.com )新聞推薦系統(tǒng)為例,在整個推薦系統(tǒng)中召回具有奠基性,橋接性,決定性。
什么是召回
召回系統(tǒng),本質(zhì)上是個信息漏斗,負責快速從海量信息中篩選出有價值的信息,縮小排序算法的搜素范圍(解決了信息過載的問題);也負責將多路召回的數(shù)據(jù),進行融合(相當于一個信息融合器,解決了單路召回特征單一,信息量小,多樣性差的問題),得到一個精簡的候選集。
召回算法之初體驗
如果用一副通俗易懂的圖來解釋召回算法做了哪些事情的話,就是下面這幅圖。
怎么衡量一個召回系統(tǒng)的好壞
召回算法的衡量雖然有一些通用的衡量指標,比如準確度,覆蓋度 F1等,但是在實際應用中,一般會和自己的應用場景和業(yè)務指標掛鉤,通過一些更貼合實際的指標去衡量,這里暫以移動騰訊網(wǎng)為例。
已經(jīng)落地的召回算法
我們的應用場景主要是圖文推薦(詳情頁相關推薦和列表頁個性化推薦,目前也在做視頻推薦和圖文視頻混推),
由于是新聞推薦,而且是從零到一實現(xiàn)整個推薦系統(tǒng),因此我們的推薦和NLP 一開始就密切的聯(lián)系在了一起,并且一直伴隨著我們的持續(xù)優(yōu)化過程。從開始到現(xiàn)在,按照時間順序,依次實現(xiàn)了如下算法:
召回算法的緣起緣滅
一路有效的召回算法從想法的產(chǎn)生,到最后上線并起作用大致要歷經(jīng)一下各態(tài)
算法之美
召回算法,為移動騰訊網(wǎng)業(yè)務指標的持續(xù)提升發(fā)揮了重要作用,以下為分階段的提升效果(在實際應用時各個階段并非完全串行的,也存在一些并行和交叉的情況,為了更加清晰的表達,做了一下并不完全合理的劃分)
結束語
由于我們是圖文類型的新聞推薦,NLP和召回算法相伴而生,在做召回的過程中也完成了一些基本的NLP基礎建設,具體如下:
在做召回算法的過程中,個人也總結了一些經(jīng)驗:個人認為貼合業(yè)務場景的可落地的創(chuàng)新想法,比盲目追求paper 上的模型更有效,自己能夠全流程控制的可解釋的模型比盲目使用一些黑盒模型要好,再就是如果能跨行業(yè)融匯貫通,把生物學,進化論,自動控制,哲學上的一些理論,活學活用到推薦領域也會起到意想不到的作用。
作者:minwxwang,騰訊 PCG 應用研究員