導讀:本文的主題為阿里飛豬推薦算法探索實踐,首先會介紹電商背景下主流推薦技術的發(fā)展,例如基于全空間的CVR預估技術的發(fā)展歷程等 ( ESMM / ESM^2 / HM^3 );接著會重點結(jié)合旅行行業(yè)的特色,進一步介紹飛豬推薦算法的現(xiàn)狀及發(fā)展。
01電商推薦算法簡介
首先和大家分享一下電商的推薦算法。
1. 推薦技術框架
電商的推薦技術框架大致可以分為如下四個部分:
① 基礎能力:主要包括基礎數(shù)據(jù)、樣本、特征和機器學習平臺四個方面。
具體涉及到基礎數(shù)據(jù)的處理,樣本、特征怎樣做,以及后續(xù)機器學習平臺涉及到的一系列流程,包括樣本生成,模型訓練,模型校驗以及模型上線等。
② 算法模型:主要包括召回,初排,精排和重排。
召回階段:業(yè)界正從協(xié)同過濾往基于深度學習的Deep Match方向衍化。
協(xié)同過濾簡單地說就是一份i2i數(shù)據(jù),它是一份全局的相似數(shù)據(jù),具體來說,它會根據(jù)用戶點過的商品去推薦和該商品相關的商品,這樣就會丟掉很多個性化的信息。舉個例子:用戶A和B都點擊了同一個商品,那對A和B來說,后面的推薦結(jié)果在召回層面是一樣的。但A和B為什么會去點這個商品呢?事實上,會有一些context信息的,比如會存在不同的行為序列等。我們是希望考慮用戶的行為序列去做相應的召回,所以模型在往基于深度學習的Deep Match方向做衍化。例如,阿里最近的一個工作應該是發(fā)表在SIGIR2021上的PDN模型,該模型研究了如何更好的把u2i和i2i數(shù)據(jù)做一個更好的結(jié)合。
精排階段:正在從以FTRL為代表的線性模型和以GBDT為代表的非線性模型往深度模型的方向發(fā)展。
這其中,阿里媽媽提出的DIN模型為深度學習方向的代表性模型。它對我們建模用戶行為序列提供了非常好的指導。隨后也有很多基于DIN的一些衍化工作,比如針對怎樣捕捉用戶興趣的衍化,提出了DIEN模型;針對怎樣建模用戶更長時間周期的行為,提出了超長行為序列建模的思想。另外,在CVR預估領域,代表性的工作是阿里媽媽提出的ESMM模型,我們也基于此有一些后續(xù)的研究成果。
③ 線上服務:采用的是統(tǒng)一的TPP推薦方案,在TPP方案內(nèi)部嵌套了相應的基礎服務。比如做特征處理的ABFS,做召回的BE,做儲存的IGraph等。這些組件集成在TPP方案里,再用這套推薦方案去承接線上各類推薦場景。
④ 業(yè)務場景:比如手淘的猜你喜歡,店鋪、商家私域,還有逛逛、訂閱、購后場景等
2. 基于全空間的CVR預估—ESMM模型回顧
接下來我們基于全空間的CVR預估,講講這個方向最近的一些進展。首先回顧一下阿里媽媽發(fā)在SIGIR 2018上的ESMM模型。
① 傳統(tǒng)CVR預估面臨的三大技術挑戰(zhàn):
Sample Selection Bias(SSB)問題
傳統(tǒng)的CVR預估是用點擊的樣本去train一個模型,點擊之后購買,它的label就是1,沒有買,label就是0。但事實上,商品在曝光時,推薦系統(tǒng)就要估出它們的CVR分。所以會存在training space和inference space不一致的問題。
Data Sparsity ( DS ) 問題
傳統(tǒng)CVR預估的數(shù)據(jù)量比CTR預估的數(shù)據(jù)量少幾個數(shù)量級。所以,CVR預估存在數(shù)據(jù)稀疏性問題。如果拿數(shù)據(jù)量很少的數(shù)據(jù)集去train一個深度模型,相應的Embedding的學習也會不充分,進一步影響CVR模型的預估效果。
購買正樣本的缺乏
用戶實際產(chǎn)生的購買行為確實是非常少的,導致了絕對正樣本的缺乏
② ESMM建模方法
引入CTR/CTCVR任務為輔助任務
我們可以看下下面這個公式:是指從曝光到購買的一個概率,就等于。CTR就是從曝光到點擊的概率,CVR就是從點擊到購買的概率。
我們怎么去獲得CVR的預估值?ESMM的建模思路是,直接在模型中引入了兩個基于全空間的輔任務,比如CTR和CTCVR。一條樣本曝光之后,我們能夠知道他是否會點擊,是否會購買的。所以這兩個任務的label是提前知道的。我們可以基于這兩個引入的輔任務,對CVR做預估。
ESMM模型結(jié)構(gòu)如上圖:它有兩個塔,分別代表CTR和CVR,同時基于這兩個塔定義了兩個輔任務。比如CTR,還有CTCVR(它代表CTR和CVR的乘積)。這樣,給定一條曝光樣本,我們知道它接下來是否會發(fā)生點擊,是否會發(fā)生購買。再通過梯度回傳的方式,就可以把CVR也給估出來。
另外,ESMM模型在底層把CTR和CVR的兩個task所需要的embedding做了共享,這樣我們可以用包括曝光樣本在內(nèi)的所有的訓練數(shù)據(jù)共同去做embedding的更新,緩解了CVR預估面臨的data Sparsity問題。
通過優(yōu)化CTR和CTCVR兩個輔任務達到預估CVR的目的
我們引入的兩個輔任務CTR和CTCVR都是從曝光開始的。這樣預估得到的CVR其實也受益于CTR和CTCVR的兩個基于全空間的任務,相當于CVR也是基于全空間去估出來的。這樣就消除了Sample Selection Bias問題。
3. 基于全空間的CVR預估—ESM^2模型
① ESMM模型的不足:
建模路徑上,只考慮了從曝光到點擊再到購買
事實上,用戶的購買決策路徑非常復雜。比如用戶在點擊之后,有可能會先加入購物車再通過購物車去產(chǎn)生購買行為。所以需要考慮更復雜的用戶購買決策路徑。
沒有考慮到購買正樣本的缺乏對建模的影響
購買正樣本的缺乏也會影響預估的精準性。我們提出了可以引入點擊之后的post-click行為,去緩解購買正樣本缺乏對最終建模的影響。
② ESM^2模型解決的問題
基于這樣的考慮,我們提出了ESM^2模型,該工作發(fā)表在SIGIR 2020上,它主要解決三個問題:首先解決了SSB問題,其次解決了DS問題,最后緩解了正樣本的缺乏。這篇paper最主要的貢獻就是引入了合適的post-click行為。當然該模型在建模時,也會面臨一些挑戰(zhàn)。
③ ESM^2建模面臨的四大挑戰(zhàn):
- 如何定義合適的post-click行為
- 如何抽象用戶復雜的購買決策過程
- 如何有效地同時組織多種post-click行為
- 如何建模post-click行為與購買之間的依賴關系
④ ESM^2建模思路:
用戶對商品的決策過程非常復雜
用戶購買決策過程非常復雜,比如點擊之后,可能先加購,加購之后可能再點擊,再次點擊之后可能再購買。
點擊到購買之間引入合適的post-click行為
解決正樣本缺乏問題,我們的做法是在點擊到購買之間引入合適的post-click行為。比如以前的建模方式是直接從點擊到購買,現(xiàn)在把過去的建模方式拆分,我們觀察到發(fā)生點擊行為之后,可能會發(fā)生相應的一些類似加購、收藏的post-click行為。
通過定義完備劃分事件組織多種post-click行為
事實上,post-click行為是非常豐富的,我們該怎樣組織它們呢?我們的做法是把post-click行為做一個完備的劃分。具體來說,我們把所有的post-click行為分成兩個集合,并保證這兩個集合互不相交。比如,我們定義加購/收藏行為作為DAction,那么我們對它取反,就代表了其他剩余的post-click行為,叫OAction。這樣,DAction和OAction兩個節(jié)點就可以認為囊括了所有的post-click行為。
全概率公式建模用戶行為之間依賴關系
我們就可以基于全概率公式對用戶行為之間的依賴關系做建模。
具體而言,我們以前是直接從點擊到購買估出CVR的預估值。現(xiàn)在我們把過去的單一路徑拆成兩條路徑,并且這兩條路徑是互不相交的。比如說用戶可以通過點擊到DAction,再從DAction到購買;或者用戶也可以從點擊到OAction,然后再從OAction到購買。這樣我們可以基于全概率公式去做相應的建模。
⑤ ESM^2模型
我們具體怎么建模呢?以前的ESMM模型,它直接從點擊到購買會有一個CVR預估值,我們把這樣一個值進行拆解。首先我們引入一個任務叫從點擊到DAction,DAction可以簡單理解為加購或者收藏這樣的行為是否發(fā)生;如果發(fā)生了,DAction的label就是1。OAction對應為DAction的取反。所以如果從點擊到DAction的概率是y2,則從點擊到OAction的概率就是1-y2。同時再引入兩個輔任務,比如一個概率叫y3,一個叫y4,它們分別代表DAction到Buy、OAction到Buy這兩條路徑的概率。我們怎么解決Sample Selection Bias問題?一條樣本曝光之后,我們知道它是否有點擊,是否有購買的label,同時也知道,是否有DAction的label。這樣其實就引入了三個基于全空間的輔任務。第一個任務是從曝光到點擊,其實就是CTR(對應y1);第二個任務是從曝光到DAction,DAction其實就可以理解成剛才我們講到的加購/收藏這樣一個行為,它是否發(fā)生的概率其實就等于y1乘上y2;第三個任務是從曝光到購買的概率,就等于曝光到點擊的概率乘以從點擊到購買的概率,即y1×[y2×y3+(1-y2)×y4]。這就是一個全概率的分解;其中,中括號里面的就代表了CVR的預估值。
整個網(wǎng)絡結(jié)構(gòu)如上圖所示。我們的四個網(wǎng)絡分別對應到圖上的y1到y(tǒng)4,另外,我們還有三個相應的損失函數(shù)。比如說從曝光到DAction的概率就是y1×y2,就是兩個網(wǎng)絡輸出結(jié)果的乘積,它的label是用戶是否發(fā)生DAction這樣的行為。同理,購買的概率值就是y1[y2y3+(1−y2)y4],它的label是用戶是否發(fā)生購買行為。損失函數(shù)就是基于預估值和真實label給定義出來的;我們拿到了Loss1到Loss3后,就可以通過梯度回傳的方式,對相應的embedding做一些更新,同時也能得到y(tǒng)1到y(tǒng)4的值。得到y(tǒng)1到y(tǒng)4之后,pCTR和pCVR也就得到了。
⑥ ESM^2模型優(yōu)化思路:
我們可以想想用戶在手淘商品詳情頁上可能發(fā)生的行為。我們可以把這些行為分為兩類,一類就是以商品粒度作為最小單元。比如說用戶點擊了某商品,這種行為叫宏觀行為。同時還會有微觀行為。比如用戶可能會點擊商品詳情頁上的一些控件button,比如點擊了和賣家聊天這個button、點擊了查看評論這個button等, 經(jīng)過分析,這樣的控件點擊行為也和我們的購買行為存在一定的強關聯(lián)性的。基于這樣考慮,我們把模型ESM^2進行了升級,提出了HM^3,該工作發(fā)表在SIGIR2021上。
4. 基于全空間的CVR預估—HM^3模型
HM^3模型的架構(gòu)和ESM^2模型架構(gòu)差不太多,只是在宏觀行為之前,又引入了一層微觀的行為。并根據(jù)引入的微觀行為去進一步指導宏觀行為的建模,進而間接影響對最終目標購買的建模。
同樣的,微觀行為和宏觀行為各分為兩個互不相交的集合,這樣從點擊到購買,就進一步拆解成了圖中的左上部分。
那么,針對這個圖,接下來該怎么去建模CVR呢?同樣的道理,我們把相應路徑上的概率標出來,比如從點擊到D_Micro節(jié)點的概率是y2,相應的從點擊到O_Micro節(jié)點的概率就定義成1-y2。另外,我們可以基于y1到y(tǒng)6這6個概率值,定義出四個基于全空間的輔任務。比如,從曝光到點擊,從曝光到D_Micro,從曝光到D_macro, 從曝光到購買。這樣,pCVR就等于{y4[y2y3+(1-y2)y5]+y6[y2(1-y3)+(1-y2)(1-y5)]}。
02飛豬推薦算法探索
接下來對飛豬的推薦算法做一個簡要的分享。
1. 旅行推薦的背景
① 旅行狀態(tài)下用戶生命周期
我們把旅行狀態(tài)下的用戶生命周期分為了四個階段。
激發(fā)需求
首先要有一個需求的激發(fā)。比如,你身邊有朋友向你推薦他去過的某個好玩的地方,那么你也有可能會去,因為你對朋友推薦的那個地方也感興趣;又或者你在刷抖音、小紅書、或一些旅行App時,相關的視頻或內(nèi)容可能也會對你起到種草的作用。總之,可能會存在多種不同的渠道激發(fā)出你的旅行需求。
行前
當你有了這樣的旅行需求之后,接下來要怎么做?大概率會在像飛豬這樣的APP上做相應的攻略,這個階段叫行前。這個時候你會去找目的地相關的一些酒店,選擇相應的出行方式,是坐火車還是坐飛機去?然后你也可能會關注下當?shù)氐穆眯泄ヂ裕热缣崆翱纯串數(shù)鼐包c門票啥的。當你綜合考慮了各種信息之后,你會做一個你認為的最優(yōu)的決策,例如,選擇什么樣的交通方式,入住當?shù)厥裁搭愋偷木频辏婺男┖猛娴木包c等。
行中
當你完成上述的行前準備工作后,接下來乘坐相應的交通工具到達了目的地,這時的狀態(tài)叫做行中。此時你會更多地關注兩方面的內(nèi)容,一方面就是當?shù)厥欠襁€有一些熱門的景點是你感興趣的;另一方面你也可能會關心目的地周邊的玩樂等。這時,如果用戶打開飛豬app,我們的推薦算法也會結(jié)合你此時正處于行中狀態(tài)去推薦一些當?shù)責衢T景點門票或周邊玩樂等
行后
行中狀態(tài)結(jié)束之后,就是行后了。此時,用戶會對這次旅行做出相應的反饋,例如,對此次行程是否滿意等;同時,如果后續(xù)有新的旅行需求被激發(fā),用戶又將開啟新一輪的旅行周期。
② 旅行周期中飛豬app的應用
當用戶打開飛豬APP時,如果此刻用戶的需求特別明確,例如是要訂機票、火車票,或酒店等,那么用戶會去點擊相關的金剛,例如,在金剛內(nèi)部,通過機票/酒店的搜索等完成用戶的需求。另一方面,如果用戶需求不太明確時,他會一直下翻,此時最底部的無窮feeds流猜你喜歡模塊,會去承接用戶此時偏“逛”的需求。
③ 飛豬推薦的特點
低頻
第一個特點是低頻性。旅行是一個較低頻的行業(yè),用戶的旅行需求比較低頻。低頻就會導致用戶旅行行為也比較稀疏,甚至會導致冷啟動。
時空屬性
第二個特點是時空屬性,推薦需要考慮時空屬性的特點。比如需要考慮當下什么樣的玩法是比較熱門的,又或者需要考慮時令的特點,比如每年3~4月櫻花盛開時,需要重點去捕捉等。
周期性
第三個特點是周期性。比如每逢五一,用戶可能會回老家。如果過去幾年用戶都選擇回老家了,那么接下來的五一推薦算法會推測用戶大概率也會回老家;過年也是一樣的。我們可以根據(jù)相應的周期性特點,對推薦算法做相應的定制。
2. 旅行特色算法技術
① 旅行推薦算法架構(gòu)
整個旅行行業(yè)的推薦技術架構(gòu)和電商推薦是差不多的,都是基礎的四個環(huán)節(jié),從基礎能力的建設,到算法模型的迭代,再到線上的服務,最后到對應的業(yè)務場景,只是我們結(jié)合飛豬的業(yè)務特點,做了相應的定制與升級。比如在底層基礎能力建設時,我們更多的需要去考慮基于旅行特色的用戶理解;在召回層面,我們需要去考慮時空屬性,還有用戶旅行階段和行程狀態(tài)等;在排序時需要去考慮多端多場景應該怎樣做?考慮周期性特點時又該怎樣建模?
線上服務模塊,除了剛才講到的ABFS,BE,IGRAPH,RTP等,我們飛豬內(nèi)部還有一個RTUS,可以簡單理解成一個user center服務。
業(yè)務場景層面,我們飛豬有多端多場景的特點。例如,我們在淘寶、支付寶、飛豬APP都會有相應的場景,這是多端。還有多場景,我們營銷場下可能有成百上千個小的場景,當然也還有一些較大的一些場景,比如猜你喜歡,購后等。
② RTUS
接下來簡單講講RTUS。我們首先基于用戶全鏈路日志拿到瀏覽、點擊、搜索、加購、收藏、購買等數(shù)據(jù),接著會先基于統(tǒng)計規(guī)則做簡單的數(shù)據(jù)分析。比如對用戶的行為數(shù)據(jù)做聚合,或?qū)φ麄€行業(yè)做個簡單分析,觀察下它的發(fā)展趨勢等。
當我們拿到這樣的統(tǒng)計數(shù)據(jù)后,可以進一步對用戶的實時行程狀態(tài)、興趣,甚至旅行意圖做出相應的預測。我個人理解飛豬不一定非要做端到端的推薦,也并不是簡單的一個CTR預估模型能搞定的。我們在研究的過程中發(fā)現(xiàn),旅行特色業(yè)務的理解,是至關重要的。所以,這里我們會基于RTUS的能力,將一些中間的預估結(jié)果,例如,用戶對目的地的偏好等,融入到傳統(tǒng)CTR預估模型中,會得到更好的效果。這就是RTUS的大致工作內(nèi)容。
③ 用戶行程狀態(tài)感知召回
接下來講講我們基于用戶行程狀態(tài)感知的召回;這個工作目前還沒有公開,投遞至ICDE2022上,正在審稿中。所以這個工作只能大體上講一講。
首先,我們基于用戶的行程狀態(tài),例如是行前、行中、或行后等,對用戶的profile信息做融合;接著,我們基于融合后的用戶狀態(tài),對用戶行為序列做特征提取;再接著,我們把上述兩個模塊各自的結(jié)果concat到一起,再過幾層MLP,得到最終用戶的表達。另一方面,我們基于target item的一些屬性,同樣經(jīng)過幾層MLP,得到最終item側(cè)的表達;最后,通過一個內(nèi)積函數(shù)得到最終的召回分數(shù)。離線實驗部分,我們可以看出它相比電商里的模型而言,取得了較大幅度的提升;這也說明了,電商場景下的模型結(jié)構(gòu)可能并一定適合旅行場景,我們需要結(jié)合旅行場景的理解定制相應的特色模型;另外,線上實驗也表明,相比不加入這路基于行程狀態(tài)感知的召回,也獲得了不同程度的線上效果的提升。
④ 周期感知序列建模
最后簡單講講怎樣把周期感知用在精排模型里面。這里我們可以把用戶的行為序列按照橫向和縱向兩個方向進行組織。橫向部分可以認為是每一年的數(shù)據(jù),其中每個slice可以認為是每個月的數(shù)據(jù);多個橫向就代表著多年的數(shù)據(jù),例如第一個行代表20年數(shù)據(jù),第二行代表19年數(shù)據(jù)等;縱向部分,我們要考慮周期性的因素,例如如果需要建模用戶每逢春節(jié)會有什么樣的行為,我們可以把用戶多年的春節(jié)的數(shù)據(jù)按照縱向的方式進行組織。總之,我們希望通過橫向/縱向數(shù)據(jù)的組織,去挖掘出用戶橫向的興趣衍化和縱向上周期的行為習慣。另外,每一個Slice里的建模方式和傳統(tǒng)模型無異。這個模型我們暫時在離線AUC上拿到了一定的正向效果提升,仍在進一步優(yōu)化中。03總結(jié)&展望
未來,我們還是會更多的結(jié)合旅行場景的特色,例如用戶的旅行周期,時空屬性,行業(yè)特點等,去開展相關的算法研究。
PS:這里打個廣告,我們飛豬算法團隊專注于搜推廣相關領域的研究,也希望一些對旅行行業(yè)感興趣的同學加入我們,和我們一起去打造整個旅行業(yè)的新標桿。這里我把相關同學的聯(lián)系方式寫出來,感興趣的同學可以直接去聯(lián)系。
04問答環(huán)節(jié)
Q:從點擊通過加購或者收藏進行購買的樣本量大嗎?如果量很小的話,能帶來足夠大的收益嗎?
A:我們可以看下手淘上某個場景的數(shù)據(jù):
我們點擊后直接產(chǎn)生購買的概率大概是2.5%。引入一些合適的post-click行為是為了輔助CVR的建模,所以引入的這些行為,從點擊到相應行為發(fā)生的概率肯定不能比2.5%更低,例如,從點擊到加購,概率是8.3%。這就滿足我們剛才講的條件。同時引入的post-click行為還要與最終的購買強相關。我的理解是,在點擊和購買之間引入了一些和購買強相關的、且能直接拿到用戶反饋label的post-click行為,然后拿它可以進一步輔助我們做CVR的建模。
Q:ESM^2模型中每增加一類的post-click行為,就需要多增加三個塔嗎?
A:不需要。事實上,我們也不能夠完全枚舉出所有的post-click行為。那這里我們怎么做呢?我們把所有的post-click行為分為兩類:一類是我們通過數(shù)據(jù)分析,把一些覆蓋量較大的post-click行為先摘出來。比如點擊后的加購/收藏行為等,這類post-click行為也較滿足我們的大眾認知;另一類就是一些比較長尾的post-click行為了,我們也不需要刻意去處理它們,只需要對前面的DAction取反就能夠得到了。所以這里增加post-click行為也不會增加我們訓練的復雜度。
Q:從購買歷史中再次購買會算有點擊嗎?CTR到CTR概率需要怎么處理?
A:這就要看你這個行為是怎么發(fā)生的了。如果商品從曝光到點擊,然后點擊后再購買,購買之后再次購買。連續(xù)的兩次購買在建模時只當做了一條正樣本,label為1。如果你在第一次購買完之后,又去逛了相應的場景,又產(chǎn)生從曝光到點擊再到購買的行為,這樣我們又會額外增加了一條訓練數(shù)據(jù)。它的label即購買的label也為1。
Q:用戶生命周期里面在激發(fā)需求階段和行前階段是怎么定義或者區(qū)分的?
A:這是我們?nèi)斯ざx的規(guī)則。我們把用戶的行為數(shù)據(jù)拿到并進行分析后,人為的把階段分為了激發(fā)需求、行前、行中、行后階段。事實上,用戶在各個階段的點擊率會有存在一定的差異。
Q:使用一年甚至更長的數(shù)據(jù)來訓練,不就非常的耗時嗎?還是說有一些采樣的策略?
A:如果我們還是用DIN的思想,把行為序列拉到一年來建模肯定會非常耗時。這塊我們目前也正在做相應的研究。比如說針對超長行為訓練建模,阿里媽媽團隊提供了如何在線上serving的解決方案,具體怎樣做,論文里有相關的介紹。這一塊我個人意見還是在于它的工程鏈路會復雜一些。
Q:CTR,CVR,CTCVR樣本和label分別是怎么標注的?
A:不管是ESM^2還是HM^3模型,建模時都是基于全空間的。全空間建模需要我們的label也要基于全空間去標注的。那么,針對一條曝光樣本,如果有點擊行為,那對應的CTR label就是1,沒點就是0。CTCVR就是說曝光之后,買了就是1,沒有買就是0。這樣CTR和CTCVR的label就得到了。我們是沒有單獨對CVR做label的標注的。因為我們基于全空間建模,CVR是通過多個輔任務給間接估出來的。
Q:周期感知序列建模怎么處理雙十一、雙十二、國慶節(jié)等這些序列點?
A:我們其實可以把不同年份下相應的節(jié)日,例如,國慶節(jié)等,再結(jié)合個人的行為pattern,做一個縱向的建模。然后這一塊的工作也是正在開展之中,暫時還沒有取得特別大的突破。
Q:請問ESM^2模型具體在我們線上業(yè)務中的哪塊兒場景中應用?
A:該模型以前是在商品詳情頁腰部的推薦場景上線的。另外,這個模型的思想我覺得挺好的,我們也把相應的建模思想應用在飛豬旅行場景,也拿到了一些效果。而且,這個思想也不一定局限于CVR預估里。例如,可以結(jié)合我們飛豬的特點,將它用在我們的CTR模型里面。比如傳統(tǒng)預估CTR時,曝光后,點擊的話, label就是1,否則為0。我們也可以結(jié)合這個思想,可以把對CTR的預估分為兩個階段去看。第一個階段就是去預估用戶對商品所屬目的地是否感興趣,再預估在相應目的地下,對相應的商品是否感興趣。這樣,我們可以把這個兩階段的建模,統(tǒng)一到ESM^2的建模思想中來。
Q:已經(jīng)購買的,那么它后面的短期購買意愿可能會降低,那么這種怎么處理?那模型,樣本,特征各個角度都有什么思路嗎?
A:這一塊我們沒有做過特別的處理,一般來說都是后驗的策略。比如說可能會做一些購買的過濾,甚至購買的降權(quán)。在模型層面上沒有做過特別的預處理。
Q:用戶周期的判斷能稍微說細一點嗎?尤其是行前的定義。
A:行前這個階段,用戶可能更多的是在找一些東西,這時用戶有可能圍繞著某個目的地在做相應的攻略。比如,可能在找目的地下的某些酒店,又或者在選擇去目的地的交通工具等。如何去區(qū)分是否行前,我覺得每個人的想法都會不一樣。我們主要還是通過后驗的CTR去做劃分的。
今天的分享就到這里,謝謝大家。
分享嘉賓:
分享嘉賓:溫鴻 阿里巴巴 高級算法專家
編輯整理:孫彬 太原理工大學
出品平臺:DataFunSummit