【寫在前面】淘寶搜索引擎至今已經迭代了多輪,搜索排序也已經從最開始的統計模型升級到機器學習模型;2010年前是沒有標簽概念的就是基礎標簽這些都沒有,隨著算力的增強,2010年后開始挖掘用戶的基礎標簽,發展了三年到2013年才開始嘗試使用大規模機器學習和實時化特征那個時候提出了個性化搜索;到了2015年推薦算法的方案才真正融合進搜索體系中,可以那么說2015年前淘寶搜索引擎都是在使用最開始的統計模型,統計模型最核心的就是關鍵詞坑產權重。
但是大家有沒有想過為什么2016-2017年的兩年卻是各種“黑搜”盛行的年份,又為什么到今天基本消失殆盡?
最根本的原因就是搜索排序從統計算法模型到機器學習模型的轉變期。
說白一點,如果這個時候不收割就沒有收割的機會了,因為統計模型即將退出歷史舞臺。
所以各路大神各顯其通各種把統計模型算法中的影響元素放大,因為是統計算法不管是哪個點,點擊率也好、坑產也罷,只要一個項做的很好搜索很容易起來。
那兩年成了中小賣家狂歡盛宴,很多大神的煙火也很旺盛。
時至今日推薦算法第三代使用以后加上疫情的影響做個鮮明的對比,真的是感慨萬千。
是淘寶真的沒有流量了嗎?是電商生意真的不好做了嗎?還是大家的思維沒有轉變,還停留在2016-2017年的黑搜盛宴中不愿醒來?
2017年、2018年、2019年是淘寶推薦算法迭代最快的三年,每一年算法都升級都是不一樣的,總體來說2019年9月份以前統計算法模型影響因素還很大的,2019年下半年開始第三代推薦算法以后,全面真意義的進入以機器學習模型為核心的推薦算法時代。
各路大神也不靈驗了,加上百年疫情的影響,很多“大神”的遮羞布也就漏出來了。
基本以統計模型為主,搞培訓的基本沒有了聲音、典型的就是坑產玩法。
如果你現在還能看到,基本可以判定他不是在做培訓而是在做刷單,一定會推薦你用資源,而且資源多么的安全。
刷坑產遞增真的沒有效果了嗎?也不是我前面文章就給大家提過方向:“不是不行了,只是不能從坑產的角度再思考,而是從改變競爭環境的角度去思考,用補單改變競爭環境,改變場、會有新天地,任何的手段都要服務于商業本質”。
正文
概述統計算法模型時代。
統計模型時代搜索引擎的排序是最原始的倒排思維,只要你類目不放錯、關鍵詞比較精準就可以拿到很大的流量,那時候產品少需求大,只要通過上下架的優化就可以讓產品上首頁。
話有說過來了2016年以前就沒有坑產玩法嗎?黑搜效果就不好嗎?其實斐然哪個時候“坑產”是最核心機密,大家都悶聲發大財誰來教你啊,哪個時候教你的最多就是類目優化,關鍵詞優化,幾乎所有的優化都圍繞著關鍵詞,電商老人回憶一下你哪個時候是不是就是得關鍵詞者得天下。
有誰告訴你玩坑產,關鍵詞找好了生意也就來了。哪個時候就是懂坑產也沒人給你刷啊,大規模補單也就出現在黑搜盛行的時期。
為什么說得關鍵詞者得天下呢?
搜索關鍵詞是用戶當前意圖最直觀表達,也是用戶表達意圖的最直接的方式。
來搜索的用戶購物意圖最強、成交意愿也最強就是現在搜索也是轉化率最高的流量來源。
統計時代關鍵詞背后直接掛靠的就是類目商品,只需把類目和關鍵詞分詞做好就行了,哪個時代出現最多的黑馬一般都是類目機會,關鍵詞機會,黑科技機會。
最根本的還是商業本質,哪個時候產品少需求大,很多現在的類目都沒有,自己都創找一個類目出來,現在想想是什么概念。
記得哪個時候類目哪怕錯放,搜索都可以來,只要你商品的點擊反饋好就是放錯類目都不怎么影響,現在你試試?
對于搜索類目是搜索的基石。
哪個時候就可以顛覆,背后就是商業邏輯,用戶行為數據好就行。
但是無論怎么發展搜索永遠離不開關鍵詞,就如上述說的關鍵詞是用戶表達意圖的最直接的方式,就是現在消費者的搜索行為或者購買行為發生根本性改變。
搜索依然是根據消費者身上的行為數據及關鍵詞來判斷需求,這就是機器學習模型時代。
機器學習模型時代--推薦搜索算法。
現在的商品體量以及消費者購物行為的豐富性,統計算法已經不能滿足搜索的本質要求。
所以現在搜索引擎開始發展深度學習模型更精細的建模--推薦搜索算法,搜索排序更加智能化。
在此重點論述推薦搜索算法,
前面有提到2017、2018、2019、是推薦搜索算法真正意義發展的三年,三年三個系統版本一年一換,以至于很多電商人摸不清頭腦了。
推薦搜索算法和統計算法模型最大的不同,在于“Query”的處理能力和算法上有了召回機制
簡單表示推薦算法的流程步驟:
一:會對搜索關鍵詞進行分詞、改寫的處理進行類目預判
二:會根據用戶信息也就是用戶之前的行為數據記錄及預估的性別、年齡、購買力、店鋪偏好、品牌偏好、實時行為等信息進行存檔
三:會根據搜索用戶信息建立好倒排的搜索引擎依據搜索詞,類目預測信息進行召回,粗排,精排最終將把權重分數最高的TOP N的商品搜索排序呈現此搜索用戶
依據分詞、類目召回,根據用戶行為數據信息進行個性化精準排序是推薦搜索算法的最大特點。
也就是說在第一關召回階段基本和統計模型時代的優化渠道是一樣的,核心是標題分詞和類目,現在最大的不同就是會依據用戶信息進行推薦精排,這就是標簽和精準人群標簽畫像優化的最根本意義。
現在為什么一直談標簽,談人群標簽畫像了嗎?“入池”其實就是在匹配真實購買消費者用戶信息,通過直通車測試判斷確定人群也是通過性別、年齡、購買力,搜索偏好來優化匹配真實購買消費者。
召回機制:
通過構建子單元索引的方式來加速對商品的檢索,這樣就不用遍歷平臺上億級所有商品,這個索引就是搜索引擎中的倒排索引,利用倒排索引對商品進行初篩的過程就是召回階段。
在這個階段,不會進行復雜的計算,主要根據當前的搜索條件進行商品候選集的快速圈定。
在此之后,再進行粗排和精排,計算的復雜程度越來越高,計算的商品集合逐漸減少,最后完成整體的排序過程。
主要召回路徑分為:
一:詞召回
二:向量召回
這些都是商業機密了不便闡述,有興趣可以學習一下我們線上會員課程“標簽疊加玩法6.0”就是基于詞和向量召回的底層邏輯應用于實戰落地的課程。
下一個階段就進入了粗排,粗排又是受哪些因素影響:
粗排作為召回之后的第一道門檻,為了用戶體驗希望用一個耗時低的模型對商品進行快速排序和篩選,第一關就要過濾到大部分不適合這次搜索詞請求的商品。
要想實現這個目的就必須先搞清楚影響粗排得分因子
一:類目匹配得分及文本匹配得分,
二:商品信息質量(商品發布時間、商品的級別、商家級別)
三:商品組合分數
點擊得分
交易得分
賣家服務商業分數
在粗排框架下,系統粗排算法會根據商品的類目預測分數對每個商品進行類目分檔,位于不同檔位的商品會得到不同的類目分數,與搜索關鍵詞的相關性越高,那么該類目下的商品得分就會越高,同樣文本匹配分數及商品信息質量,商品組合分數做了相應的分檔處理進行優化,這就是粗排過程中的影響因素及優化流程。
最后就是精排,搜索排序的主要目標是高相關性、高個性化精準性。
每個用戶的喜好不同,系統會根據每個用戶的Query結合用戶信息進行召回。然后通過粗排之后,商品數量從萬級別下降到千級別。
千級別的商品經過精排后會直接展示給用戶,搜索過程中商品集合的思維及具體變化如下圖
前面的召回、粗排主要是解決主題相關性,通過主題相關性的限制,先縮小商品集合和我們線上會員課程標簽疊加玩法中的核心思維“聚焦”異曲同工。
在精排階段系才是真正系統推薦算法發揮真正威力的時候,應該基于用戶行為反饋快速進行機器學習建模,判斷用戶的真實性,精準性和可持續可控制性。
這里插一句為什么現在所謂的玩法或者黑科技都是曇花一現,核心就是系統算法模型---機器學習模型,系統分析出用戶有問題,不精準,不穩定,可維持性差就會進行快速調整。
也就是說你即使發現漏洞或者研究出快速有效的方法,系統也會根據你精排階段的用戶人群行為進行快速的分析學習建模,發現模型有問題你的玩法也就完蛋了。
你猜猜機器學習建模的速度有多快?
想玩黑的趁早死了這條心吧。
現在利用的搜索排序模型主要是:
CTR模型和CVR模型,具體模型太復雜也沒必要深入,但是你要知道影響這兩個模型最根本因素就是用戶行為數據。
真的假不了,假的也真不了;算法模型越來越智能化,算法越來越強大只有回歸到商業的本質才能真正解決算法模型背后真正想解決的問題,算法基于商業邏輯。
2021年搜索會向哪個方向變化:
2020年對電商人及阿里都是不平凡的一年。2020也是阿里從神壇被拉下來的元年,現在對阿里是各種黑。
基于中小賣家的流失確實是阿里必須正面面對的現實。
如何讓中小賣家回流或者留在平臺上,搜索應該怎么做?
搜索肯定會基于三方考慮,買家,賣家和平臺自身,現在市面上又開始鼓吹坑產搜索邏輯,坑產的妖風又要起,基于推薦搜索算法邏輯來談一下這個問題。
為什么坑產思維,是打不死的小強,每次“危機”都會跳出來。
以統計模型為主的坑產時代是從淘寶建立2003到2015年一直在用的搜索算法模型長達13年之久。
同時是淘寶和中國網民紅利的野蠻增長時期,統計算法模型讓太多的電商人賺到錢了。
加之十年奴役思維已經習慣了、在電商圈你說坑產玩法一定有人信,講其他未必被人認同。這也是為什么我們夾著尾巴發展的原因,時間真的可以證明一切、無需多言,做好自己。
習慣性思維加上特殊時期的賺錢蝴蝶效應,讓大多數電商人還活在歷史的舊夢里。
確切的說,統計算法模型真正的廢除是在2019下半年。
有同學會說坑產永遠有效,我也這樣認為。
永遠有效的是爆款模型坑產權重驅動和統計算法模型中的“坑產”排序不是一回事。
爆款模型中的坑產因素是永遠有效的,這個永遠不變。
但是怎么有效的加上這個爆款模型坑產權重,不是你去模仿下購物意圖去打個標、然后成交那么簡單的事情。
坑產玩法在2021年肯定不行,淘寶肯定不會把現在的算法系統,換成15年前的。
基于三方利益:
買家的體驗
賣家的收益
平臺的發展
搜索肯定還是會向高精準性和高可控性發展;以標簽為核心的用戶標簽畫像依然是影響流量精準度的根本因素這一點不會變。
必須要從標簽的角度去思考和優化種子人群畫像,
通過種子人群畫像向相似人群擴展再到葉子類目人群,再到行業偏好人群最后到關聯類目人群進行擴展,這也是流量放大的流程通道。
基于推薦搜索算法邏輯:
在精排階段應該算法更強大精準度更高,轉化率應該會有所提高,持續性穩定性應該更強。
基于中小賣家流逝的現狀,做精排階段的優化不是中小賣家能簡單觸達到的。
如果推薦算法要放水從搜索排序階段中會出現在哪個階段?
個人判斷
一是召回階段
二是粗排階段
上述有提到召回階段的算法簡單覆蓋商品是萬級,排序規則也比較簡單,如果針對中小賣家在召回階段提高精準度就尤為重要。
如果在這個萬級的商品庫中比如上下架權重提高讓中小賣家都有機會上首頁,從子單元索引召回中找機會。
或者基于中小賣家新品及中小賣家的店鋪層級進行針對搜索推薦特別優先權讓中小賣家的新品在低銷量狀態下進行展現,一個錦囊算法就可以實現。
讓中小賣家都有上搜索首頁的機會,先不調用用戶信息就直接給打開首頁展現權這可能是對中小賣家最大的支持。
根據召回階段的用戶行為數據在粗排階段在占比例融入“用戶信息”也就是標簽影響。
在初始召回階段,就看類目和分詞權重就看商家的主圖“場景”反應的背后人群反饋,再以系統加以引導,給中小賣家真正可借鑒的流量方向和成交方向。
誰瘋狂刷單就直接關小黑屋,懂刷單優化競爭場景,從優化人群的角度除外,適當放寬處罰。
通過召回階段,得到的用戶信息去影響粗排結果。
這個階段用戶信息權重占比也不能太大,不能讓流量卡的太死。
說白了就看在每個搜索排序階段“用戶信息”也就是用戶標簽對搜索的影響權重多大的問題。
這個方向我個人觀點是極有可能的。
上述是我對搜索變化的一些判斷,并不做參考。
如果你是搜索部門負責人,你會怎么思考這個問題?