現狀
閑魚是一個基于C2C場景的閑置交易平臺,每個用戶既是買家也是賣家,并隨著這些年的高速發展,一方面閑魚的商品越來越豐富,在自由享受交易樂趣的同時也存在商品良莠不齊的問題,另一方面這些年閑魚一直在深耕商品理解,沉淀了豐富的商品屬性資產,因此我們希望針對這些基礎屬性資產進行分析處理,進行商品分層,挖掘出閑魚的優質商品,形成閑魚特有精品庫。
問題
閑魚雖然倡導輕發布,一張圖片加一段描述一分鐘就即可完成發布,但是通過引導用戶售賣補全屬性,圖文算法分析等手段沉淀了不少商品屬性和用戶屬性,其中商品屬性包括基礎屬性和二手屬性等,用戶屬性包括信用屬性和服務等,因此我們核心要解的問題是:如何利用些結構化信息發現并定義優質商品,進而沉淀優質商品,構建閑魚精品庫。
整體架構
通過前文的介紹 我們知道了需要解的問題,從系統角度看,我們解決思路是以結構化信息為基礎(包含商品和人屬性),抽象出不同維度的指標模型,最終為商品打標,實現閑魚精品庫。進一步拆解下去,系統核心要解決兩個問題
-
如何定義優質商品
-
如何沉淀精品標簽
結合算法能力,工程能力,下游導購鏈路,我們梳理了閑魚的精品庫系統架構

商品理解(優質商品定義)
解決優質商品定義的問題,傳統直接做法是直接使用深度學習網絡DNN,SVM,GBDT等網絡, 這種做法的好處能快速的達到效果,但帶來問題是黑盒模型,運營無法獲得輸入,且后續指標準確率較難提升,而我們要跟運營持續協作,并在后續需要更深入的應用。因此我們采用另外一種解法:基于閑魚知識庫可解釋的商品理解
通過對閑魚動銷高的商品結構信息分析歸類,我們抽象出一些維度去定義優質商品,如商品信息完善度,價格指標,供需指標、賣家指標等,算法通過上述四個商品維度去分析商品信息,通過智能因子分析函數發現每個商品維度相關的關鍵因子,并通過仿真系統對這些關鍵因子組成的指數進行動銷率回歸預測分析,驗證指數的有效性,通過循環迭代后形成信息完善度指數模型,價格指數模型,賣家指數模型,供需數據模型能及指數加權后優質商品分模型。

特征計算&存儲(精品標簽沉淀)
有了優質商品定義模型,我們需要對閑魚所有商品打標(包括安全負向標簽),跟其它電商場景不一樣的,閑魚商品有個顯著的特征:大部分是孤品,因此這里帶來一個顯著的差異:特征計算鏈路考慮實時計算和離線鏈路

實時計算
如上圖所以,每當商品信息有變更,如用戶編輯商品,新發商品等,都將會觸發一次實時計算鏈路,數據計算是基于TPP平臺實現的,TPP是集團內部算法開發和托管的平臺,除模型計算外,還需要重點考慮安全問題,商品安全檢測、用戶安全檢測等。在標簽進下游HA3引擎及基礎數據標簽存儲前,我們架設一個異構數據統一接入層,主要是負責后續各種不同來源的數據源,同擴適配器將各種數據統一化為Metaq消息,通過元數據中心完成統一的注冊和管理,保證數據shcema的全局統一,便于后續特征模型的快速接入。
離線計算
二手商品隨著時間推移,有價值衰減的情況,因此離線計算每天會將閑魚的全量在線商品重新計算一遍,分為數據整合、數據計算,數據導入三塊,過程涉及到計算量比較大,主要是基于ODPS大數據計算平臺來完成。ODPS(MaxCompute) 是阿里巴巴自主研發的海量數據處理平臺。主要服務于批量結構化數據的存儲和計算,可以提供海量數據倉庫的解決方案以及針對大數據的分析建模服務。
全量增量相互覆蓋問題
實時+離線帶來一個難題:全量與增量的相互覆蓋問題。例如T+1全量的導入時間從早上0點開始,2點結束,這期間不停有最新的增量數據寫入,很可能出現1點增量數據在2點被離線數據覆蓋,從而出現臟數據。針對這個問題,我們的解決思路是先把T+1全量數據寫到備庫并記下全量數據的截止時間,等全量回流完成后,再從截止時間開始回放期間的增量變更數據,直到追上最新的變更記錄,然后再切換版本。幾個步驟如下圖所示:

這里我們的選擇是iGraph,iGraph是集團內部一個大規模分布式在線圖存儲和檢索服務,提供全量ODPS+增量消息的回流服務,原理跟上述類似。
服務能力
服務能力主要是根據下游應用場景抽象出來,重點分為這幾塊:數據在線查詢能力:數據要實時的,要具備多維度查詢能力,數據要足夠的聚合,避免下游子業務頻繁且無效的聚合加工操作,這里我們通過HSF接口服務來提供。消息訂閱能力:優質商品實時變更消息服務,供下游業務訂閱,做到上下游的數據聯動。離線數據服務能力:提供天級、小時級、分鐘級的ODPS離線數據,供下游數據加工處理。

業務層
通過閑魚選品平臺(馬赫),運營同學配置圈選邏輯提供各種的投放玩法,給用戶呈現不同的優質商品觸達方式,如下圖所示:

另外通過搜索推薦給用戶提供精品庫的個性化推薦服務,快速支撐商品側的業務形態,如為價格指導提供閑魚的二手價格錨點。
業務效果
通過商品分層沉淀出來的閑魚的精品庫,目前已支持上百種選品策略,用戶的點擊和購買提標都有較明顯的提升效果,如在新用戶首頁購,如在新用戶首購接入精品庫,支持轉化率提升近1倍,手機頻道頁的點擊率提升20%以上,搜索優質價格標簽透出,提升交買賣家轉化率相對基準桶提升1%等。
展望
本文介紹一種基于對商品結構化信息的理解構建了一套閑魚精品庫建設方案,限于篇幅的原因,本文主要介紹系統的整體架構及幾個關鍵點的解決思路,希望能給讀者帶來的一些思考和啟發。后續我們會通過商品聚簇的方式來加深對商品的理解,如對價格的判斷,另一方面我們會對接下游回收流程,使好商品能快速流通起來,提升閑魚的平臺價值。