作者:張哲
來源:華章科技
01 推薦系統技術架構
下面來看下短視頻社區平臺的推薦系統架構是如何劃分的,由底層往上分別是日志信息層、模型策略層、數據計算層、數據結果層與用戶交互層,如圖2-5所示。
▲圖2-5 推薦系統技術架構
1. 日志信息層
該層主要分為兩部分,一部分是靜態數據,例如用戶數據與內容數據,用戶的年齡、性別、地區,稿件內容的標題、時長、作者,在很長一段時間內都是固定數據,系統每天取其增量存入日志信息層;另一部分是行為數據,例如推薦請求日志,記錄哪些內容曝光給了哪些用戶;推薦點擊日志,哪些用戶點擊了哪些內容;用戶瀏覽時長日志信息、用戶LBS地點信息等等。
2. 模型策略層
該層主要是決定采取何種模型、策略來分析與解讀日志信息層的靜態數據和行為數據,例如在召回階段是更多地進行熱門內容召回,還是根據用戶行為進行協同過濾的召回;在排序階段采用何種機器學習模型來進行精排等策略。
3. 數據計算層
該層是基于模型策略層定下召回排序策略和模型后,采取離線大規模計算與在線實時計算兩種方式,計算出模型訓練的結果。離線計算是由于機器數量與性能的限制,大量數據需要采取離線方式計算出結果,在線計算是針對線上用戶的實時反饋行為,系統快速做出回應,改善用戶體驗。
4. 數據結果層
該層作用是在不同數據應用系統中存儲數據計算層得出的相應計算結果,例如用戶畫像與內容特征可以存儲在ElasticSearch(搜索數據庫)中,因為這些數據只需要批量查詢讀取;而用戶行為數據則需要存儲在redis(內存應用)中,方便快速響應前端界面的用戶反饋。
5. 用戶交互層
該層的交互邏輯分為兩部分,第一部分是展現由各層最終計算出的推薦結果給用戶,第二部分是記錄用戶對于推薦結果的反饋行為,例如瀏覽行為(時長/路徑)、點擊行為(點擊哪些內容/完播率等)、負反饋行為(不感興趣/投訴等不同程度的負反饋)。
02 推薦系統四大模塊
基于以上描述,我們了解了推薦系統技術架構的整體框架,但還是給人感覺太復雜、太技術范兒了。歸根結底來說,推薦系統要做的不就是從海量內容庫里選出幾十個用戶可能感興趣的優質視頻嗎?我們將推薦系統抽象成一個信息過濾系統,分為審核、召回、排序、規則四個模塊,層層遞進地過濾內容,如圖2-6所示。
▲圖2-6 推薦系統技術架構簡化
- 審核模塊將符合短視頻社區規則與價值觀的視頻過濾出來,輸出量級大致在百萬左右;
- 召回模塊將根據用戶行為與熱門等規則,快速找到一小部分優質內容,輸出量級大致在十萬左右;
- 排序模塊分為粗排與精排,采用比較復雜的模型,融入較多特征,輸出量級在百個視頻數量左右;
- 規則模塊,也叫ReRanker(重排序)模塊,會在排序模塊結果的基礎上附加人工干預、規則限制等,最終將結果呈現給用戶,輸出結果在幾十個左右。
本文摘編自《短視頻社區:產品、運營與商業化》(ISBN:978-7-111-70525-3),經出版方授權發布。