日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

  由InfoQ中國團(tuán)隊推出,面向高端技術(shù)管理者和架構(gòu)師的全球架構(gòu)師峰會(ArchSummit)日前在北京國際會議中心舉行。來自騰訊、滴滴出行、一點資訊等互聯(lián)網(wǎng)企業(yè)的技術(shù)專家受邀出席并做主題演講。

一點資訊高級技術(shù)總監(jiān)田明軍發(fā)表主題演講

  在本次大會上,一點資訊高級技術(shù)總監(jiān)田明軍詳細(xì)詮釋了深度融合搜索和推薦引擎對獲取用戶閱讀興趣、實現(xiàn)信息精準(zhǔn)分發(fā)的必要性,并以一點資訊為例,從技術(shù)框架和產(chǎn)品理念角度,分享了興趣引擎將二者有機融合的心得。

  他認(rèn)為,搜索和推薦兩種獲取信息的途徑和體驗缺一不可。一點資訊的興趣引擎系統(tǒng)通過結(jié)合了用戶搜索行為所觸及的全網(wǎng)數(shù)據(jù),不斷學(xué)習(xí)用戶的興趣再進(jìn)行推薦,并由用戶主動“訂閱”深化這一興趣,建立興趣之間的連接點,從而打通用戶對信息的主動表達(dá)和被動接受兩條通道,使信息獲取更加高效、精準(zhǔn),為全方位提升用戶體驗打下了堅實的基礎(chǔ)。

  以下為田明軍演講內(nèi)容精編版:

  大家早上好,非常榮幸今天有機會與大家分享一點資訊關(guān)于融合搜索和推薦引擎的一些思考和實踐。

  單一的搜索或推薦引擎不利于全面滿足信息分發(fā)需求

  在移動互聯(lián)網(wǎng)時代,搜索和個性化推薦都是用戶獲取信息的兩種重要的方式:搜索通常伴隨著用戶的明確表達(dá),用戶輸入關(guān)鍵詞即可找到自己想要的答案;反觀推薦,則是用戶通過產(chǎn)品呈現(xiàn)的內(nèi)容進(jìn)行非目標(biāo)性的興趣瀏覽。但這兩種體驗是不能互替的,單純根據(jù)歷史瀏覽記錄進(jìn)行的個性化推薦并不能了解用戶某時刻的自身想法,而另一方面,也很難根據(jù)每天一兩次搜索行為總結(jié)出用戶的長期規(guī)律。

  所以從產(chǎn)品角度來說,搜索和推薦的體驗二者不可或缺、關(guān)系緊密。這也是我們致力于實現(xiàn)二者融合的原因。

  但需要注意的是,二者在意圖表達(dá)方式、訓(xùn)練模型等方面存在著巨大差異,基于這些差異點,我們不能簡單的用其中一種系統(tǒng)來實現(xiàn)搜索和推薦融合的目的。

  搜索和推薦的融合之路應(yīng)該怎樣走?

  對于融合的解決之道,一點資訊選擇在搜索和推薦引擎之間加入了一個基于用戶興趣的任意關(guān)鍵詞訂閱環(huán)節(jié)。通過搜索發(fā)現(xiàn)用戶所查詢的答案同時,我們也提煉、擴充出針對用戶興趣的表達(dá),并以此固定沉淀在用戶畫像里。因此,搜索讓個性化推薦層面,增加了一條高效地獲取用戶興趣的途徑。

  反過來說,通過推薦系統(tǒng)把共性的有趣、有料的內(nèi)容呈現(xiàn)給用戶,通過推薦產(chǎn)品收集到用戶更多層面的反饋,從而得到這些內(nèi)容的普適性特征。基于這些特征的挖掘,我們也能夠?qū)?nèi)容有更深刻的了解。而再將搜索體驗中加入并有效利用這些共性特征,也更加強化、提升了搜索的品質(zhì)。

  接下來,我將從興趣引擎的整體系統(tǒng)架構(gòu)中,選取了幾項關(guān)鍵技術(shù)點,闡述一點資訊將搜索和推薦內(nèi)容體驗真正融合的方法:

  異構(gòu)索引引領(lǐng)檢索效率提升 針對搜索+推薦深度優(yōu)化

  為實現(xiàn)深度融合的目的,針對搜索和推薦不同的服務(wù)特點和系統(tǒng)性能要求,首先我們提出了異構(gòu)索引結(jié)構(gòu)。

  從上圖可以清楚地看出異構(gòu)索引的數(shù)據(jù)來源和組織形式。我們可以從圖的底部可以看到,產(chǎn)生異性索引數(shù)據(jù)的平臺一分為三:數(shù)據(jù)平臺、編輯運維平臺和內(nèi)容平臺。圖片頂部則展示了不同數(shù)據(jù)的索引構(gòu)建所采用的不同技術(shù)。

  內(nèi)容平臺方面,對外網(wǎng)抓取的內(nèi)容和自媒體平臺生產(chǎn)的內(nèi)容,我們建立了通用的倒排索引。

  在左側(cè)的數(shù)據(jù)平臺,則通過對用戶行為的挖掘,產(chǎn)生基于協(xié)同過濾信息的挖掘的推薦列表,以及針對不同人群放置的熱文列表,這部分我們使用通用的KV數(shù)據(jù)庫存儲。

  中間這部分的數(shù)據(jù)來源于內(nèi)容平臺和編輯運維平臺,體現(xiàn)了技術(shù)與人工的結(jié)合。這部分?jǐn)?shù)據(jù)存在內(nèi)容的競爭機制,變化比較靈活,使用了自建的支持排序列表的索引結(jié)構(gòu)。

  大家也許會問,為什么會有這樣的區(qū)分?這主要是基于優(yōu)化檢索性能角度的思考。根據(jù)關(guān)鍵詞對倒排索引進(jìn)行查詢的方式非常成熟,完全夠能夠滿足搜索系統(tǒng)的需求,然而,傳統(tǒng)的倒排索引卻很難對推薦需求的幾十維以上的特征進(jìn)行查詢。

  在這個基礎(chǔ)上,我們做了兩個優(yōu)化:一是針對稀疏的頻道,實現(xiàn)了支持WAND(一種介于AND和OR之間的索引查詢操作符)檢索系統(tǒng)加快召回內(nèi)容的效率;而對于稠密的頭部頻道,則通過開發(fā)頻道文章索引庫,維護(hù)從頻道到排序內(nèi)容列表的映射,將線上查詢壓力轉(zhuǎn)移到線下,提升檢索的效率。

  以unified feeder為核心的內(nèi)容處理平臺解決寫入難題

  剛才看到方方面面的索引,接下來,我們必須要解決里面索引的寫入的問題。這就需要在統(tǒng)一的內(nèi)容處理平臺,把這些內(nèi)容寫到異構(gòu)的索引結(jié)構(gòu)里面。

  我們的內(nèi)容處理平臺的核心之一,則是unified feeder系統(tǒng),這是內(nèi)容處理平臺與索引系統(tǒng)之間傳遞信息的橋梁。

  在unified feeder實際工作中,首先針對不同的輸入數(shù)據(jù),我們存入了很多不同的索引庫,這個工作通過統(tǒng)一的配置與模板中心進(jìn)行管理,可以方便的維護(hù)和擴展。此外,unified feeder內(nèi)部有一個checkpoint系統(tǒng),在各個關(guān)鍵索引內(nèi)容寫入之后,會向checkpoint系統(tǒng)發(fā)送驗證信號,如果任何數(shù)據(jù)寫入失敗,checkpoint系統(tǒng)會有記錄,系統(tǒng)可以自動進(jìn)行數(shù)據(jù)的重新寫入。這種方式有效的解決了系統(tǒng)容錯和異構(gòu)索引數(shù)據(jù)一致性的問題。

  雙層架構(gòu)的自適應(yīng)索引召回突破異構(gòu)索引挑戰(zhàn)

  接下來我將講解在有了以上數(shù)據(jù)基礎(chǔ)之后,針對上面的搜索和推薦請求,我們?nèi)绾瓮ㄟ^自適應(yīng)索引召回技術(shù),從不同的索引里面獲取數(shù)據(jù)?這主要面臨三個方面的技術(shù)挑戰(zhàn)——決策需要調(diào)用的索引后端、異構(gòu)索引召回效率,以及可擴展性與開發(fā)效率。

  上圖是大家整個召回系統(tǒng)的結(jié)構(gòu)框架。通信模塊和存儲模塊集成了一些異步IO通信機制和緩存機制,提升了需要到多個索引庫里面查詢時并發(fā)的性能,提升了查詢效率。

  另外兩個技術(shù)難點的解決主要靠意圖分析和查詢生成器,根據(jù)搜索和推薦不同的請求去適配到下游不同的索引庫里面去取內(nèi)容,同時在系統(tǒng)中的解耦算法和工程方面,提升系統(tǒng)可擴展性和并發(fā)工作的效率。

  查詢生成過程引入了邏輯層和物理層的概念,物理層即索引池,物理層對外暴露的是異構(gòu)索引系統(tǒng)的一些具體查詢的API接口,通過這些接口的調(diào)用真正完成具體的索引對內(nèi)容的獲取。而邏輯層更多體現(xiàn)在算法上,通過對查詢的意圖分析,轉(zhuǎn)化為邏輯層一個或多個從索引中獲取信息的意圖,例如熱點,興趣圖譜等。邏輯層到物理層的映射可以理解類似于搜索引擎里query rewrite的過程,每一邏輯層的意圖被翻譯成若干物理層索引API的調(diào)用。

  以邏輯層的興趣圖譜為例,通過這個用戶畫像里面的具體興趣,比如,某位用戶對“互聯(lián)網(wǎng)思維”感興趣,基于興趣圖譜的獲取,它會把這個興趣點轉(zhuǎn)化成頻道推薦索引、搜索系統(tǒng)、人工運維的精選池三方面的物理獲取途徑進(jìn)行查詢,從而召回一些關(guān)聯(lián)興趣頻道的內(nèi)容,相關(guān)源的內(nèi)容以及人工需要去展現(xiàn)出的內(nèi)容。

  總之,通過這樣一種把邏輯層和物理層分開的方式,有效分離了算法邏輯設(shè)計和實際索引物理訪問之間的耦合,達(dá)到了讓二者工作更好并行的效果。

  雙模型排序框架滿足搜索+推薦需求

  最后和大家快速過一下我們?yōu)橹С稚疃热诤纤阉骱屯扑],在排序框架和算法產(chǎn)品策略支持方面的一些工作。

  在排序框架上,我們現(xiàn)階段主要支持兩種模型更新框架,一是周期性batch更新模型的框架,二是支持online learning的準(zhǔn)實時模型更新框架。能夠滿足現(xiàn)有的搜索和推薦方面在排序方面的需求。

  工作流服務(wù)框架支持算法產(chǎn)品策略靈活調(diào)整

  在算法產(chǎn)品策略方面,因需求靈活多變、對系統(tǒng)開發(fā)效率要求較高,我們引入了一個基于Akka actor model的流式的服務(wù)框架,采用全配置驅(qū)動的方式動態(tài)生成工作流,從而達(dá)到對產(chǎn)品邏輯、算法策略方面的快速支持。

  今天的分享由于時間原因很快就要結(jié)束了,在摸索如何融合搜索引擎和個性化推薦系統(tǒng)我已經(jīng)走過三四年,這其中有許多我過去的思考以及在一點資訊團(tuán)隊所做的實踐方面的工作。整個興趣引擎要做的工作還非常復(fù)雜且有挑戰(zhàn)性,也非常歡迎對興趣引擎感興趣的同學(xué)能夠與我們有一些更多的交流。

分享到:
標(biāo)簽:一點資訊田明軍:深度融合搜索+個性化推薦背景下的興趣引擎構(gòu)架詳解 人物動態(tài)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達(dá)人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定