日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

作者:Pavel Kordík

編譯:ronghuaiyang

導(dǎo)讀

一般來說,搜索是非個(gè)性化的,不過如果和推薦系統(tǒng)組合起來,也會(huì)有意想不到的效果。

尋找正確的信息總是很困難的。在不久之前,文檔還是存放在實(shí)際的物理倉庫中,要找到相關(guān)的文檔是非常困難的。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

當(dāng)文檔可以通過在線存儲(chǔ)庫訪問時(shí),索引文檔的數(shù)量開始超出物理存儲(chǔ)的限制。電子商務(wù)網(wǎng)站提供的產(chǎn)品數(shù)量或通過在線流媒體服務(wù)提供的內(nèi)容數(shù)量亦是如此。

用戶傾向于在一個(gè)地方找到所有東西,他們中的大多數(shù)人喜歡從更相關(guān)的選擇中進(jìn)行挑選,所以服務(wù)提供商需要適應(yīng)這種需求。一些全球性的服務(wù)(如谷歌、亞馬遜、Netflix、Spotify),在飛快的增長,用戶幾乎在上面可以找到任何東西。推動(dòng)它們在全球占據(jù)主導(dǎo)地位的最強(qiáng)大工具之一,是它們以機(jī)器學(xué)習(xí)技術(shù)為動(dòng)力的高度先進(jìn)的個(gè)性化技術(shù)。這些技術(shù)就是推薦系統(tǒng)個(gè)性化搜索。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

推薦系統(tǒng)使用用戶與物品的交互的歷史來為用戶生成最相關(guān)物品的排序列表。搜索引擎根據(jù)與給定查詢的相似度對內(nèi)容進(jìn)行排序,而不考慮用戶的歷史記錄。

推薦系統(tǒng)使用戶能夠在線發(fā)現(xiàn)相關(guān)文檔、產(chǎn)品或內(nèi)容。通常,用戶可能最喜歡的物品隱藏在數(shù)百萬個(gè)其他物品中。用戶無法通過搜索引擎直接找到這些商品,因?yàn)樗麄兒苌僦浪鼈兊臉?biāo)簽,甚至可能不知道它們的存在。

另一方面,有時(shí)用戶需要尋找一個(gè)特定的物品,并愿意通過表達(dá)他們的需求來幫助在線系統(tǒng),以減少可能被推薦的物品的數(shù)量。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

有幾種方法可以幫助用戶表達(dá)他們的需求。用戶體驗(yàn)在這里扮演著非常重要的角色。很多用戶通過他們的手機(jī)訪問在線服務(wù),但顯示興趣的能力有限。在線服務(wù)應(yīng)該專注于利用所有可用信息過濾可能的搜索結(jié)果。

用戶地理位置可以顯著縮小可能的搜索和推薦結(jié)果。例如,在Recombee中,您可以選擇推薦只包含距離用戶位置一定范圍內(nèi)的物品。另一種方法是,當(dāng)某個(gè)物品在地理位置上更接近某個(gè)用戶時(shí),你可以提高該物品被推薦的可能性。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

用戶希望使用特定的標(biāo)簽或類別過濾掉可能的搜索結(jié)果。它通常只需要一次點(diǎn)擊就可以過濾除特定類別之外的所有物品(例如,除了科幻小說之外的所有文章)。應(yīng)該讓用戶盡可能輕松地表達(dá)他們的興趣。

一定比例的用戶希望可以使用一個(gè)查詢文本(即使只是幾個(gè)字符)的方式來縮小搜索范圍。他們的目的可能是找到一個(gè)特定類別的商品,或者通過他們知道的正在尋找的商品的標(biāo)簽直接來搜索一個(gè)特定的商品。他們輸入的文本被稱為a user query,這篇博客文章討論了如何利用一個(gè)query來幫助用戶找到她/他要找的東西。這篇博客文章從理論部分開始,然后是實(shí)踐部分。

信息檢索

為給定文本query尋找合適物品的問題作為信息檢索(information retrieval, IR)已經(jīng)研究了幾十年。當(dāng)用戶向系統(tǒng)輸入一個(gè)query時(shí),信息檢索過程就開始了。query是信息需求的正式形式,例如web搜索引擎中的搜索字符串。在信息檢索中,query不能唯一地標(biāo)識(shí)集合中的單個(gè)物品(文檔)。相反,有幾個(gè)物品能與query匹配,可能具有不同程度的相關(guān)性。

傳統(tǒng)的方法試圖將query與文檔匹配,并根據(jù)相似度獲得相關(guān)性。機(jī)器學(xué)習(xí)方法通過從訓(xùn)練數(shù)據(jù)構(gòu)建一個(gè)排序模型來解決IR問題。這樣的訓(xùn)練數(shù)據(jù)(對于搜索引擎來說)是什么樣的呢?通常,它是對每個(gè)query進(jìn)行“適當(dāng)”排序的文檔的集合。

以下是在相關(guān)博客中描述的IR系統(tǒng)方案:

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

經(jīng)典的IR系統(tǒng)不是個(gè)性化的,它只是為一個(gè)query返回大部分相關(guān)的文檔。機(jī)器學(xué)習(xí)通常是不需要的,因?yàn)橄到y(tǒng)遵循預(yù)定義的過程(如TF-IDF相似性查找)。

該系統(tǒng)通過匹配query和文檔并計(jì)算它們的相似度來工作。大多數(shù)相似的文檔都是按照與query的相似度排序返回的。相似度是計(jì)算出來的,比如TF-IDF向量的余弦相似度。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

通過重新排序(使用機(jī)器學(xué)習(xí)模型)可以改進(jìn)搜索結(jié)果。在本例中,還使用搜索引擎來減少機(jī)器學(xué)習(xí)模型的候選項(xiàng)的數(shù)量,從而使評分更快。

Learning to rank(LTR)是機(jī)器學(xué)習(xí)的一種應(yīng)用,它根據(jù)人的期望對物品進(jìn)行排序。LTR模型通常使用人類標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。

在召回階段,LTR模型獲取由搜索引擎生成的一個(gè)query和返回的文檔(項(xiàng))的子集,作為每個(gè)物品的輸入和輸出相關(guān)性。最后,它可以輸出一個(gè)經(jīng)過排序的文檔列表(k-最相關(guān)的文檔)。請注意,現(xiàn)代系統(tǒng)還可以將用戶屬性文件作為輸入,并執(zhí)行個(gè)性化學(xué)習(xí)來對機(jī)器學(xué)習(xí)任務(wù)進(jìn)行排序。

經(jīng)典預(yù)測模型, learning to rank模型和推薦系統(tǒng)之間的區(qū)別是什么?

  • 預(yù)測模型/分類器通常只有幾個(gè)輸出屬性,它們的設(shè)計(jì)目的不是為及百萬用戶進(jìn)行幾百萬物品的排序。
  • Learning to Rank系統(tǒng),對于給定的query,返回的結(jié)果是相同的列表,不涉及個(gè)性化。
  • 推薦系統(tǒng)不使用query,它們根據(jù)用戶歷史和用戶之間的相似性生成相關(guān)物品。相關(guān)物品的計(jì)算方法是在評分矩陣中預(yù)測它們的評分,或者根據(jù)它們的屬性推薦類似的物品。

下一節(jié)對LTR和推薦系統(tǒng)都很有用,因?yàn)槟P偷脑u估與機(jī)器學(xué)習(xí)中的經(jīng)典預(yù)測模型是相似的。

評估LTR和推薦系統(tǒng)

累積收益度量通過learning to rank系統(tǒng)或推薦系統(tǒng)返回的前k項(xiàng)的相關(guān)性。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

例如,我們可以把6個(gè)返回物品的相關(guān)性加起來(注意,第4項(xiàng)是不相關(guān)的)。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 


個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

顯示給用戶的物品很少有統(tǒng)一的可見性方式。例如,在電子商務(wù)中,由于大多數(shù)用戶不想向下滾動(dòng)列表,所推薦的商品的可見性急劇下降。在媒體領(lǐng)域,一個(gè)內(nèi)容經(jīng)常被高亮顯示,而其他內(nèi)容則很難被發(fā)現(xiàn)。

CG的問題是它沒有考慮到物品的位置。例如,第一個(gè)推薦可能有比其他五個(gè)大得多的圖像顯示。此外,用戶傾向于瀏覽列表頂部的幾個(gè)物品,而他們看到列表更下方的物品的可能性要小得多。基于這個(gè)原因,discounted cumulative gain(DCG)比簡單的CG更受歡迎。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

在DCG中,相關(guān)性值與結(jié)果的位置成對數(shù)比例遞減。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

DCG可以很容易地計(jì)算,如上例所示。

有些變體甚至更加強(qiáng)調(diào)檢索列表頂部的相關(guān)物品。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

假設(shè)一個(gè)數(shù)據(jù)集包含N個(gè)query。通常的做法是對每個(gè)query的DCG分?jǐn)?shù)進(jìn)行歸一化,并得到所有query的平均DCG(“NDCG”)分?jǐn)?shù)。有這樣一個(gè)評價(jià)指標(biāo)是很好的,但請記住現(xiàn)實(shí)世界是殘酷的。

傳統(tǒng)的LTR算法

  • Pointwise方法將排序轉(zhuǎn)化為單個(gè)物品的回歸或分類。然后,該模型一次只獲取一個(gè)物品,它要么預(yù)測其相關(guān)性得分,要么將該物品歸類到一個(gè)相關(guān)性類中。
  • Pairwise方法將問題處理為物品對的分類,即確定在第一個(gè)位置上的物品是不是具有更高的相關(guān)性,反之亦然。
  • Listwise方法把整個(gè)物品列表作為一個(gè)學(xué)習(xí)樣本。例如,使用屬于一個(gè)特定query的所有物品的得分,而不是僅通過比較成對或單個(gè)樣本。

以下是一些LTR算法的例子:

PRank算法,使用感知器(線性函數(shù))從文檔的特征向量中估計(jì)文檔的得分。query被附加到文檔嵌入的特征向量中。我們還可以將文檔分類為相關(guān)類(例如相關(guān)/不相關(guān))。這個(gè)函數(shù)幾乎可以用任何機(jī)器學(xué)習(xí)方法來建模。大多數(shù)算法使用決策樹和森林。現(xiàn)代方法利用深度學(xué)習(xí)網(wǎng)絡(luò)。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

最終的排名列表是通過對所有文檔進(jìn)行評分并根據(jù)預(yù)測的相關(guān)性進(jìn)行排序得到的。顯然,當(dāng)對模型進(jìn)行輸入嵌入和相應(yīng)輸出相關(guān)性的訓(xùn)練時(shí),我們并沒有直接最小化NDCG或其他上述評價(jià)標(biāo)準(zhǔn)。與Pointwise方法相一致,Pairwise方法也使用代理可微損失函數(shù)。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

為了更好地理解pairwise方法,我們應(yīng)該記住在二元分類中使用的交叉熵?fù)p失,它懲罰了模型的高置信度的錯(cuò)誤的預(yù)測。

對數(shù)損失可以通過對0,1標(biāo)簽的損失求和來計(jì)算:−(y log(p) +(1−y) log(1−p))

正如你所看到的,錯(cuò)誤的高置信度的答案得到很高的損失。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

更多關(guān)于LTR系統(tǒng)的梯度訓(xùn)練算法可以在這里找到:
https://medium.com/recombee-blog/ 
//www.microsoft.com/en-us/research/wp-content/uploads/2005/08/icml_ranking.pdf。

Rankboost直接優(yōu)化分類錯(cuò)誤。它源自Adaboost,在文檔對上進(jìn)行訓(xùn)練。它訓(xùn)練弱分類器,將更多的權(quán)重賦給在前面步驟中沒有正確分類的對。

RankSVM是第一批采用pairwise方法解決問題的算法之一。它以序數(shù)回歸的方式進(jìn)行排序,并對類的閾值進(jìn)行訓(xùn)練。RankSVM采用hinge損耗函數(shù)最小化。它還允許直接使用kernel進(jìn)行非線性處理。

listwise方法的動(dòng)機(jī)

pairwise的方法很好,但也有缺點(diǎn)。訓(xùn)練過程是昂貴的,并且存在固有的訓(xùn)練偏差,在不同的query中差異很大。也只有pairwise的關(guān)系被考慮在內(nèi)。我們想使用一個(gè)評價(jià)指標(biāo),能讓我們優(yōu)化完整的list,同時(shí)考慮到所有物品的相關(guān)性。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

指數(shù)排序的優(yōu)勢在于,即使當(dāng)模型f給所有文檔分配相似的分?jǐn)?shù)時(shí),它們的最高概率也會(huì)非常不同 —— 最好的文檔接近1,相關(guān)性較低的文檔接近0。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

這里,損失是針對一個(gè)文檔列表計(jì)算的。我們不太關(guān)心不相關(guān)的文檔Py(x)=0,最大的損失是由相關(guān)文檔造成的。

如何得到LTR系統(tǒng)的訓(xùn)練數(shù)據(jù)?

獲取LTR系統(tǒng)的訓(xùn)練數(shù)據(jù)可能是一個(gè)漫長而昂貴的過程。你通常需要一群人,人工來輸入查詢并判斷搜索結(jié)果。關(guān)聯(lián)判斷也比較困難。評估人評估下列分?jǐn)?shù)之一:

相關(guān)度 —— 二值:相關(guān)與不相關(guān)(適合pointwise)

pairwise偏好 —— 文件A比文件B更相關(guān)。

總的順序 —— 文件按A、B、C、…,排序,根據(jù)它們的相關(guān)性。(對listwise來說很完美,但很耗時(shí))

很明顯,人工標(biāo)注非常貴,而且它們的標(biāo)簽也不是很可靠。因此,應(yīng)該從用戶在網(wǎng)站上的行為來獲得排名和訓(xùn)練系統(tǒng)。

更好的方法是用推薦系統(tǒng)代替上述的LTR算法。


個(gè)性化搜索回顧

當(dāng)根據(jù)用戶的偏好對搜索結(jié)果進(jìn)行排序時(shí),用戶對搜索功能的總體滿意度會(huì)顯著提高。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

個(gè)性化搜索還應(yīng)該考慮用戶偏好、歷史交互和相似用戶的交互。為什么不利用推薦系統(tǒng)呢?對于相同的搜索查詢,兩個(gè)用戶可以期望非常不同的推薦。

解決方案是將搜索引擎與強(qiáng)大的推薦系統(tǒng)相結(jié)合,而不是像上面描述的那樣將經(jīng)典學(xué)習(xí)應(yīng)用到機(jī)器學(xué)習(xí)(LTR)模型中。這種方法有幾個(gè)優(yōu)點(diǎn),我們將在后續(xù)的博客文章中分析它們。

個(gè)性化搜索的介紹,推薦和搜索的強(qiáng)強(qiáng)結(jié)合

 

我們的個(gè)性化搜索方法結(jié)合了搜索引擎和推薦系統(tǒng)。首先,搜索引擎對推薦物品(與查詢無關(guān))進(jìn)行重新排序,以過濾掉不相關(guān)的推薦,并推送與query匹配的物品及其描述。其次,搜索引擎返回最佳匹配的候選項(xiàng),而不管用戶屬性文件或交互歷史記錄。然后,這些商品由推薦系統(tǒng)重新排序,以更好地適應(yīng)每個(gè)特定用戶的口味。最終結(jié)果由上游的排名投票產(chǎn)生。

英文原文:
https://medium.com/recombee-blog/introduction-to-personalized-search-2b70eb5fa5ae

分享到:
標(biāo)簽:個(gè)性化
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定