日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

作者:木羊同學

來源:華章計算機(ID:hzbook_jsj)

推薦算法為啥這么“靈”,又為啥會“失靈”?

 

推薦系統是為用戶推薦所需物品的軟件工具和技術。提供的推薦旨在通過各種決策過程來支持用戶,例如,買什么物品、聽什么歌曲或讀什么新聞。推薦系統的價值在于幫助用戶解決信息過載和做出更好的選擇,也是現在互聯網領域最強大和最流行的信息發現工具之一。

今天就和大家聊聊:推薦算法為啥這么“靈”,又為啥會“失靈”?

01 推薦算法為啥這么“靈”?

要回答這個問題,首先得講清楚推薦算法的原理是什么。

我們知道,互聯網最大的特點就是有海量的信息。不過,光是數量龐大是沒有任何意義的,需要信息真正發揮作用才能產生價值。所以,如何讓信息發揮價值,始終是互聯網發展的一條主軸。為此,我們想了很多辦法。

“算法推薦系統”出現前,我們的做法是發現信息,這就是搜索引擎。搜索引擎很有用,但限制也很明顯,遺留了很多問題。回想一下:我們要用搜索引擎找信息,不是直接就得到想要的結果,而是得首先掏出一個“關鍵詞”輸入進去,然后才能看到命中的結果。

這個過程叫信息檢索,也就是你得首先知道自己對什么信息感興趣,得有線索,然后才能通過搜索引擎檢索信息。但這就有個問題,互聯網實在太大了,而人的認知圈子實在太小了,這就導致了大量本該有價值的信息,因為沒被人看到,而只能靜靜躺在角落被白白浪費了。

這個問題初看不可能有解,畢竟從常識推斷,我們得首先知道那條信息,才可能判斷對它是否感興趣,這個過程應該沒法顛倒過來,去發現我們不知道但感興趣的信息。但推薦算法做到了,它改變了搜索引擎的做法,不再是發現信息,而是發現興趣。

推薦算法是怎樣發現興趣的呢?聽起來好像很玄乎,不過原理遠沒有想象中的那么復雜,我用一句話概括——就是依靠人和物的關聯關系,最少只要經過三次關聯,就能完成興趣發現,進行一次推薦。

這么說不太形象,我舉一個例子。

  • 我愛喝快樂水,經常去家旁邊的便利店買快樂水,店長當然很快就知道我對快樂水感興趣,這是第一次關聯——我關聯快樂水。
  • 接著,店長收完錢,想起來有另一位顧客也對快樂水感興趣,名字就叫小編吧。小編也常到店里買快樂水,這是第二次關聯——快樂水關聯小編。
  • 這位小編和我一樣,對快樂水有著相同的執念,但又有點不同:除了到店里買快樂水,小編還常買另一樣東西——薯片,這就是第三次關聯——小編關聯薯片。

想到這里,店長覺得:既然我們都愛喝快樂水,那沒準你們也都喜歡吃薯片呢?于是,店長就向我推薦了薯片。這就是基于興趣的推薦算法,大數據分析常舉的例子——啤酒尿布,就是上面的這個原理。

我最近看到很多文章,說推薦算法比女朋友更懂你,外人一看都覺得挺神奇的,其實明白了推薦算法的原理,就應該知道這是理所當然的,術業有專攻,除非你的女朋友正好是店長。

當然了,推薦算法原理不復雜,但實際要發揮好作用,還需要根據應用場景作很多調整。推薦算法的重心在于發現人與人之間的共同點,但怎么劃分共同點,是有很多不同的方法的。

就拿我們常見的推薦來說,既有“看過這個視頻的觀眾還看過”這類基于視頻節目的推薦,也有“同城的觀眾都在看”這類基于地理位置的推薦。

早期做推薦很簡單,是基于點擊量來推薦,但大家很快發現:基于點擊量的推薦沒法發現差異化的興趣。所以,要想實現一套好用的推薦算法,通常要綜合方方面面去考慮,而不只是單獨的一兩個點。

02 推薦算法為啥會“失靈”?

推薦算法平時沒什么問題,但一旦出現極端情況,譬如說爆發大規模疫情,就會出現前面我們看到的推薦算法“失靈”的問題,大量推薦的都是疫情相同的信息,把其他信息都湮沒了。

不過說實話,推薦算法有這樣的結果,其實是“合理”的。你想一下:疫情期間你的朋友、家人、同學或者同事,包括你自己,最關心的是什么?就是疫情。

推薦算法這邊呢,我們一再強調推薦算法要做的是發現興趣,而恰恰是正確地發現了你對疫情的“興趣”,所以推薦算法才給你大量推薦了疫情相關的信息。非要說這是問題的話,恐怕首先也得是社會學的問題。

但是,深入地想一想就會發現,這個問題沒這么簡單。互聯網經濟在過去很長一段的時間里是推崇一種理論的,叫長尾理論,大概意思是:人類社會中存在著大量的小眾需求,你販賣的東西再離經叛道,也總會能得到真愛的捧場,互聯網就是溝通小眾需求的橋梁。

推薦算法在很大程度上也受了這種理論的影響,所以有一種說法是:推薦算法的最終目標就是能發現這一個一個的小眾圈子,把小眾的信息推薦給圈子里的人。

但現實卻是另外一回事。近幾年大家討論更多的是另一種互聯網現象,如果你經營過公眾號或者當過UP主,應該會對這種現象印象深刻,這就是頭部效應

大部分甚至絕大部分的互聯網流量,實際上是被少數幾個“頭部”信息生產者吸走了,剩下絕大多數的信息生產者,則仍然是靜靜地呆在角落里面被人遺忘。

本該打破這一現象的推薦算法,反而加劇了這種現象。因為占據頭部,所以容易被推薦,因為容易被推薦,所以繼續占據頭部,推薦算法導致的這種上升螺旋,讓頭部效應更加明顯。如果把本次疫情看作是一個新的頭部,也許能更好地理解推薦算法為什么會在疫情中出現失靈。

那么,這個問題應該怎么解決呢?這個問題,容易回答,也不容易回答。從技術的角度看,這個問題想要解決,思路是很清晰的,就四個字:去極端化。

理論研究和真實環境往往有差別。理論研究都愛對環境條件進行簡化假設,智能算法也不例外,通常假設各種情況出現的概率是服從均勻分布的,大家應該是旗鼓相當的公平競爭,誰也壓不住誰,然后再在這個假設條件下構建算法的各種邏輯。

但實際上,一枝獨秀也許才是真實環境中最為常見的情況。其它的所謂競爭者,要么是萌新,躲在角落瑟瑟發抖,要么是菜雞,互啄上不了臺面。在算法看來,這種現實情況假設情況相差實在太遠,太極端,所以,會出現奇奇怪怪的結果自然也就不值得奇怪了。

要讓算法恢復正常怎么辦呢?只要把極端情況變得不那么極端就可以了,很多依靠評委打分的比賽為了避免受極端情況影響,通常會選擇采取去掉一個最高分和一個最低分的做法,就是類似的思路。

不過,技術本身是中立的,是正是邪,要看使用的人,就好比菜刀,究竟是用來切菜還是砍人,不是由菜刀自己說了算。現在討論的很多問題看起來是技術的問題,其實還是人的問題。譬如人工智能,說到自動駕駛,我們就很愛討論一個話題,說算法應該怎么處理電車難題。

但實際上,算法自己是不會產生價值觀的,算法的價值觀,說到底還是人的價值觀。推薦算法究竟要怎么改,說到底還是要看推薦算法的使用者怎么定義價值。

我想,推薦算法最后一定能夠滿足“推薦有價值信息”這一要求的,但是,這里的“有價值”究竟是對誰而言的有價值,那就是另一個問題了。

關于作者:莫凡,娛樂向機器學習解說選手,《機器學習算法的數學解析與Python實現》作者,前沿技術發展觀潮者,擅長高冷技術的“白菜化”解說,微信公眾號“睡前機器學習”,個人知乎號“木羊”。

推薦算法為啥這么“靈”,又為啥會“失靈”?

延伸閱讀《機器學習算法的數學解析與Python實現》

推薦語:如果你之前不太了解機器學習,現在想要了解機器學習的主流算法和原理,并希望快速、清晰地建立對機器學習的“大局觀”,但是擔心一上來就被各種艱澀的數學公式“揍”得眼冒金星,那這本書就是你想要的。

分享到:
標簽:算法 推薦
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定