日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

一文看懂邏輯回歸算法(基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例)

 

本文將通俗易懂的介紹邏輯回歸的基本概念、優(yōu)缺點(diǎn)和實(shí)際應(yīng)用的案例。同時(shí)會(huì)跟線性回歸做一些比較,讓大家能夠有效的區(qū)分 2 種不同的算法。

什么是邏輯回歸?

一文看懂邏輯回歸算法(基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例)

 

線性回歸的位置如上圖所示,它屬于機(jī)器學(xué)習(xí) – 監(jiān)督學(xué)習(xí) – 分類 – 邏輯回歸。

擴(kuò)展閱讀:

《「65頁(yè)P(yáng)DF」讓 PM 全面理解深度學(xué)習(xí)》

《什么是監(jiān)督學(xué)習(xí)?如何理解分類和回歸?》

邏輯回歸(Logistic Regression)主要解決二分類問(wèn)題,用來(lái)表示某件事情發(fā)生的可能性

一文看懂邏輯回歸算法(基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例)

 

比如:

  • 一封郵件是垃圾郵件的肯能性(是、不是)
  • 你購(gòu)買一件商品的可能性(買、不買)
  • 廣告被點(diǎn)擊的可能性(點(diǎn)、不點(diǎn))

邏輯回歸的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  • 實(shí)現(xiàn)簡(jiǎn)單,廣泛的應(yīng)用于工業(yè)問(wèn)題上;
  • 分類時(shí)計(jì)算量非常小,速度很快,存儲(chǔ)資源低;
  • 便利的觀測(cè)樣本概率分?jǐn)?shù);
  • 對(duì)邏輯回歸而言,多重共線性并不是問(wèn)題,它可以結(jié)合L2正則化來(lái)解決該問(wèn)題;
  • 計(jì)算代價(jià)不高,易于理解和實(shí)現(xiàn);

缺點(diǎn):

  • 當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;
  • 容易欠擬合,一般準(zhǔn)確度不太高
  • 不能很好地處理大量多類特征或變量;
  • 只能處理兩分類問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類),且必須線性可分
  • 對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;

邏輯回歸 VS 線性回歸

線性回歸和邏輯回歸是 2 種經(jīng)典的算法。經(jīng)常被拿來(lái)做比較,下面整理了一些兩者的區(qū)別:

一文看懂邏輯回歸算法(基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例)

 

  1. 線性回歸只能用于回歸問(wèn)題,邏輯回歸雖然名字叫回歸,但是更多用于分類問(wèn)題(關(guān)于回歸和分類的區(qū)別可以看看這篇文章《一文看懂監(jiān)督學(xué)習(xí)(基本概念+4步流程+9個(gè)典型算法)》)
  2. 線性回歸要求因變量是連續(xù)性數(shù)值變量,而邏輯回歸要求因變量是離散的變量
  3. 線性回歸要求自變量和因變量呈線性關(guān)系,而邏輯回歸不要求自變量和因變量呈線性關(guān)系
  4. 線性回歸可以直觀的表達(dá)自變量和因變量之間的關(guān)系,邏輯回歸則無(wú)法表達(dá)變量之間的關(guān)系

注:

自變量:主動(dòng)操作的變量,可以看做「因變量」的原因

因變量:因?yàn)椤缸宰兞俊沟淖兓兓梢钥醋觥缸宰兞俊沟慕Y(jié)果。也是我們想要預(yù)測(cè)的結(jié)果。

一文看懂邏輯回歸算法(基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例)

 

美團(tuán)的應(yīng)用案例

美團(tuán)會(huì)把邏輯回歸應(yīng)用到業(yè)務(wù)中解決一些實(shí)際問(wèn)題。這里以預(yù)測(cè)用戶對(duì)品類的購(gòu)買偏好為例,該問(wèn)題可以轉(zhuǎn)換為預(yù)測(cè)用戶在未來(lái)某個(gè)時(shí)間段是否會(huì)購(gòu)買某個(gè)品類,如果把會(huì)購(gòu)買標(biāo)記為1,不會(huì)購(gòu)買標(biāo)記為0,就轉(zhuǎn)換為一個(gè)二分類問(wèn)題。我們用到的特征包括用戶在美團(tuán)的瀏覽,購(gòu)買等歷史信息,見下表:

一文看懂邏輯回歸算法(基本概念+優(yōu)缺點(diǎn)+美團(tuán)應(yīng)用案例)

 

其中提取的特征的時(shí)間跨度為30天,標(biāo)簽為2天。生成的訓(xùn)練數(shù)據(jù)大約在7000萬(wàn)量級(jí)(美團(tuán)一個(gè)月有過(guò)行為的用戶),我們?nèi)斯ぐ严嗨频男∑奉惥酆掀饋?lái),最后有18個(gè)較為典型的品類集合。如果用戶在給定的時(shí)間內(nèi)購(gòu)買某一品類集合,就作為正例。有了訓(xùn)練數(shù)據(jù)后,使用Spark版的LR算法對(duì)每個(gè)品類訓(xùn)練一個(gè)二分類模型,迭代次數(shù)設(shè)為100次的話模型訓(xùn)練需要40分鐘左右,平均每個(gè)模型2分鐘,測(cè)試集上的AUC也大多在0.8以上。訓(xùn)練好的模型會(huì)保存下來(lái),用于預(yù)測(cè)在各個(gè)品類上的購(gòu)買概率。預(yù)測(cè)的結(jié)果則會(huì)用于推薦等場(chǎng)景。

由于不同品類之間正負(fù)例分布不同,有些品類正負(fù)例分布很不均衡,我們還嘗試了不同的采樣方法,最終目標(biāo)是提高下單率等線上指標(biāo)。經(jīng)過(guò)一些參數(shù)調(diào)優(yōu),品類偏好特征為推薦和排序帶來(lái)了超過(guò)1%的下單率提升。

此外,由于LR模型的簡(jiǎn)單高效,易于實(shí)現(xiàn),可以為后續(xù)模型優(yōu)化提供一個(gè)不錯(cuò)的baseline,我們?cè)谂判虻确?wù)中也使用了LR模型。

分享到:
標(biāo)簽:算法 邏輯 回歸
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定