日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

新冠疫情是把雙刃劍,一方面阻礙人們出行,線下經(jīng)濟(jì)受很大影響,但是大大加速直播帶貨這一商業(yè)模式。淘寶直播作為集團(tuán)直播帶貨的主力產(chǎn)品,無論是生產(chǎn)側(cè)擴(kuò)大開播的店家和達(dá)人,還是分發(fā)側(cè)為用戶推薦質(zhì)量最好的直播內(nèi)容,都需要直播間實(shí)時理解能力。通過這一能力為運(yùn)營提供主播評級,評價體系,為推薦算法提供豐富的特征優(yōu)化推薦效果。

?什么是實(shí)時內(nèi)容理解

內(nèi)容理解算法一般是指圖片、視頻分類識別,ASR,OCR等。這些算法可以處理批量離線任務(wù),如分析一段監(jiān)控視頻,處理爬取的一部分視頻,這些不需要及時返回結(jié)果,而有些則需要很快返回處理結(jié)果,比如人臉識別門禁。實(shí)時內(nèi)容理解時效性要求高,對后臺服務(wù)的穩(wěn)定性也有很高要求。直播的時間跨度長,可能連續(xù)幾個小時不停,做好穩(wěn)定高效的直播內(nèi)容理解,需要算法的推理時間足夠快,資源利用率盡量高并且和服務(wù)端協(xié)調(diào)配合好。

?利用內(nèi)容理解優(yōu)化直播推薦效率

直播質(zhì)量好不好,受幾方面影響:1 畫面是否高清,低時延; 2 直播內(nèi)容否有吸引力,是用戶感興趣的類型; 3 直播帶貨場景還要看賣的東西質(zhì)量好不好,價格低不低。第一個問題借助淘寶自研的視頻編解碼技術(shù)可以解決,第三個問題需要在商品庫對比,以及根據(jù)用戶反饋了解。實(shí)時內(nèi)容理解算法主要解決第二個問題,通過識別主播多個維度的信息判斷其吸引力。

內(nèi)容理解之后,還要考慮和推薦算法如何結(jié)合。目前推薦算法還是以用戶行為特征為主,在曝光充分的內(nèi)容上,用戶行為還是非常置信的,比如抖音上一些熱門內(nèi)容確實(shí)是大部分人感興趣的。但是在曝光不充分的內(nèi)容上,用戶行為比較少,需要根據(jù)內(nèi)容本身的特點(diǎn)來做推薦。例如Youtube上有大量用戶新上傳的視頻,新視頻曝光比較低,谷歌利用視頻打標(biāo)算法,計算視頻標(biāo)簽,給用戶推薦有感興趣標(biāo)簽的視頻來做新內(nèi)容的冷啟動。對于直播,每一場都可以理解為一個新的視頻,而且是在視頻進(jìn)行過程中做推薦,這樣就更需要內(nèi)容理解。

推薦算法分召回,排序,重排等階段,內(nèi)容理解的特征如果放到召回,排序模型里要考慮特征覆蓋度,以及和其他特征融合,這樣做會比較復(fù)雜,有時候內(nèi)容理解的特征是準(zhǔn)確的,但是和用戶行為特征放一起可能沒有什么增益。而放到重排階段則比較靈活,可以將內(nèi)容理解結(jié)果變成一定的權(quán)重去調(diào)整排序順序,或者做些過濾。

直播實(shí)時內(nèi)容理解算法框架

淘寶直播每天有數(shù)萬場直播,直播持續(xù)時間可能幾個小時甚至十幾個小時,不同的直播曝光量差別非常大,所以我們先從頭部主播實(shí)時分析入手。直播最關(guān)鍵的兩個要素是主播和商品,目前我們只關(guān)注主播方面的理解。首先從直播人臉檢測,聲音分類,以及顏值幾個業(yè)務(wù)和運(yùn)營側(cè)反饋比較重要的特征入手。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

首先我們搭建直播metaq消息監(jiān)聽服務(wù)。直播間狀態(tài)變化非常復(fù)雜,比如有時候會發(fā)生斷流,有時候主播會暫時離開,有時候?qū)氊惔黾由唐罚粋€直播間的消息可能被不同的機(jī)器接收到,前期我們花費(fèi)很多時間在直播消息處理上,由于一場直播的流地址是固定的,最終為了簡化這些邏輯,我們只處理直播間開播和關(guān)播消息。

在統(tǒng)計頭部這些直播的pvr時(曝光覆蓋比例),我們發(fā)現(xiàn)頭部幾千場直播可能就占到很高的曝光覆蓋,所以我們從直播推薦團(tuán)隊拿曝光日志計算前一天的頭部主播。整個直播的曝光日志里有公域和私域之分,我們的統(tǒng)一只計算公域的流量數(shù)據(jù),然后落到odps表中。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

拿到直播url之后我們首先嘗試flv格式的直播流,解碼機(jī)器不斷的解碼然后抽幀輸入下游模型,這種流程解碼機(jī)器的利用率不是很高,因此我們的抽幀頻率不是很密集,10-20秒抽取一幀,而且直播間可能會暫停/斷流,所以我們改用hls格式,以ts為單位輸入下游解碼服務(wù),對比前一種拉流方式,并發(fā)處理能力提升了1倍以上。

主播屬性特征

主播相關(guān)的特征多種多樣,有穩(wěn)定特征比如人臉,聲音,還有實(shí)時特征比如表情,動作等。為了最大化ROI以及方便推薦算法使用,我們和運(yùn)營以及推薦算法同學(xué)總結(jié)了以下幾大方面的人物屬性,通過算法逐漸識別出這些屬性標(biāo)簽。這些主播標(biāo)簽無論是作為運(yùn)營的活動抓手,分析工具,還是幫助推薦算法訓(xùn)練更好的模型都很有價值。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

常用的人物屬性分視覺和聲音兩個維度,我們聯(lián)合VIP團(tuán)隊搭建了一套多模屬性識別框架,如下圖所示。從直播流中采樣視頻幀和聲音數(shù)據(jù),然后分別輸入聲音識別模塊和視覺識別模塊。目前聲音模塊主要包括男/女聲,有無人聲分類模型以及asr識別模型,視覺模塊包括人臉人體檢測跟蹤,人臉屬性識別,以及圖像質(zhì)量分析模塊。從單模型的輸出又可以衍生出其他的一些特征,比如asr結(jié)果可以用計算語速特征,視覺性別和聲音性別判斷結(jié)果組合起來可以篩查跨性別特色主播。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

下面介紹我們在屬性識別方面的一些成果:

?人臉屬性

相比人臉檢測識別算法,屬性識別算法如性別,顏值,年齡,表情識別在通用場景下的識別準(zhǔn)確率不是非常高,一方面是由于數(shù)據(jù)集偏少,另一方面是屬性特征偏主觀,另外化妝和美顏工具會明顯干擾這些屬性。在屬性特征里,顏值屬性對用戶體驗(yàn)影響最大,所以人臉屬性重點(diǎn)圍繞顏值做了一些嘗試。

由于顏值比較偏主觀,我們嘗試眾包服務(wù)標(biāo)注數(shù)據(jù),但是不同標(biāo)注者的結(jié)果之間差別還是很大,最后算法同學(xué)又親自篩選一遍。首先使用二分類模型,判斷顏值高低,然后將算法篩選出的高顏值主播給運(yùn)營同學(xué),再由運(yùn)營分成高,中高,中低,低等顏值類型去做實(shí)驗(yàn)。算法側(cè)使用分類模型softmax之后的分類做為顏值分使用。

我們考慮到對比兩個圖片的顏值選擇更高的,這個任務(wù)可能會更簡單一點(diǎn),于是嘗試了pair-wise排序的方案,結(jié)果在區(qū)分明顯的高,低顏值的數(shù)據(jù)上表現(xiàn)和分類模型一樣,在中顏值數(shù)據(jù)上,由于排序任務(wù)也解決的不好,所以排序模型的結(jié)果和分類也沒有很大差別。

下面是高顏值:

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

對比其他公司顏值A(chǔ)PI結(jié)果:

調(diào)用百度、曠視的顏值A(chǔ)PI接口在我們的測試集合上,PR曲線和ROC曲線對比結(jié)果如下:

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

?人臉識別

人臉識別通常有兩種做法,一種是通過分類模型,每個人是一個類別,這種方案效果比較好,但是如果新增人物還需要重新訓(xùn)練模型,所以靈活性不是很高,另一種方案是計算人臉feature,將待識別的人物特征存下來,使用時用同樣的模型計算人臉feature,然后檢索目標(biāo)人物。由于直播業(yè)務(wù)里主播流動性比較大,所以我們使用檢索方案做人臉識別。人臉識別我們使用ArcFace模型計算feature,然后使用聚類和rerank識別人臉身份。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

? 音頻特征

許多直播間沒有主播露面只有解說,比如賣珠寶首飾的。所以音頻特征是直播間實(shí)時理解不可或缺的一塊。目前我們已經(jīng)接入PAI平臺的EasyASR算法,并且和PAI團(tuán)隊合作建設(shè)了男聲/女聲,有無人聲,以及背景音樂特征,Acc指標(biāo)在90%以上,這些特征支持了空鏡頭識別以及變性人識別等服務(wù)。

業(yè)務(wù)落地

直播間實(shí)時內(nèi)容理解主要服務(wù)于推薦算法,相比內(nèi)容生產(chǎn)直接產(chǎn)出素材,或者審核業(yè)務(wù)給出分類打標(biāo)結(jié)果,推薦業(yè)務(wù)將實(shí)時內(nèi)容理解結(jié)果加入推薦流程更加復(fù)雜,目前特征的使用有兩種方式,一種是將特征加入模型訓(xùn)練,在inference時也需要將實(shí)時特征加入打分,這種方式需要積累長時間的特征,目前排序算法訓(xùn)練需要兩個月以上日志,這種方式代價比較高;另一種使用方式是將特征融合為權(quán)重分,在排序結(jié)果基礎(chǔ)上進(jìn)行加降權(quán)來影響結(jié)果。下面介紹在不同應(yīng)用場景下內(nèi)容理解算法的用途。

? 排序算法

從手淘首頁的淘寶直播卡片進(jìn)去就是直播頻道頁,這個頁面主要展示直播間的封面圖,同時會展示某一個直播間的實(shí)時畫面。推薦算法在這個場景下主要關(guān)注ctr和直播停留時長指標(biāo),用戶在這個頁面主要根據(jù)封面圖來判斷是否點(diǎn)擊,在wifi環(huán)境下會播放一些直播畫面。如上文所述特征加入模型訓(xùn)練的方案需要積累很長時間日志,所以我們使用加降權(quán)的方式進(jìn)行實(shí)驗(yàn)。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

由于頻道頁展示的主要是封面圖,我們猜測有高顏值人臉的封面圖會更加吸引人,于是嘗試了對高顏值主播做加權(quán),但是這次實(shí)驗(yàn)使用的高顏值主播是經(jīng)過運(yùn)營篩選后的主播id,而直播的人和封面圖里的人很多是不一樣的,而且一個直播間可能有許多主播,不同時間的主播顏值也不一樣。實(shí)現(xiàn)結(jié)果顯示高顏值主播的ctr沒有增長,整桶的指標(biāo)也沒有正向變化。后續(xù)我們會直接計算封面圖中的人臉顏值繼續(xù)實(shí)驗(yàn)。

頻道頁嘗試的第二個實(shí)驗(yàn)是空鏡頭打壓。直播的時間往往很久,經(jīng)常會出現(xiàn)一些空鏡頭(沒有主播講解),運(yùn)營同學(xué)做過體驗(yàn)分析,其中空鏡頭問題占了很大的比例,而且空鏡頭特征是二分類問題,很適合做調(diào)權(quán),所以我們先實(shí)驗(yàn)空鏡頭分析服務(wù)在頻道頁的效果。

空鏡頭可以從畫面和聲音兩個維度來判斷,由于頻道頁里是聽不到聲音的,所以我們根據(jù)是否出現(xiàn)人臉來判斷直播間是否是空鏡頭,而某些行業(yè)其實(shí)不需要露臉,所以我們只挑選女裝,服飾等幾個主播會出鏡的行業(yè)。由于頻道頁很多直播只出現(xiàn)封面圖,所以實(shí)驗(yàn)結(jié)果我們分析的這些直播的ctr和用戶時長指標(biāo)有1%-1.2%的提升。

從頻道頁點(diǎn)進(jìn)去就是上下滑場景,用戶看到的是直播間內(nèi)容,而且是有聲音的。所以更適合實(shí)時內(nèi)容理解算法落地,比如空鏡頭打壓。我們結(jié)合人臉檢測和asr結(jié)果,判斷直播間一段時間內(nèi)是否出現(xiàn)人臉,是否有人說話,合并cv和音頻特征輸出當(dāng)前直播間是否是空鏡頭。

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

(空鏡頭case)

實(shí)驗(yàn)開始的時候base桶和基準(zhǔn)桶指標(biāo)基本持平,由于我們只覆蓋了頭部主播,所以需要統(tǒng)計服務(wù)分析的這部分直播的效率,發(fā)現(xiàn)在短時長,高空鏡率的直播上,實(shí)驗(yàn)桶上用戶平均時長有明顯增加,然后進(jìn)一步分析發(fā)現(xiàn)是拉流服務(wù)機(jī)器OOM掛掉,導(dǎo)致直播分析時長過短。修復(fù)了工程上一些bug后,分析覆蓋的部分直播上用戶平均時長和pv都有明顯增長,整桶指標(biāo)也因?yàn)轶w驗(yàn)優(yōu)化而增長,人均時長和pv以及整體pv都有2%以上的增加。

? 負(fù)向治理

  • 新奇內(nèi)容治理
實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

跨性別特色主播

直播內(nèi)容豐富多彩,主播使用各種手段來吸引眼球,軟色情是最常見的一種,其中近幾個月發(fā)現(xiàn)了變性人主播的情況。變性人主播是指一些男性主播通過變性或變妝為女性從事直播活動,直播內(nèi)容以變性人等作為亮點(diǎn)吸引點(diǎn)擊,存在較大的輿情隱患。為了對變性人主播進(jìn)行識別,我們利用變性人主播畫面性別為女性,聲音性別為男性的特點(diǎn)對淘寶主播進(jìn)行排查。相關(guān)模型的準(zhǔn)確率:

 

labe

準(zhǔn)確率

畫面性別二分類

男性/女性

0.97

聲音性別二分類

男聲/女聲

0.88

由于直播間可能存在多主播情況,比如女主播漏面男主播在畫面之外解說,或者男女主播同畫面解說,所以通過聲音加視覺性別不一致識別出的跨性別特色主播會有誤召回的情況,算法識別結(jié)果經(jīng)由運(yùn)營同學(xué)核驗(yàn)才會最終打上變性人標(biāo)簽,結(jié)合a2a(account 2 account)相似主播擴(kuò)展,我們累計了幾十個變性人主播賬號。在公域場景下減小透出頻率避免連續(xù)刷到多個變性人的情況改善用戶體驗(yàn)。

? 明星助理代播直播

實(shí)時內(nèi)容理解算法在淘寶直播間的應(yīng)用與落地

 

明星播與助理代播

隨著直播帶貨這一形式的興起,一些明星也加入淘寶直播開啟帶貨職業(yè)。運(yùn)營同學(xué)分析從2021年1月1號開始的明星公域流量的使用情況發(fā)現(xiàn),明星整體公域uv成交價值超過MCN機(jī)構(gòu)均值。但用戶停留時長,整體低于MCN均值。進(jìn)一步統(tǒng)計發(fā)現(xiàn)在明星助理直播時間段,所有公域轉(zhuǎn)化數(shù)據(jù)都低過MCN大盤且墊底。這說明在原來明星本人直播后改成助理直播之后,整體轉(zhuǎn)化受影響最嚴(yán)重。許多用戶是看到直播間的明星封面圖進(jìn)入直播間的,如果發(fā)現(xiàn)不是明星在直播,會有種上當(dāng)受騙的感覺。所以為了鼓勵明星本人直播,同時提升公域流量的轉(zhuǎn)化率,我們做了明星直播間實(shí)時識別,輔助流量調(diào)控。

聯(lián)合淘寶直播推薦團(tuán)隊我們在首猜信息流、頻道頁、上下滑場景下對明星直播間進(jìn)行調(diào)權(quán)處理,使明星賬號感受到明星播和助理播的差別,做出改變。實(shí)驗(yàn)中我們還發(fā)現(xiàn),明星直播間pv曝光減少后,ctr和人均時長有一定程度增長。

小結(jié)

直播間實(shí)時內(nèi)容理解需要搭建強(qiáng)大的計算平臺,目前我們的服務(wù)使用EAS,TPP,VIP,IGraph,MetaQ,ODPS等多個平臺,工程鏈路調(diào)試起來比較麻煩,機(jī)器資源耗費(fèi)也很大,為了增加模型處理能力,新的算法還會往RTP平臺部署,而新平臺還在建設(shè)中,需要一邊造一邊用。內(nèi)容理解算法怎么和推薦算法結(jié)合,也是需要注意的一點(diǎn),短視頻或者圖像可以離線處理,算法保留結(jié)果即可,但是直播內(nèi)容是實(shí)時處理的,需要和推薦算法深度綁定。最后的一點(diǎn)感受是一定要對業(yè)務(wù)場景理解透徹,不同的場景下有效特征也是不一樣的。

原文:
https://www.tuicool.com/articles/bqmMj2m

作者:淘系技術(shù)

分享到:
標(biāo)簽:算法 理解
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定