日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

10月20日,第29屆ACM國際多媒體會議(簡稱ACM MM)在成都正式舉行。本次會議將針對單個媒體和跨界整合多媒體元素的最具創新性和影響力的頂級熱點研究成果進行分享交流。此外,在視頻編碼、視覺識別、大規模圖像視頻分析、社會媒體研究、多模態人機交互、計算視覺、計算圖像等研究方向有多場精彩的學術分享報告,將充分展示全球高校、研究機構及高新企業在多媒體研究方面的最新進展。

作為世界多媒體領域最重要的頂級會議和中國計算機學會推薦的該領域唯一的A類國際學術會議。本屆ACM MM吸引了國內外多媒體領域中的知名廠商和學者廣泛參與,將有70場精彩報告,其中囊括了6場國內外頂尖學者的主旨報告、13場重磅專題研討、51場國內外知名學者及學術新星的學術報告。

其中,騰訊優圖實驗室9篇計算機視覺相關的優質論文成功入選,涵蓋弱監督圖像描述及定位、表格結構識別、人臉安全等多個研究方向,這些技術創新面向智慧城市、智慧文娛、智慧制造等場景的落地應用,助力進一步提升AI技術能力,推進全球人工智能的發展。

深耕計算機視覺領域成效顯著 9篇論文入選彰顯強大實力

Distributed Attention for Grounded Image Captioning

弱監督圖像描述及定位近年來逐漸受到國內外研究機構以及工業界關注。該任務是指對給定的圖像自動生成一句話描述圖像的內容,同時預測出描述中名詞對應的目標位置。已有的工作主要通過正則化技術依靠注意力機制在生成圖像描述的同時預測名詞對應的目標的位置。這些方法的性能距離全監督的圖像描述及定位有很大的差距。其中最主要的問題在于,依靠注意力機制的大部分方法預測結果往往集中于目標的最具判別性的局部位置,無法完整的預測目標的整體內容。基于此,我們提出一種十分簡單且有效的分布注意力機制,挑選多個語義相同但位置不完全重合的目標之后進行聚合,從而得到更加完整的目標位置。在公開的Flickr30K Entities數據集上,保持圖像描述性能不降的情況下大幅刷新目標定位性能SOTA,與全監督的方法性能持平。

Discriminator-free Generative Adversarial Attack

深度學習網絡容易受到對抗樣本的影響,在圖像上加入一些不顯眼的擾動后基于DNN的識別任務可能失效。目前大多數對抗攻擊方法基于梯度搜索,這類方法生成對抗樣本的耗時長,也會受到顯存資源不足的影響。基于生成的方法(GAN)可緩解這些問題,但這類方法一方面訓練比較難收斂,另外生成的攻擊樣本效果和視覺質量不穩定。我們發現判別器在對抗生成網絡中并非必不可少,提出基于顯著性區域的對稱自動編碼器方法(SSAE),該方法由顯著性響應模塊 (the saliency map)和特征角度正則解耦模塊 (the angle-norm disentanglement)組成,用生成的顯著性響應圖去關注標簽相關的區域,不再依賴判別器。在圖像識別和圖像檢索任務上的大量實驗證明SSAE方法生成的攻擊樣本不僅可以在主流網絡模型上攻擊效果好,同時也具有很好的視覺質量。

Show, Read and Reason: Table Structure Recognition with Flexible Context Aggregator

本文主要針對表格結構識別這一具有挑戰性的問題進行研究。目前,業內方法往往采用基于圖的上下文累積器,來稀疏地建模表格元素的上下文關系。然而,基于圖的約束可能會引入過強的歸納偏置,無法充分地表示復雜的表格關系。為了讓模型從數據中學習更合適的歸納偏置,本文引入Transformer作為上下文累積器。Transformer以密集上下文作為輸入,同時由于的歸納偏置的弱化,Transformer對數據的規模要求更高,并且訓練過程可能會不穩定。為了解決上述問題,本文設計了FLAG (FLexible context AGgregator) 模塊,它將Transformer與基于圖的上下文累積器以一種自適應的方式結合在一起。基于FLAG,本文設計了一個端到端的網絡,稱為FLAG-Net ,該網絡不需要額外的OCR信息,并且可以靈活地調整密集上下文(dense context)和稀疏上下文(sparse context)的累積,進行表格元素的關系推理。本文還進一步探索了FLAG中的上下文選擇模式,這對于識別表格結構是至關重要的。在標準測試集上的實驗結果表明,本文提出的FLAG-Net的性能大大超過業內其他方法。

LSTC: Boosting Atomic Action Detection with Long-Short-Term-Context

相對于視頻序列中的一般性運動檢測,原子級的目標行為(如交談,拾取,瞭望)的判斷更加依賴于視頻中上下文依賴關系的挖掘,同時這種依賴關系在不同的時間尺度上呈現若相關特性。本文將視頻目標的行為與其以來關系解耦為稠密的短時上下文依賴(Dense Short-term Context)和稀疏的長時上下文依賴 (Sparse Long-term Context),并通過概率圖模型將兩者解耦為條件獨立的交互關系分別輔助目標原子行為的判別,同時引入了一種近似高階的注意力機制(High-Order Attention Mechanism),在計算復雜度不提升的條件下,將傳統的注意力模型從一對一推廣到一對多的交互關系。在AVA以及Hieve等基準測試集上表明,這種長短時依賴獨立推斷的機制能夠有效幫助行為檢測器正確推斷目標行為。

ASFD: Automatic and Scalable Face Detector

在目前主流的目標檢測器的設計范式中,特征增強以及特征融合模塊已經成為了增強特征判別能力,提升檢測效果的必備組件,但是由于數據分布上的差異,一般性目標檢測網絡中的特征增強模塊并不能在人臉檢測場景中帶來穩定的提升。為此,本文系統性地分析了數據分布差異對于特征增強和融合模塊效果的影響,并據此針對人臉檢測場景,提出了一個可微分的自動化特征增強模塊搜索流程AutoFAE, 同時,本文基于改搜索流程建立了用于網絡搜索的超集,以滿足不同推理速度約束下搜索到最優性能的模型結構。在主流的人臉檢測數據集Wider-Face, FDDB上,本文搜索的人臉檢測架構能夠在相同的推理速度下達到更好的檢測效果。

Adaptive Normalized Representation Learning for Generalizable Face Anti-Spoofing

隨著多樣化人臉攻擊形式的出現,活體檢測的泛化性受到越來越多關注。現有方法往往直接對網絡學習的特征進行約束,然而忽略了模型特征提取的過程,尤其是標準化的影響。 針對該問題,本文提出了一種自適應標準化表征學習的活體檢測新方法。具體而言,本文設計了一個自適應特征標準化模塊(AFNM),該模塊根據樣本特征自適應地結合BN和IN標準化方式。并在在訓練過程中結合元學習框架,在meta-test階段重點學習AFNM模塊,從而提升泛化性。此外,為進一步學習域無關的活體表征,本文設計了雙重校準約束(DCC),包括域間兼容損失(IDC)和類間分隔損失(ICS)。多個學術數據集上實驗結果表明我們方法優于現有方法,為實際場景下活體技術的應用提供了有效框架。

RecycleNet: An Overlapped Text Instance Recovery Approach

文本圖像識別是理解多媒體媒介的關鍵技術手段。主流的設計范式關注獨立文本行的精準識別,但這些方法在復雜真實場景如財務票據和學生作業簿上受到了嚴峻的挑戰。簡單通過優化識別方法本身或數據增強難以處理手寫/印刷文本或印刷/印刷文本的套打(overlapping)。基于這個觀察,本文介紹了RecycleNet,一個自動分離套打文本實例的策略。RecycleNet的關鍵設計在于定位并重用(recycle)了文本實例間套打的像素區域,將這些區域歸還到其歸屬的全部實例,保障了分離后實例的完整性。RecycleNet平行于現有的文本識別解決方案,可作為可插拔模塊,用很小的開銷提升現有識別基線的精度。

Spatiotemporal Inconsistency Learning for DeepFake Video Detection

隨著人臉生成技術的快速發展,人臉偽造檢測也受到越來越多的關注。現有的方法往往將人臉偽造檢測問題建模為二分類問題并提出了基于圖像和視頻的檢測方法。 本文從一個新的角度出發,將該任務建模為時空不一致性學習過程,通過抓取偽造視頻在空間和時序運動中的偽造痕跡來進行真假鑒別。具體地,本文設計了一個新的STIL單元,主要包括空間不一致性模塊(SIM),時間不一致性模塊(TIM)以及信息互補模塊(ISM)。其中SIM采用具有殘差結構的注意力機制重點捕捉空間不一致,TIM分別從水平和豎直兩個方向捕捉時序運動中的不一致,ISM則進一步促進空間不一致和時序不一致間的信息交互。STIL單元非常靈活,可以插到大多數已有的2D網絡中。大量的實驗表明我們提出的方法在多個數據集上優于現有的方法,同時詳細的可視化也充分證明了我們方法的可解釋性。

以研促產 騰訊優圖實驗室通過AI助力數字經濟發展

作為騰訊旗下頂級的人工智能實驗室,騰訊優圖實驗室始終聚焦計算機視覺技術,專注人臉識別、圖像識別、OCR等領域,致力于在工業制造、醫療應用、金融保險、娛樂社交等多行業場景的研究與落地。

憑借在視覺AI技術上的研究成果,騰訊優圖目前已擁有超過1000件全球AI專利,更有300余篇論文被AAAI、ICCV等國際頂級AI會議收錄。同時,騰訊優圖還通過騰訊云共輸出超過20項AI解決方案,100+AI原子能力,助力各行各業實現數字化轉型。

此外,騰訊優圖還打造了如跨年齡AI尋人、青少年內容審核、AI探星等技術能力,踐行騰訊“科技向善”的使命和愿景。未來,優圖實驗室將繼續專注人工智能技術發展,通過推進AI基礎設施研發的形式為產業數字化轉型提供助力,促進數字經濟加速發展。

分享到:
標簽:騰訊 入選 圖像 監督 領域 全等 論文 MM
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定