2021年,百度AI技術(shù)研究依然保持著高質(zhì)量產(chǎn)出。近期,ICML、IJCAI、ISIT等機器學(xué)習(xí)領(lǐng)域頂會收錄了來自百度的數(shù)十篇論文,涵蓋深度神經(jīng)網(wǎng)絡(luò)、多語言預(yù)訓(xùn)練、視頻描述生成、AI輔助醫(yī)療診斷、量子信息等多個研究方向。
國際機器學(xué)習(xí)會議(ICML)、國際人工智能聯(lián)合會議(IJCAI)、IEEE信息論國際研討會(ISIT)都是人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議。在今年ICML大會開展同期,百度還舉辦了以飛槳為主題的ICML EXPO Workshop。這也是本次由國內(nèi)企業(yè)主辦的唯一一個Expo。本次Expo從計算視覺、自然語言處理、語音、量子計算等多個角度,全面展示了飛槳在深度學(xué)習(xí)領(lǐng)域強大的技術(shù)優(yōu)勢和深厚的產(chǎn)業(yè)實踐積累。
百度此次共有數(shù)十篇優(yōu)質(zhì)論文入選三大AI國際頂會,不僅展現(xiàn)了在人工智能多個技術(shù)領(lǐng)域的深耕與創(chuàng)新成果,更與技術(shù)不斷落地應(yīng)用、深入實際場景息息相關(guān)。目前,百度AI技術(shù)已賦能工業(yè)、能源、醫(yī)療、金融、農(nóng)業(yè)、城市管理、交通、信息技術(shù)等各行業(yè),推動AI工業(yè)大生產(chǎn)進程加速的同時,實際應(yīng)用也為技術(shù)的迭代突破持續(xù)反哺。
以下為百度此次在ICML、IJCA、ISIT上的主要論文介紹。
百度ICML 2021論文
隨機傅立葉特征的量化算法
Quantization Algorithms for Random Fourier Features
非線性核方法是被工業(yè)界廣泛應(yīng)用的重要的機器學(xué)習(xí)模型之一。由于核函數(shù)矩陣的維度正比于數(shù)據(jù)點個數(shù),大規(guī)模數(shù)據(jù)集在時間和存儲上都給直接使用非線性核方法帶來極大困難。對于最常見的高斯核函數(shù),隨機傅立葉特征(Random Fourier Features, RFF)可以有效地在線性時間內(nèi)接近非線性核學(xué)習(xí)的效果,并且不需要直接計算龐大的核函數(shù)矩陣,因此成為大規(guī)模非線性核學(xué)習(xí)的重要工具之一。
本文首次通過研究隨機傅立葉特征的統(tǒng)計分布,提出基于Lloyd-Max(LM)最小失真準則的量化方法,以此進一步顯著減少RFF的存儲成本。我們給出LM量化下高斯核函數(shù)估計量的一系列嚴格理論結(jié)果,證明LM估計量的正確性和優(yōu)越性,以及規(guī)范化量化后的傅立葉特征可以進一步降低高斯核估計的除偏方差。基于多個大規(guī)模數(shù)據(jù)集的實證分析證明,在平均可降低10倍以上的存儲成本的前提下,經(jīng)LM量化后的特征可以達到使用全精度傅立葉特征的準確率。該方法的表現(xiàn)顯著優(yōu)于過去已提出的隨機量化方法。本文為工業(yè)級大規(guī)模非線性核學(xué)習(xí)提供了一種存儲便利且效果極佳的壓縮數(shù)據(jù)表征方法。
百度在大規(guī)模非線性機器學(xué)習(xí)加速、隨機投影和隨機傅立葉特征等領(lǐng)域都有多年積累和豐富的成果。2021年發(fā)表的相關(guān)論文還包括:
? AISTATS 2021, One Sketch for All: Non-linear Random Features from Compressed Linear Measurements
? WWW 2021, Consistent Sampling Through Extremal Process
? AAAI 2021, Fast and Compact Bilinear Pooling by Shifted Random Maclaurin
? AAAI 2021, Rejection Sampling for Weighted Jaccard Similarity Revisited
基于有噪聲觀測量的高維光滑疊加函數(shù)的最優(yōu)估計
Optimal Estimation of High Dimensional Smooth Additive Function Based on Noisy Observations
隨著機器學(xué)習(xí)在工業(yè)界中被廣泛應(yīng)用,各類算法和模型開始觸及個人用戶數(shù)據(jù)的方方面面。在使用各類算法和利用用戶數(shù)據(jù)為大眾生活提供便利的同時保障用戶隱私就顯得尤為重要。一個簡單且被普遍使用的應(yīng)對策略就是在收集的數(shù)據(jù)上通過添加噪聲來達到保護用戶隱私的目的。
雖然添加噪聲從一定程度上解決了保護用戶隱私的問題,但隨之而來的是運用帶有噪音的高維數(shù)據(jù)到訓(xùn)練好的模型中,預(yù)測結(jié)果的準確率往往很低。造成此現(xiàn)象的根本原因是在高維統(tǒng)計學(xué)習(xí)中的一個基本問題:帶有噪聲的高維數(shù)據(jù)會使得模型預(yù)測的偏差隨維度增加而變大。
在本篇論文中應(yīng)用了國際上前沿的統(tǒng)計學(xué)習(xí)理論專家們在近兩年開發(fā)的iterative bootstrap技術(shù),在高維additive model這一經(jīng)典且被廣泛應(yīng)用的非參統(tǒng)計回歸模型中,從理論上以及實踐中解決了上述問題。相比于已有的方法,我們的估計模型不僅可以有效的降低高維度帶來的誤差,并且被證明是很多經(jīng)典問題上的最優(yōu)解。此類前瞻性的工作在隨著業(yè)界對用戶數(shù)據(jù)隱私越來越重視,而產(chǎn)生深刻且有意義的影響。
潛變量模型的參數(shù)估計方法
On Estimation in Latent Variable Models
潛變量模型是對不可觀測變量進行數(shù)學(xué)建模。它在經(jīng)濟學(xué)、心理學(xué)、統(tǒng)計學(xué)和機器學(xué)習(xí)中扮演了重要的角色。由于潛變量的存在,人們通常不能直接對似然函數(shù)最大化來球的最優(yōu)的參數(shù)估計而卻需要通過繁瑣的積分來去掉潛變量的影響,從而導(dǎo)致計算復(fù)雜度的提升。
本文提出了一個基于方差減小化的隨機梯度下降方法的參數(shù)估計算法來加速潛變量模型參數(shù)估計的過程。該方法不需要求解精確的后驗分布,加快了迭代過程,可以讓估計值更快的進入收斂區(qū)域。在不同的統(tǒng)計結(jié)構(gòu)假設(shè)下,文章給出了算法收斂性的證明,復(fù)雜度上界以及估計值的漸近性質(zhì)。當樣本量充分大時,實驗結(jié)果表明該方法可以比經(jīng)典的梯度下降法有著更快的收斂速度。
基于雙聚類模型的貝葉斯變分推斷理論
On Variational Inference in Biclustering Models
雙聚類模型是對數(shù)據(jù)矩陣同時進行行聚類和列聚類的一種統(tǒng)計學(xué)習(xí)方法。它在基因表征分類,用用戶行為分析,局部特征學(xué)習(xí)中起著重要的作用。目前雙聚類算法大多基于數(shù)據(jù)出發(fā),例如譜算法,雙重k-means算法,貝葉斯抽樣算法等,而雙聚類算法的理論性質(zhì)卻沒有得到充分的研究。
近來貝葉斯變分推斷已經(jīng)成為了一個熱門的機器學(xué)習(xí)計算方法,其對具有隱變量結(jié)構(gòu)的復(fù)雜模型參數(shù)估計方法有著特殊的優(yōu)勢。它利用選取合理的近似后驗分布來節(jié)省計算的復(fù)雜度。在這個變分推斷的框架下,我們給出了雙聚類模型參數(shù)估計值的一系列全新的理論,包括變分估計的上界和下界,分類的強弱收斂性,變分梯度下降法的局部收斂和全局收斂的性質(zhì)等。這些新的理論給機器學(xué)習(xí)領(lǐng)域帶來了對貝葉斯變分推斷和雙聚類模型的交叉領(lǐng)域更深的理解。
融合聲音和文本編碼的跨模態(tài)多語言預(yù)訓(xùn)練和語音翻譯模型
Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation
近來,文本和語音表示學(xué)習(xí)成功大幅提升了許多與語言與語音相關(guān)的任務(wù)。但是,現(xiàn)有方法只能從文本或語音的一種輸入模態(tài)的數(shù)據(jù)中學(xué)習(xí),而許多常見的跨模態(tài)的任務(wù),例如語音翻譯,則需要統(tǒng)一的聲音和文本表示。
為解決這個問題,我們提出了一種融合語音和文本的語言模型Fused Acoustic and Text Masked Language Model(FAT-MLM),該模型可以學(xué)習(xí)統(tǒng)一的語音和文本表示。在這種跨模態(tài)表示學(xué)習(xí)框架下,我們進一步提出了融合語音和文本的端到端語音翻譯模型FAT-ST。在三個翻譯方向上進行的實驗表明,我們在FAT-MLM預(yù)訓(xùn)練基礎(chǔ)上的語音翻譯模型可以顯著提高翻譯質(zhì)量(+5.90 BLEU)。
百度IJCAI 2021論文
UniMP: 基于掩蓋標簽預(yù)測策略的統(tǒng)一消息傳遞模型
Masked Label Prediction: Unified Message Passing Model for Semi-Supervised Classification
一般應(yīng)用于半監(jiān)督節(jié)點分類的算法分為圖神經(jīng)網(wǎng)絡(luò)和標簽傳遞算法兩類,它們都是通過消息傳遞的方式(前者傳遞特征、后者傳遞標簽)進行節(jié)點標簽的學(xué)習(xí)和預(yù)測。其中經(jīng)典標簽傳遞算法如LPA,只考慮了將標簽在圖上進行傳遞,而圖神經(jīng)網(wǎng)絡(luò)算法大多也只是使用了節(jié)點特征以及圖的鏈接信息進行分類。但是單純考慮標簽傳遞或者節(jié)點特征都是不足夠的。
百度提出的統(tǒng)一消息傳遞模型UniMP將上述兩種消息統(tǒng)一到框架中,同時實現(xiàn)了節(jié)點的特征與標簽傳遞,顯著提升了模型的泛化效果。UniMP以Graph Transformer模型作為基礎(chǔ)骨架,聯(lián)合使用標簽嵌入方法,將節(jié)點特征和部分節(jié)點標簽同時輸入至模型中,從而實現(xiàn)了節(jié)點特征和標簽的同時傳遞。
簡單的加入標簽信息會帶來標簽泄漏的問題,即標簽信息即是特征又是訓(xùn)練目標。為此,UniMP提出了標簽掩碼學(xué)習(xí)策略。UniMP每一次隨機將一定量的節(jié)點標簽掩碼為未知,用部分已有的標注信息、圖結(jié)構(gòu)信息以及節(jié)點特征來還原訓(xùn)練數(shù)據(jù)的標簽。最終,UniMP在OGB三個半監(jiān)督節(jié)點分類任務(wù)上取得SOTA效果,并在論文的消融實驗上,驗證了方法的有效性。
基于知識蒸餾和跨模態(tài)匹配的弱監(jiān)督稠密視頻描述生成
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching
稠密視頻描述生成是近兩年來多模態(tài)生成的熱門研究方向之一,其挑戰(zhàn)在于對大規(guī)模領(lǐng)域標注數(shù)據(jù)的強依賴。為了解決這個難題,本文創(chuàng)新性地提出了結(jié)合知識蒸餾(Knowledge Distillation)和跨模態(tài)匹配(Cross-modal Matching)的弱監(jiān)督稠密視頻描述生成模型。在不需要視頻精彩片段標注的前提下,僅使用外領(lǐng)域多源視頻描述數(shù)據(jù),即可同時實現(xiàn)視頻精彩片段提取和細粒度的內(nèi)容描述生成。進一步地,我們首次使用圖文描述數(shù)據(jù)顯著增強了視頻描述生成的效果。
實驗表明,本文提出的方法能夠有效利用外部數(shù)據(jù)集的知識,準確的定位視頻的精彩片段并生成流暢、準確的描述文本。在精彩片段提取子任務(wù)上,基于我們提出的知識蒸餾策略訓(xùn)練的模型甚至超過全監(jiān)督數(shù)據(jù)訓(xùn)練的模型的效果。在描述生成子任務(wù)上,本文在ActivityNet Captioning數(shù)據(jù)集上取得了當前的最優(yōu)表現(xiàn)。同時,本文也為該任務(wù)使用大規(guī)模弱監(jiān)督數(shù)據(jù)提供了一種有效的解決方案。
Seq2Subgraph:一種基于子圖結(jié)構(gòu)的醫(yī)療文本處理新框架
A Novel Sequence-to-Subgraph Framework for Diagnosis Classification
基于電子病歷文本的AI輔助診斷是智慧醫(yī)療領(lǐng)域最重要和最具挑戰(zhàn)的問題之一。傳統(tǒng)的NLP深度學(xué)習(xí)在開放域下以序列模型建模文本為主,若以該方式處理醫(yī)療文本(例如電子病歷)則難以表達復(fù)雜的醫(yī)學(xué)概念之間二元或多元知識關(guān)系,難以將蘊含在文本段落中的復(fù)雜醫(yī)學(xué)關(guān)系與臨床診療推理結(jié)合。
在本文中,我們提出了一種新的醫(yī)療文本處理框架Seq2Subgraph,它通過結(jié)合醫(yī)學(xué)知識圖譜,將醫(yī)療文本處理成多層級的子圖結(jié)構(gòu),改變了傳統(tǒng)NLP序列模型處理醫(yī)療文本的固定套路,能更好的區(qū)分同時患有多疾病的病歷中不同疾病關(guān)聯(lián)的病情信息,兼顧醫(yī)療文本的結(jié)構(gòu)特征和序列特征。在中文和英文電子病歷數(shù)據(jù)上,本文提出的算法均取得了最佳的效果。
值得一提的是,該工作是繼2020年ACL和IJCAI后,百度智慧醫(yī)療在AI輔助診斷上的延續(xù)性技術(shù)創(chuàng)新。在突破了診斷可解釋性和知識與數(shù)據(jù)雙驅(qū)動診療技術(shù)后,本次研究進一步革新了醫(yī)療文本處理模式,在維度升級的復(fù)雜電子病歷下,針對數(shù)據(jù)與知識的聯(lián)合建模方式做了更深層次的探索和應(yīng)用。
監(jiān)控場景下的弱監(jiān)督時空異常檢測
Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video
針對視頻監(jiān)控場景下的異常事件檢測,我們提出弱監(jiān)督時-空異常檢測(WSSTAD)的新任務(wù)。即,僅僅利用視頻級別標簽作為弱監(jiān)督信號,對輸入的一段視頻中異常事件出現(xiàn)的時間以及空間位置進行檢測。前序研究中,弱監(jiān)督方法僅能實現(xiàn)單一時間緯度的異常定位,無法進行空間位置的定位。本文提出的弱監(jiān)督算法框架,首次實現(xiàn)了時間-空間兩個緯度的異常事件定位,并且在經(jīng)典數(shù)據(jù)集中取得了最佳的指標。由于訓(xùn)練階段僅需要視頻級別的標簽,本文提出的方法可以極大節(jié)省標注人力。
具體而言,我們采用多實例學(xué)習(xí)框架(MIL),首先會從輸入視頻中提取不同粒度的時-空proposal作為實例,其中包括由連續(xù)幀中檢測框所組成的tube實例,以及由視頻片段組成的videolet實例。隨后,將tube實例以及videolet實例分別送入一個雙分支的網(wǎng)絡(luò),在每個網(wǎng)絡(luò)分支中,采用C3D提取特征,并采用注意力機制實現(xiàn)特征增強。最后,通過兩個分支之間的互助損失,實現(xiàn)時-空兩個維度定位的互助學(xué)習(xí)。整體算法框架如下圖所示。本文提出的方法在ST-UCF-Crime以及新提出的STRA兩個數(shù)據(jù)集上獲得了最佳的效果,VAUC分別達到了87.65%和92.88%。
DU-VAE: 從隱變量空間多樣性和不確定的角度增強變分自編碼器
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness
作為最受歡迎的生成式表征模型之一,變分自編碼器近年來已經(jīng)被應(yīng)用于各個領(lǐng)域。然而在具體實踐中,當我們使用擬合能力很強的模型作為解碼器時,變分自編碼器時常會遇到后驗坍縮(posterior collapse) 現(xiàn)象。彼時,所有樣本的隱變量后驗分布趨近于相同,模型無法學(xué)習(xí)到有效的表征。
針對于這一問題,本文首先從隱變量空間的多樣性與不確定性兩種幾何特性出發(fā),分析發(fā)現(xiàn)只需要簡單控制后驗參數(shù)的分布,就可以有效地避免后延坍縮現(xiàn)象。并以此為理論依據(jù)提出,通過對于后驗參數(shù)同時使用批處理標準化(Batch Normalization)與Dropout正則化,實現(xiàn)對于后驗參數(shù)的控制。在三個公開數(shù)據(jù)集上的數(shù)值試驗表明,該算法有效地提升了變分自編碼器的性能,在數(shù)據(jù)擬合與分類任務(wù)中都取得了最好的效果。
關(guān)于神經(jīng)網(wǎng)絡(luò)泛化、記憶與頻譜偏好的再思考
Rethink the Connections among Generalization, Memorization, and the Spectral Bias of DNNs
本文從頻譜偏好 (spectral bias)入手研究神經(jīng)網(wǎng)絡(luò)的泛化性、記憶性的關(guān)系。近來的研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中往往呈現(xiàn)出泛化誤差二次下降的現(xiàn)象,即在優(yōu)化過程中其泛化誤差呈現(xiàn)出“下降-上升-再次下降”的變化趨勢。而這顯然與以往對頻譜偏好的單調(diào)性結(jié)論(神經(jīng)網(wǎng)絡(luò)從低頻到高頻、從簡單到復(fù)雜地引入頻率分量)相矛盾。
我們在泛化誤差二次下降的實驗設(shè)置下(引入部分標簽噪聲并且訓(xùn)練較多的回合數(shù))對神經(jīng)網(wǎng)絡(luò)輸出的頻譜進行了統(tǒng)計。實驗現(xiàn)象如下圖,在前兩個過程中高頻分量被不斷引入到神經(jīng)網(wǎng)絡(luò)的輸出,表明模型的復(fù)雜度不斷增加。然而通過進一步訓(xùn)練,模型的高頻分量在第三個階段由上升轉(zhuǎn)為下降,使得模型的泛化誤差再次開始下降。我們進一步發(fā)現(xiàn),頻譜的非單調(diào)變化是兩種情況的組合:訓(xùn)練流形上的輸出持續(xù)地引入高頻分量來擬合噪聲點,而非訓(xùn)練流形的輸出頻譜逐漸趨向于低頻分量。訓(xùn)練流形上的準確率在記憶噪聲點后開始下降,但是非訓(xùn)練流形的準確率卻在相同階段持續(xù)提升。這兩種頻譜現(xiàn)象的疊加效果最終揭示了泛化誤差的二次下降。
不確定性感知二值神經(jīng)網(wǎng)絡(luò)
Uncertainty-aware Binary Neural Networks
二值神經(jīng)網(wǎng)絡(luò)(BNN)是一種很有前途的機器學(xué)習(xí)解決方案,用于在資源有限的設(shè)備上部署。最近訓(xùn)練BNN的方法已經(jīng)產(chǎn)生了令人印象深刻的結(jié)果,但是最小化全精確網(wǎng)絡(luò)的精度下降仍然是一個目前面臨的挑戰(zhàn)。其中一個原因是,傳統(tǒng)的BNN忽略了權(quán)值接近于零所引起的不確定性,導(dǎo)致了學(xué)習(xí)時的不穩(wěn)定性或頻繁翻轉(zhuǎn)。
本文研究了接近零的權(quán)重消失的內(nèi)在不確定性,這使得訓(xùn)練容易受到不穩(wěn)定性的影響;同時引入了一種不確定性感知的BNN (UaBNN),利用一種新的映射函數(shù)確定符號(c-sign)來減少這些權(quán)值的不確定性。本文介紹的c-符號函數(shù)是第一個訓(xùn)練具有降低不確定性的BNN進行二值化的函數(shù)。該方法導(dǎo)致了神經(jīng)網(wǎng)絡(luò)的受控學(xué)習(xí)過程;同時還介紹了一種簡單而有效的基于高斯函數(shù)的不確定度測量方法。大量實驗表明,該方法改進了多種BNN方法,提高了訓(xùn)練的穩(wěn)定性,取得了比現(xiàn)有技術(shù)更高的性能。
瘧疾控制的樣本高效強本學(xué)習(xí)方法
Data-Efficient Reinforcement Learning for Malaria Control
成本敏感任務(wù)下的序列決策通常都令人望而生畏,尤其是對人們?nèi)粘I钣兄卮笥绊懙膯栴},例如瘧疾控制、治療建議。政策制定者面臨的主要挑戰(zhàn)是需要在與復(fù)雜環(huán)境只做幾次互動的前提下,作出正確的策略。本工作引入了一種實用的、數(shù)據(jù)高效的策略學(xué)習(xí)方法,名為方差鼓勵的蒙特卡洛樹搜索方法,它可以應(yīng)對數(shù)據(jù)量極少的情況,并且只需幾次試驗就可以學(xué)習(xí)到控制策略。具體來說,解決方案采用了基于模型的強化學(xué)習(xí)方法。為了避免模型偏差,我們應(yīng)用高斯過程回歸來顯示建模狀態(tài)的轉(zhuǎn)換(稱為世界模型)。基于這個世界模型,我們提出了通過估計的方差來衡量世界的不確定性。并在蒙特卡洛樹搜索中將估計的方差作為額外的獎勵,使得探索方法能更好的平衡探索和利用。此外,我們推導(dǎo)了方法的樣本復(fù)雜度,結(jié)果表明方差鼓勵的蒙特卡洛樹搜索方法是樣本高效的。最后,在KDD CUP的強化學(xué)習(xí)比賽中本方法出色的表現(xiàn)和大量的實驗結(jié)果證實了其在具有挑戰(zhàn)性的瘧疾控制任務(wù)中明顯優(yōu)于SOTA。
基于模式擴展的對抗策略學(xué)習(xí)網(wǎng)絡(luò)在序列推薦中的應(yīng)用
Pattern-enhanced Contrastive Policy Learning Network for Sequential Recommendation
本論文跟北京郵電大學(xué)、武漢大學(xué)多位教授合作,關(guān)注的是序列推薦場景中對用戶歷史序列的去噪問題。由于用戶行為的隨機性和多樣性,用戶的歷史記錄中并不是所有的商品都對預(yù)測下一次的行為有幫助。大多數(shù)序列推薦方法都無法抽取出與目標商品存在可信賴的序列依賴關(guān)系,模型的可解釋性也受到了很大的限制。我們希望從歷史購物序列中挑選出對預(yù)測具有真正影響力的相關(guān)商品,去除序列中不相關(guān)的商品,從而提升序列推薦效果。如何在無標注的情況下,自動挖掘出與推薦結(jié)果相匹配的時序模式,提高推薦的可解釋性和準確性,是本文最大的挑戰(zhàn)。基于以上幾點考慮,我們把序列去噪問題形式化為一個馬爾可夫決策過程,將挖掘出來的序列模式用以增強每個商品的表達,作為指導(dǎo)去噪過程的一種先驗知識。然后采用一種強化學(xué)習(xí)的策略模塊,來判定用戶購物序列中的商品與目標商品之間的關(guān)聯(lián)性,從而將相關(guān)和不相關(guān)的商品區(qū)分開,并通過一個對比學(xué)習(xí)模塊來加強模型的學(xué)習(xí)進程。實驗結(jié)果表明,我們提出的方法可以有效地提取出相關(guān)商品并提升推薦效果。
基于語義共享模型的有監(jiān)督跨模態(tài)檢索
Rethinking Label-Wise Cross-Modal Retrieval from A Semantic Sharing Perspective
有監(jiān)督跨模態(tài)檢索是當前多模態(tài)領(lǐng)域的研究熱點,旨在利用一種模態(tài)的樣本去檢索其他模態(tài)相似語義的樣本。由于不同模態(tài)特征表示的差異性(異構(gòu)鴻溝),跨模態(tài)檢索需要為不同模態(tài)學(xué)習(xí)語義一致的特征表示。傳統(tǒng)方法通常使用真實標簽和一致性損失來約束模態(tài)內(nèi)和模態(tài)間的特征表示,但忽略了一致性損失對于各模態(tài)分類性能的影響。
本文重新思考了一致性損失對有監(jiān)督跨模態(tài)檢索的影響,發(fā)現(xiàn)由于不同模態(tài)的嵌入模型具有不同的泛化性能,使用一致性損失的端到端聯(lián)合學(xué)習(xí)會導(dǎo)致各模態(tài)的分類性能下降,進而影響跨模態(tài)語義一致特征表示的學(xué)習(xí)。為此,本文提出一種基于語義共享分類模型的有監(jiān)督跨模態(tài)檢索方法,該模型直接采用基于自注意力的共享分類模型,并對兩個模態(tài)進行迭代訓(xùn)練,保證各模態(tài)在共享模型上的分類性能,進而學(xué)習(xí)語義一致的特征表示,以此提升各模態(tài)的檢索性能。實驗表明,在圖像-文字跨模態(tài)檢索的標簽任務(wù)上,所提方法在NDCG指標下取得了比現(xiàn)有技術(shù)更高的檢索性能。
百度ISIT 2021論文
亂序稀疏信號恢復(fù)的理論分析和實際算法
Sparse Recovery with Shuffled Labels: Statistical Limits and Practical Estimators
我們首次考慮了在亂序情況下恢復(fù)稀疏信號。相較之前的工作 (需要觀測數(shù)量n大于二倍的信號長度p),我們的工作首次考慮了n小于p的情況。假設(shè)稀疏信號只有
個非零元素,我們的目標是同時恢復(fù)排列關(guān)系和稀疏信號的支撐集兩個信息。這個工作主要有三方面的貢獻:
1)首次得到了正確恢復(fù)上述兩個信息說需要的最少觀測數(shù)量n和最低信噪比SNR。值得注意的是,我們對上述SNR的最低要求給出了一個基于香農(nóng)編碼理論的非常直觀的解釋。大致思路是將觀測關(guān)系建模成一個通信過程(如下圖所示),基于香農(nóng)的理論,正確的解碼需要碼率小于信道容量,借此我們可以得到關(guān)于SNR的最低要求。
2)提出了一個基于遍歷搜索的估計方法,并證明只要滿足上述的最低要求,就可以得到正確的信息(在某些情況下)。
3)提出了一個實用的算法,并證明了在某些情況下我們的算法在第一步就能得到正確的信息。鑒于遍歷搜索的算法有很大的時間復(fù)雜度,我們提出了一個相繼更新支撐集和排列矩陣的迭代算法。
這方面的研究在數(shù)據(jù)庫和數(shù)據(jù)隱私方面擁有非常廣泛的應(yīng)用。百度在該領(lǐng)域已經(jīng)積累了不少世界領(lǐng)先的成果,包括:
? IEEE Trans Information Theory 2021, The Benefits of Diversity: Permutation Recovery in Unlabeled Sensing from Multiple Measurement Vectors
? ICML 2020, Optimal Estimator for Unlabeled Linear Regression
? JMLR 2020, Two-stage approach to multivariate linear regression with sparsely mismatched data
? ISIT 2019, Permutation recovery from multiple measurement vectors in unlabeled sensing
? UAI 2019, A sparse representation-based approach to linear regression with partially shuffled labels
針對一類帶正則項的優(yōu)化問題的基于矩陣縮略的快速優(yōu)化算法
FROS: Fast Regularized Optimization by Sketching
本文提出了一種用矩陣縮略(sketching)的方式加速優(yōu)化的通用方法。矩陣縮略是隨機優(yōu)化領(lǐng)域的重要方法,其主旨是通過矩陣縮略將原優(yōu)化問題的數(shù)據(jù)矩陣進行壓縮,從而得到一個較小規(guī)模的新優(yōu)化問題。通過解小規(guī)模的新問題,矩陣縮略方法可以得到原優(yōu)化問題的近似解。隨機優(yōu)化領(lǐng)域里已經(jīng)充分研究了在凸優(yōu)化問題上矩陣縮略的結(jié)果。然而,目前的方法局限在凸優(yōu)化上,對于目標函數(shù)里有非凸正則項的情況,矩陣縮略的效果仍然是一個公開性問題。本文提出了針對非凸正則項的矩陣縮略方法,在理論上證明了矩陣縮略對于帶非凸正則項的優(yōu)化問題仍然可以有效地近似原問題的解。基于這個理論結(jié)果,本文進一步提出了一種迭代式的優(yōu)化方法,在每一步迭代中都用矩陣縮略方法來逼近原問題的解。通過迭代使用矩陣縮略 (圖(a)) ,近似解可以以幾何級數(shù)逼近原問題的解(圖(b)) 。
Sketching和數(shù)據(jù)壓縮是一個學(xué)術(shù)界和工業(yè)界都非常熱門的課題,百度的研究員,從2005年(加入百度前)就開始從事這方面的研究,曾獲得KDD和NIPS的最佳論文獎,和Communications of the ACM 的受邀曝光論文。近年來,百度在這方面的論文包括:
? AAAI 2019, Sign-Full Random Projection
? NeurIPS 2019, Random Projections with Asymmetric Quantization
? NeurIPS 2019, Generalization Error Analysis of Quantized Compressive Learning
? NeurIPS 2019, Re-randomized Densification for One Permutation Hashing and Bin-wise Consistent Weighted Sampling
? IEEE Trans Information Theory 2018, On the Trade-Off Between Bit Depth and Number of Samples for a Basic Approach to Structured Signal Recovery From b-Bit Quantized Linear Measurements
? KDD 2018, R2SDH: Robust Rotated Supervised Discrete Hashing
? NIPS 2017, Simple strategies for recovering inner products from coarsely quantized random projections
? WWW 2017, Theory of the GMM Kernel
使用兩個時間尺度的隨機 EM 算法
Two-Timescale Stochastic EM Algorithms
期望最大化 (EM) 算法是學(xué)習(xí)潛變量模型的流行方法。在本文中,我們基于隨機更新的兩階段方法提出了一類稱為雙時間尺度EM方法的通用算法,來解決潛變量模型中很困難的非凸優(yōu)化任務(wù)。我們通過在兩個噪聲源上調(diào)用該方法每個階段的方差減少優(yōu)點來激發(fā)雙動態(tài)的選擇,增量更新的索引采樣和MC近似。我們?yōu)榉峭鼓繕撕瘮?shù)建立有限時間和全局收斂邊界。文中還介紹了在各種模型上的數(shù)值應(yīng)用,例如用于圖像分析的可變形模板或高斯混合模型,來說明我們的發(fā)現(xiàn)。
量子相干性提純和隨機數(shù)提取的有限元分析
Finite Block Length Analysis on Quantum Coherence Distillation and Incoherent Randomness Extraction
量子計算被認為是下一代計算科技的核心,其強大的計算能力來源于量子比特所特有的相干性或疊加性。由于外界環(huán)境會干擾量子比特,如何長時間維持或者提高/提純一個量子比特的相干性是一個急于解決的問題。理論上,研究者們對多個弱相干量子比特轉(zhuǎn)化到少量強相干量子比特進行了大量研究,并且重點關(guān)注前后量子比特的轉(zhuǎn)化率。之前的研究在各種情形下對此轉(zhuǎn)化率進行了一階估計,但實際使用時非常粗糙。
本文通過引入一個量子隨機數(shù)提取的新模型,并建立此模型和量子相干性提純的一一對應(yīng)關(guān)系,首次獲得了相干比特轉(zhuǎn)化率的精確的二階估計,極大地強化了已有的結(jié)果。本文在推進量子相干性研究的同時,也證明了相干性和隨機性準確的對應(yīng)關(guān)系,揭示了兩種不同量子屬性的共同本質(zhì)。
量子信道反饋輔助信道容量的上界
Upper Bound on the Classical Capacity of A Quantum Channel Assisted by Classical Feedback
量子通信是量子科技的核心,量子信道用于傳輸經(jīng)典信息的能力是量子信息研究的中心課題。不同于經(jīng)典信息論,量子信息論中的信道容量問題至今還沒有完全解決,如何確定量子信道的信道容量是非常關(guān)鍵但又充滿挑戰(zhàn)的問題。
本文通過引入兩方量子信道的信息度量的方法,首次給出了量子信道反饋輔助信道容量的系統(tǒng)分析。該文中建立的量子信道容量的上界可以通過半正定規(guī)劃進行高效計算,可直接用于估計量子信道在反饋輔助的情況下能無錯誤傳送的最大信息率。值得一提的是,本文作者之一是著名的解決大數(shù)分解問題量子算法的提出者——Peter Shor教授。