博雯發(fā)自凹非寺

量子位報(bào)道 | 公眾號(hào) QbitAI

在煉丹過(guò)程中，為了減少訓(xùn)練所需資源，MLer有時(shí)會(huì)將大型復(fù)雜的大模型“蒸餾”為較小的模型，同時(shí)還要保證與壓縮前相當(dāng)?shù)慕Y(jié)果。

這就是知識(shí)蒸餾，一種模型壓縮/訓(xùn)練方法。

不過(guò)隨著技術(shù)發(fā)展，大家也逐漸將蒸餾的對(duì)象擴(kuò)展到了數(shù)據(jù)集上。

這不，谷歌最近就提出了兩種新的數(shù)據(jù)集蒸餾方法，在推特上引起了不小反響，熱度超過(guò)600：

數(shù)據(jù)縮至1/5000，模型準(zhǔn)確率卻翻倍，谷歌新“蒸餾法”火了

像這樣，將50000張標(biāo)注圖像的CIFAR-10數(shù)據(jù)集“蒸餾”縮小至1/5000大小，只基于10張合成數(shù)據(jù)點(diǎn)進(jìn)行訓(xùn)練，模型的準(zhǔn)確率仍可近似51%：

△上：原始數(shù)據(jù)集下：蒸餾后

而如果“蒸餾數(shù)據(jù)集”由500張圖像組成（占原數(shù)據(jù)集1%大小），其準(zhǔn)確率可以達(dá)到80%。

兩種數(shù)據(jù)集蒸餾方法分別來(lái)自于ICLR 2021和NeurIPS 2021上的兩篇論文。

通過(guò)兩階段循環(huán)進(jìn)行優(yōu)化

那么要如何才能“蒸餾”一個(gè)數(shù)據(jù)集呢？

其實(shí)，這相當(dāng)于一個(gè)兩階段的優(yōu)化過(guò)程：

“內(nèi)部循環(huán)”，用于在學(xué)習(xí)數(shù)據(jù)上訓(xùn)練模型
“外部循環(huán)”，用于優(yōu)化學(xué)習(xí)數(shù)據(jù)在自然數(shù)據(jù)上的性能

通過(guò)內(nèi)部循環(huán)可以得到一個(gè)核嶺回歸（KRR）函數(shù)，然后再外部循環(huán)中計(jì)算原始圖像標(biāo)注與核嶺回歸函數(shù)預(yù)測(cè)標(biāo)注之間的均方誤差（MSE）。

這時(shí)，谷歌提出的兩種方法就分別有了不同的處理路線：

一、標(biāo)注解釋 （LS）

這種方法直接解釋最小化KRR損失函數(shù)的支持標(biāo)注集（support labels），并為每個(gè)支持圖像生成一個(gè)獨(dú)特的密集標(biāo)注向量。

△藍(lán)：原始獨(dú)熱標(biāo)注橙：LS生成的密集標(biāo)注

二、核歸納點(diǎn) （KIP）

這種方法通過(guò)基于梯度的方法將KRR損失函數(shù)最小化，以此來(lái)優(yōu)化圖像和可能生成的數(shù)據(jù)。

以MNIST為例，下圖中的上、中、下三張圖分別為原始的MNIST數(shù)據(jù)集、固定標(biāo)注的KIP蒸餾圖像、優(yōu)化標(biāo)注的KIP蒸餾圖像。

可以看出，在于對(duì)數(shù)據(jù)集進(jìn)行蒸餾時(shí)，優(yōu)化標(biāo)注的效果最好：

對(duì)比已有的DC（Dataset Condensation）方法和DSP（Dataset Condensation with Differentiable Siamese Augmentation）方法可以看到：

如果使用每類別只有一張圖像，也就是最后只有10張圖像的蒸餾數(shù)據(jù)集，KIP方法的測(cè)試集準(zhǔn)確率整體高于DC和DSP方法。

在CIFAR-10分類任務(wù)中，LS也優(yōu)于先前的方法，KIP甚至可以達(dá)到翻倍的效果。

對(duì)此，谷歌表示：

這證明了在某些情況下，我們的縮小100倍的“蒸餾數(shù)據(jù)集”要比原始數(shù)據(jù)集更好。

兩位華人作者

整個(gè)項(xiàng)目由蕭樂(lè)超（Lechao Xiao）、Zhourong Chen、Roman Novak三人合作完成。

其中蕭樂(lè)超為L(zhǎng)S方法的論文作者之一，本科畢業(yè)于浙江大學(xué)的應(yīng)用數(shù)學(xué)系，在美國(guó)伊利諾大學(xué)厄巴納-香檳分校（UIUC）取得博士學(xué)位，現(xiàn)在是谷歌大腦團(tuán)隊(duì)的一名科學(xué)家。

他的主要研究方向是數(shù)學(xué)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。