早在1月份,谷歌旗下專注于健康相關(guān)研究、臨床工具和醫(yī)療服務(wù)合作的分支Google Health就發(fā)布了一個(gè)在9萬(wàn)多張乳房X光照片上訓(xùn)練的人工智能模型,該公司稱其取得了比人類放射科醫(yī)生更好的效果。谷歌宣稱,與之前的工作相比,該算法可以識(shí)別出更多的假陰性,即那種看起來(lái)正常但含有乳腺癌的圖像,但一些臨床醫(yī)生、數(shù)據(jù)科學(xué)家和工程師對(duì)這一說(shuō)法表示質(zhì)疑。
在今天發(fā)表在《自然》雜志上的一篇反駁文章中,隸屬于麥吉爾大學(xué)、紐約市立大學(xué)(CUNY)、哈佛大學(xué)和斯坦福大學(xué)的超過(guò)19位共同作者表示,谷歌的研究缺乏詳細(xì)的方法和代碼,損害了其科學(xué)價(jià)值。一般來(lái)說(shuō),科學(xué)都存在可重復(fù)性問(wèn)題,2016年對(duì)1500名科學(xué)家進(jìn)行的一項(xiàng)調(diào)查報(bào)告顯示,其中70%的科學(xué)家至少嘗試過(guò)復(fù)制其他科學(xué)家的實(shí)驗(yàn),但失敗了。
在人工智能領(lǐng)域,這個(gè)問(wèn)題尤為嚴(yán)重。在2019年的ICML大會(huì)上,有30%的作者未能在會(huì)議開(kāi)始前將自己的代碼與論文一起提交。研究經(jīng)常提供基準(zhǔn)結(jié)果來(lái)代替源代碼,當(dāng)基準(zhǔn)的徹底性受到質(zhì)疑時(shí),就會(huì)出現(xiàn)問(wèn)題。最近的一份報(bào)告發(fā)現(xiàn),自然語(yǔ)言處理模型給出的60%到70%的答案都嵌入了基準(zhǔn)訓(xùn)練集的某個(gè)地方,這表明模型往往只是在記憶答案。
他們表示,谷歌的乳腺癌模型研究缺乏細(xì)節(jié),包括對(duì)模型開(kāi)發(fā)以及所使用的數(shù)據(jù)處理和訓(xùn)練管道的描述。谷歌省略了模型架構(gòu)的幾個(gè)超參數(shù)的定義,也沒(méi)有披露用于增強(qiáng)模型訓(xùn)練的數(shù)據(jù)集的變量。這可能會(huì)顯著影響其性能,Nature的共同作者聲稱,例如,谷歌使用的其中一個(gè)數(shù)據(jù)增強(qiáng)有可能導(dǎo)致同一患者的多個(gè)實(shí)例,從而使最終結(jié)果出現(xiàn)偏差。
谷歌方面表示,用于訓(xùn)練該模型的代碼對(duì)內(nèi)部工具、基礎(chǔ)設(shè)施和硬件有許多依賴性,使其發(fā)布不可行。該公司在決定不發(fā)布這兩個(gè)訓(xùn)練數(shù)據(jù)集時(shí),還提到了這兩個(gè)訓(xùn)練數(shù)據(jù)集的專有性和患者健康數(shù)據(jù)的敏感性。但Nature的共同作者指出,原始數(shù)據(jù)的共享在生物醫(yī)學(xué)文獻(xiàn)中已經(jīng)變得越來(lái)越普遍,從2000年代初的不足1%增加到現(xiàn)在的20%,而且模型預(yù)測(cè)和數(shù)據(jù)標(biāo)簽本來(lái)可以在不泄露個(gè)人信息的情況下發(fā)布。