圖片來源@視覺中國
文 | 追問
人類個體意識被包裹在大腦這團粉色迷人的肉球中,再經過頭蓋骨的厚厚包覆,形成一種堅硬的物理隔斷,致使人與人之間無法直接進行意識交流。這種困境似乎在某種程度上催生了群體內的語言需求。于是,我們的人類祖先在咿咿呀呀之間與同伴交換了一部分的信息。但遺憾的是,語言有時并不能完整地反映人的全部所思所想,也由此催生了人類社會的復雜性。這也激發起了人類對準確知曉同類真實意圖的興趣,即讀心。
劉慈欣在小說《三體》中曾構想出如此迷思:三體人可以通過電磁波,將真實的想法準確的傳遞給同類,是實實在在的透明思維。雖然這略顯耿直,但歷史上,人類對于能夠“讀心”的熱情向來不減。從1920年代,首次記錄到人類腦電圖信號,到近些年來腦機接口技術的突飛猛進——首次破譯了與手寫筆跡有關的大腦信號,幫助癱瘓患者用意念寫字;再到最近由ChatGPT或Stable Diffusion所觸發的生成式AI時代的到來,更使得人類神經信號解碼步入一個蓬勃發展,尤為鼓舞人心的新階段。那么,人工智能是否真的有可能解讀人類的思維?目前關于神經解碼領域又有哪些最新的進展?
北京時間2023年5月31日,天橋腦科學研究院(Tianqiao and Chrissy Chen Institute,TCCI)舉辦了“AI問腦”第二期會議,主題是“生成式AI時代,‘讀心術’會成為現實嗎?”。該會議由北京郵電大學人工智能學院副教授陳光博士主持,他同時也是AI領域的知名博主@愛可可-愛生活,來自中科院自動化所模式識別國家重點實驗室副研究員王少楠博士以及比利時天主教魯汶大學(KU LEUVEN)博士后孫靜遠博士則分享了他們對生成式AI的神經解碼的話題的精彩見解。本文通過追問形式呈現會議的上半部分精彩內容,希望能夠給讀者帶來一些啟發性的思考。
@陳光: 在腦科學領域,如何理解“讀心術”?
@孫靜遠
我更傾向于把“讀心術”稱為神經解碼(neural decoding)或腦機接口(brain machine interface),即通過一些技術手段,如功能性核磁共振(fMRI),腦磁圖(MEG)和腦電圖(EEG),來記錄人類被試在看到某些刺激時的反應。人在接觸到外界的刺激時,比如看一幅圖畫或一段視頻,為了理解這些信息,大腦內部會產生對應的神經信號活動。而這些神經信號可以被功能核磁共振、腦磁圖和腦電圖記錄下來,接著我們可以通過一些技術手段,比如建立數學模型,在信號和刺激之間構建對應的映射關系。然后通過這些映射關系,我們就可以明確,產生對應腦信號的到底是怎樣的刺激。
總結而言,“讀心術”或神經解碼的邏輯流程是我們以比較高的信噪比*的方式去采集人的大腦活動為開始的,然后有了這些神經信號記錄之后,我們再應用一些機器學習的算法,去建立模型來解析這些信號是哪些外界刺激所產生的波動。
@王少楠
“讀心術”(mind reading)嚴格來說,應該是讀腦術。即我們建立某一種技術,把人的思維轉換成可以直接被人類識別的文本或者圖像的形式。
*信噪比(Signal-to-noise ratio,縮寫為SNR或S/N)是科學和工程中所用的一種度量,用于比較所需信號的強度與背景噪聲的強度。在通信領域,這個比率通常是以對數形式表達,單位是分貝(dB)。SNR的值越高,表示信號越清晰,即背景噪聲越小。——來自GPT-3.5的注解
@陳光: 上述提到神經解碼基本的邏輯流程是神經信號采集,對采集的數據進行分析,以及將信號映射并連接到所誘發它的刺激上去。那么,生成式AI在神經解碼過程中應重點解決哪個環節的問題?
@孫靜遠
人腦接收到特定刺激,進而產生對應的反應過程,這是一個非常復雜的非線性過程。另一方面,即使健康被試大腦的解剖結構有很大程度的共性,由于我們受到的教育不同,成長環境不同,這就導致不同的人類被試在看到同樣的刺激的時候,所測量的大腦活動可能是非常不同的。被試個體間的差異以及人類將刺激轉換成對應的神經信號過程的復雜性,導致我們想要建立信號和刺激之間的映射是極具挑戰性的。在領域發展的早期,研究人員只能使用一些比較簡單的數學回歸模型來建立信號和刺激之間的關系。但是隨著近些年,人工神經網絡和機器學習的興起,我們擁有了更好更先進的計算工具。我們能夠建模比簡單的線性回歸要復雜很多的非線性的關系。總結而言,生成式AI填補了簡單線性模型所無法涵蓋的那些復雜關系。
另外,生成模型也能夠進一步地把刺激直接生成為人類感官更容易理解的東西。它不再是簡單的兩個數值之間并不直觀的映射關系,而是說我們可以通過一些預先訓練好的模型把我們感知到的刺激還原度較高地重建回來。
@王少楠
神經解碼領域目前主要有兩個瓶頸,其一是神經影像信號噪聲太大,隨著神經降采集*機器性能的提升,這方面有望逐漸被解決;而生成式模型則主要是解決了另一個問題,在噪聲這么大的情況下,相較于先前神經解碼的技術只能對文本或圖像的信號進行簡單的二分類,現在生成式的模型則可以從信號中簡單的獲取稍微有信息量的東西,去大概的猜測出真實的刺激。
*神經降采樣:是指將高頻信號的采樣率降低的過程,也就是將高頻的模擬信號數字化時,將其采樣頻率降低,從而降低數據存儲量,提高信號處理速度。——來自GPT-3.5的注解
@陳光: 也就是說之前所做的工作更多的是對離散信號的選擇和判斷;有了生成式模型之后,我們可以稱之為“創新式的逼近”。生成式模型可以不是那么準確的,但是可以在一定程度上表達我們的意象。相較于之前的解碼模型,我們在某種意義上講,它變得不精確了,但是它變得更有用了。是不是可以這么理解?@王少楠
對。可以理解為,它傳達出來的信息更被人接受了,或者表達的更像人了。之前輸出就是一個離散的0和1,或者是或不是。這樣的話,大家的使用體驗沒有那么好。現在的話,即使它在胡說八道,它也在說話。
@陳光: 從讀心術要讀的內容,即我們想要解讀的被試的想法的目標來講,之前的方法與現在的方法之間最主要的區別是什么?也就是說,現在的方法能多大程度地“讀心”?
@孫靜遠
即使是現在的方法,離讀心也還有很長的距離要走。如果現在,我給自己套一個便攜式的腦電采集器,我想從這個機器采集的信號中實時的解析出來,我下一句要講什么,就我目前對這個領域發展的理解,還是很大程度上不能實現的。限制主要在于所采集的信號的信噪比低。目前高質量的信號采集設備大多是侵入式的信號采集裝置,但是這種設備不太容易普及。另外,盡管生成式模型讓我們這個領域有了一個比較大的進步,即結果的可讀性,但是其解析出來的內容的精確性是不能完全得到保證的。比如說我看到一只狗,但是我解析出來的圖像雖然可能都是狗,但狗的毛色、品種,這些更為細節的特征可能和我實際看到的狗是不一樣的。
@王少楠
所以通俗上來說,生成式模型在神經解碼上起到的作用,就是一個語言的美化器或優化器。之前可以做到的就是我輸入一些腦電的信號或者是神經影像的信號,我們可以提供給被試一些不連續的離散的詞匯。但有了生成式模型,就仿佛套了一層外殼,就可以把這些詞匯串起來,生成人在草地上躺著,天氣非常好之類的信息。這些信息不一定準確,但是人看起來會更加的舒適。
@陳光: 我理解神經解碼可以對我們所想以及我們所感知的東西做一定程度的解碼。對于目前“讀心”要解碼的內容而言,這兩者是不是完全不一樣?
@孫靜遠
我個人理解兩者是不太一樣。如果我們想要重建的東西是人類實際感知到的刺激,如看到、聽到的東西,那么我們所要重建出來的東西是明確的。只需要讓我們的模型往目標上重建,就沒有問題。但是如果說,這個東西是被試想象出來的內容,甚至連被試本身都無法準確描述他想象的是什么。這就給我們設置了一個障礙,即模型沒有一個準確的重建目標;沒有答案作參照就沒辦法評估,這個技術就很難演進。
@王少楠
除了前面靜遠提到的實驗重建目標是否明確這樣一種區別以外,觀察圖像是一種感知(perception)行為,這是一種自發的過程。我們不需耗費太多的精力,我們生下來就會。但如果是用意念去控制一些東西的話,則是一種生產(production)的過程,這是需要被試主動地意念輸出,來控制某個東西。科學研究目前還是主要集中到感知的過程,因為這樣的話,實驗的刺激更可控一些。
@陳光: 在腦科學專業領域,模型識別的結果是如何被評價的呢?
@孫靜遠
我們目前使用的評價指標是語義分類準確率。它關注的是從內容的含義上,模型生成的東西和被試實際看到的東西是不是同一個東西。我們會使用一個已經訓練好的圖像分類器,來評估模型生成的圖像和被試真實看到的圖像是否同屬一類。另外還有一個指標是衡量模型生成的圖像和被試看到的圖像之間像素級別的重疊程度,即兩張圖像在多大程度上一樣。但是,由于fMRI信號的限制,生成模型的限制,我們目前想要做到像素級別的完全復制是非常困難的。
@王少楠
除了這些機器的評價指標以外,還有一種常見的評價方法,就是用人去評。選取大部分人都認同的結果作為金標準,來評價機器所產生的的文本或圖像的質量。
@陳光: 我們前面提到了生成式模型的諸多優點,那么其在神經解碼領域最主要的局限性又是什么?
@孫靜遠
可靠性。模型生成的內容在質量上不是完全可靠的。
@王少楠
大模型的詞表非常大,但目前我們收入的人的神經影像的詞匯量非常受限,可能最多只有幾千。但是解碼的時候需要在幾千萬個詞匯上去檢索,所以最后匹配到的結果并不是特別的好,所以現在的技術一般會在大模型的基礎上做一些限制,解碼的時候只生成與人看過的內容相關的一些詞匯。所以,目前神經影像的發展可能還沒有到達大模型的這樣豐富的程度。
結語
神經解碼的天花板在何處?未來,腦科學世界里的“讀心術”會遇上哪些機遇與挑戰?“AI問腦”第二期的會議追問下篇內容即將發布,內容更加精彩,敬請期待!