【ITBEAR科技資訊】5月11日消息,由于人們對于AI算法的可解釋性越來越關注,OpenAI最近公布了其最新研究成果,通過讓GPT-4去試著解釋GPT-2的行為,從而一定程度上解決了AI模型的“黑盒”問題。
AI模型一直被視為“黑盒”,其內部工作方式難以被理解,這也讓許多人對于其正確性和偏見性產生了質疑。為了解決這個問題,OpenAI決定通過讓一個AI“黑盒”去解釋另一個AI“黑盒”的方式,來了解大型語言模型中神經元的行為特征,為AI算法的可解釋性提供一種新的思路。
具體來說,OpenAI讓GPT-4去解釋GPT-2的行為,首先通過給出一個GPT-2神經元的激活情況和相關文本序列,讓GPT-4生成相應的解釋;然后,再用GPT-4模擬被解釋的神經元行為,最后通過比較GPT-4模擬神經元的結果與GPT-2真實神經元的結果,評分GPT-4的解釋質量。據ITBEAR科技資訊了解,OpenAI共讓GPT-4解釋了GPT-2中的307200個神經元,其中大多數解釋的得分很低,但超過1000個神經元的解釋得分高于0.8。
OpenAI承認目前GPT-4生成的解釋仍不完美,尤其在解釋比GPT-2規模更大的模型時,效果更是不佳。但是,OpenAI認為這個研究成果意義重大,因為它為AI算法的可解釋性提供了一種新的思路,也為相關領域的研究提供了新的工具和數據集。未來,隨著ML技術的不斷發展,GPT-4的解釋能力也將不斷提高。
不過,OpenAI也指出,這個研究仍然存在許多局限性和挑戰,例如GPT-4生成的解釋總是很簡短,但神經元可能有著非常復雜的行為;當前的方法只解釋了神經元的行為,并沒有涉及下游影響;整個過程計算密集,算力消耗較大等問題。因此,在AI算法可解釋性的研究領域還需要更多的努力和探索。