【ITBEAR科技資訊】5月10日消息,OpenAI正在開發一種新工具,以提高語言模型的透明度和可信度。該工具利用另一個語言模型(GPT-4)來分析其他語言模型的內部結構,為每個神經元生成自然語言解釋并評估這些解釋與實際行為的匹配程度。
據ITBEAR科技資訊了解,語言模型是一種人工智能技術,可根據給定的文本生成自然語言。OpenAI的GPT系列語言模型是目前最先進的代表之一,但存在著其行為難以理解和預測的問題。為了解決這一問題,OpenAI正在開發一種新工具,可以自動識別語言模型中哪些部分對其行為負責,并用自然語言進行解釋。
該工具的原理是利用另一個語言模型(GPT-4)來分析其他語言模型的內部結構。語言模型由許多“神經元”組成,每個神經元都可以觀察文本中的某種特定模式,并影響模型下一步的輸出。OpenAI的工具通過將文本序列輸入到被評估的模型中,并等待某個神經元頻繁地“激活”,將這些高度活躍的神經元“展示”給GPT-4,并讓GPT-4生成一個解釋,以確定解釋的準確性。
目前,研究人員已經為GPT-2中所有307,200個神經元生成了解釋,并將它們編譯成一個數據集,在GitHub上以開源形式發布。雖然像這樣的工具有望被用來改善語言模型的性能,但研究人員也承認,還有很長的路要走。該工具對大約1000個神經元的解釋很有信心,但這只是總數的一小部分。同時,也存在一些神經元的活動方式很難說清楚,甚至在五六種不同的東西上激活,但沒有明顯的模式。因此,在未來,該工具需要進一步的優化和完善。
總之,這一工具有望開辟一個有前途的途徑,以一種自動化的方式解決語言模型的可解釋性問題,讓其他人可以基于此進行研究和貢獻。希望未來能對這些模型的行為有更好的解釋。