【ITBEAR科技資訊】6月24日消息,隨著人工智能技術的迅猛發展,聊天機器人等應用已逐漸融入人們的日常生活,通過簡單的指令即可從聊天機器人(如ChatGPT)中快速獲取信息。然而,這些機器人有時會出現“幻覺”現象,即給出錯誤甚至危險的回答,引發了人們對信息可靠性的關注。
牛津大學的研究人員近期在《自然》雜志上發表了一項新研究,他們提出了一種獨特的方法來檢測大型語言模型(LLMs)中的“捏造”問題。這一問題指的是LLMs在生成回答時可能產生的錯誤或虛假信息。
據ITBEAR科技資訊了解,LLMs通過識別訓練數據中的模式來生成回答。然而,這種基于模式匹配的方法有時會導致誤解,類似于人類可能從云朵形狀中看到動物一樣,LLMs也可能“看到”并不存在的模式,進而產生“幻覺”。為了解決這一問題,牛津大學的研究人員引入了語義熵的概念。
語義熵描述了一個詞語在不同上下文中具有多種含義的情況,例如“desert”一詞既可以指沙漠,也可以表示拋棄某人。研究人員通過計算語義熵,判斷LLMs在生成回答時是否可能出現“幻覺”。這種方法不依賴于特定的監督或強化學習,能夠快速有效地檢測LLMs的可靠性。
該研究的團隊表示,他們的方法不僅能夠幫助用戶識別LLMs輸出中的潛在問題,還為那些因信息可靠性受限的LLM應用提供了新的可能性。然而,他們也強調,盡管語義熵可能成為一種有效的檢測手段,但用戶仍應對ChatGPT等聊天機器人提供的答案保持謹慎,并進行必要的核查。
牛津大學的研究為人工智能的可靠性檢測提供了新的思路。隨著技術的不斷進步,我們有望擁有更加智能、可靠的聊天機器人伙伴,但始終保持對信息的審慎態度仍然至關重要。