強化學習是一種機器學習的方法,它通過讓智能體(Agent)與環境交互,從而學習如何選擇最優的行動來最大化累積的獎勵。強化學習在許多領域都有廣泛的應用,例如游戲、機器人、自動駕駛等。強化學習也可以用于干預人類的行為,幫助人類實現他們的長期目標,例如戒煙、減肥、健身等。這些任務通常是摩擦性的,也就是說,它們需要人類付出長期的努力,而不是立即獲得滿足。在這些任務中,人類往往表現出有限的理性,也就是說他們的行為并不總是符合他們的最佳利益,而是受到一些認知偏差、情緒影響、環境干擾等因素的影響。因此,如何用強化學習干預人類的有限理性,使其在摩擦性的任務中表現更好,是一個具有重要意義和挑戰性的問題。
為了解決這個問題,一篇最近發表在AAMAS2024會議上的論文《Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks》提出了一種行為模型強化學習(BMRL)的框架,用于讓人工智能干預人類在摩擦性任務中的行為。該論文的作者是來自哈佛大學、劍橋大學和密歇根大學的五位研究人員,他們分別是Eura Nofshin、Siddharth Swaroop、Weiwei Pan、Susan Murphy和Finale Doshi-Velez。他們的研究受到了Simons Foundation、National Science Foundation、National Institute of Biomedical Imaging and Bioengineering等機構的資助。他們的論文的主要貢獻有以下幾點:
1)他們提出了一種新的Agent模型,稱為鏈世界(ChAInWorld),用于描述Agent在摩擦性任務中的行為。鏈世界是一種簡單的馬爾可夫決策過程(MDP)模型,其中Agent可以選擇執行或跳過任務,從而增加或減少他們達到目標的概率。人工智能可以通過改變Agent的折扣因子或獎勵來影響人類的決策。鏈世界的優點是它可以快速地對人類進行個性化,也可以解釋人類的行為背后的原因。
2)他們引入了一種基于BMRL的Agent模型之間的等價性的概念,用于判斷不同的Agent模型是否會導致相同的人工智能干預策略。他們證明了鏈世界是一類更復雜的人類MDP的等價模型,只要它們導致相同的三窗口人工智能策略,即由無效窗口、干預窗口和無需干預窗口組成的策略。他們還給出了一些與鏈世界等價的更復雜的人類MDP的例子,例如單調鏈世界、進展世界和多鏈世界,這些模型可以捕捉一些與人類行為相關的有意義的特征。
3)他們通過實驗分析了鏈世界的魯棒性,即當真實的Agent模型與鏈世界不完全匹配或不等價時,人工智能使用鏈世界進行干預的性能如何。他們發現鏈世界是一種有效且魯棒的Agent模型,可以用于設計人工智能干預策略,在大多數情況下,它可以達到或接近最佳的性能,即使在一些極端的情況下,它也可以保持一定的水平。
我們將對這篇論文的主要內容進行更詳細的解讀和分析,從而幫助您更好地理解和評價這項研究的質量和意義。
首先,我們來看看什么是行為模型強化學習(BMRL)的框架,以及為什么它是一種適合用于干預人類行為的方法。BMRL是一種基于模型的強化學習的方法,它假設人工智能可以觀察到人類的狀態、行動和獎勵,從而建立一個Agent的MDP模型。Agent的MDP模型由一組狀態、一組行動、一個轉移函數、一個獎勵函數和一個折扣因子組成。Agent的目標是通過選擇最優的行動來最大化他們的期望累積獎勵。然而Agent的MDP模型可能存在一些問題,導致Agent的行為與他們的目標不一致,例如:
人類的折扣因子可能過低,導致人類過于看重短期的獎勵,而忽視長期的后果。例如,一個想要戒煙的人可能會因為一時的癮而放棄他的計劃。
人類的獎勵函數可能存在一些摩擦,導致人類執行任務的成本過高,而收益過低。例如,一個想要減肥的人可能會因為運動的痛苦而不愿意堅持他的計劃。
人類的轉移函數可能存在一些不確定性,導致人類執行任務的結果難以預測,而風險過高。例如,一個想要學習一門新語言的人可能會因為學習的難度而不敢嘗試他的計劃。
圖1:BMRL概述,人類代理與環境交互,如標準RL中所示。人工智能主體的行為會影響人類主體。人工智能環境由人工智能主體+環境構成。
在這些情況下,人工智能可以通過干預人類的MDP模型的參數,來改變人類的行為,使其更接近他們的目標。例如,人工智能可以通過以下方式來干預人類的行為。
一是通過提供一些正向的反饋或獎勵,來提高人類的折扣因子,從而增強人類對長期目標的關注。例如,人工智能可以通過發送一些鼓勵的信息或提供一些小禮物,來激勵一個想要戒煙的人堅持他的計劃。
二是通過提供一些便利的工具或服務,來降低人類執行任務的成本,從而增加人類的收益。例如,人工智能可以通過提供一些個性化的運動計劃或設備,來幫助一個想要減肥的人堅持他的計劃。
三是通過提供一些有用的信息或建議,來降低人類執行任務的不確定性,從而減少人類的風險。例如,人工智能可以通過提供一些有效的學~~~
接下來,我們來看看什么是鏈世界(ChainWorld),以及為什么它是一種簡單而有效的人類模型。鏈世界是一種由作者提出的人類MDP模型,它可以用來描述人類在摩擦性任務中的行為。
圖2:鏈世界的圖形表示。
鏈世界的基本結構如下:
鏈世界由