日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

來源:IT之家

Google 母公司 Alphabet 旗下的 DeepMind,在這一個月里大動作頻出。

先是在月初推出了蛋白質(zhì)結(jié)構(gòu)預(yù)測 AI —— AlphaFold 2,這個 AI 在 CASP 競賽中拔得頭籌,解決了困擾了學(xué)界 50 年的難題:生物學(xué)家 Andrei Lupas 本人花了十年時間,用盡各種實驗方法也沒能弄清楚一種蛋白質(zhì)折疊后的形狀,但借助 AlphaFold 2 后,他在半個小時內(nèi)就得到了答案。

接著,在月底,DeepMind 在《自然》雜志上發(fā)布論文介紹「進階版 AlphaGo」—— MuZero。簡單來說,MuZero 更「通用」了,它精通國際象棋、圍棋、將棋,還能在數(shù)十款 Atari 游戲上全面超越過去的 AI 算法和人類。但更具革命意義的是,MuZero 不像它的前輩們,它在下棋和游戲前完全不知道游戲規(guī)則,完全是通過自己的試驗和摸索,洞悉棋局和游戲的規(guī)則,形成自己的決策。換句話說,AI 會自己「動腦子」了。

MuZero 就像是 Netflix 熱劇《女王的棋局》里的貝絲 · 哈蒙,在完全不知國際象棋規(guī)則的情況下,憑借幾次觀察就把棋盤「畫」在自己的心里,并通過不斷復(fù)盤棋局強化自己的直覺,最終所向披靡。

不知道規(guī)則,怎么贏棋?

2016 年,AlphaGo 橫空出世,以 4:1 擊敗韓國頂級棋手李世乭,并在 2017 年的烏鎮(zhèn)圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協(xié)會甚至當(dāng)即授予 AlphaGo 職業(yè)圍棋九段的稱號。

AlphaGo 依賴的還是 DeepMind 輸入的專家棋法數(shù)據(jù)集,然后它的繼任者 AlphaGo Zero 開始擺脫對「人類數(shù)據(jù)」的依賴,開始通過多次自我對弈積累所需數(shù)據(jù)。2018 年底問世的 AlphaZero 更是在前兩者的基礎(chǔ)上迭代,除了圍棋,它還學(xué)會了將棋和國際象棋。讓人嘆為觀止的是,從第一次見到棋盤,到成為世界級棋類大師,AlphaZero 只用了 24 小時。

「但你不能像下棋一樣,只顧著往前看。你必須學(xué)習(xí)這個世界如何運作。」DeepMind 的首席研究科學(xué)家 David Silver 告訴《連線》,按照這個思路,他們決定不提前告訴 AI 該怎么贏了,「這是我們第一次打造這種系統(tǒng)」。

上面提到的「Alpha」家族,最早需要「人類數(shù)據(jù)」、「領(lǐng)域知識」和「游戲規(guī)則」,至少也還需依賴「游戲規(guī)則」。而剛面世的 MuZero 則沒有這些知識儲備,就像是下棋被蒙著眼,玩游戲背著手。

「Alpha」家族至少也還需依賴「游戲規(guī)則」,而剛面世的 MuZero 則沒有任何知識儲備|DeepMind

既然 MuZero 連怎么贏棋都不知道,那它又是如何學(xué)習(xí)世界運作原理的呢?先以 AlphaZero 為例,由于它已經(jīng)知曉棋局的規(guī)則,所以它知道一個動作后的下一個棋步是什么樣的,運用深度學(xué)習(xí)中的「蒙特卡洛樹搜索」(MCTS)就能評估不同的下棋可能性,并從中選出最優(yōu)的動作。在這個過程中,AlphaZero 只需要利用「預(yù)測網(wǎng)絡(luò)」這一神經(jīng)網(wǎng)絡(luò)。

而 MuZero 不知道現(xiàn)有的規(guī)則,那么只能從零開始構(gòu)建一個內(nèi)部模型,形成自己對棋局的理解。

首先,MuZero 會利用「表征網(wǎng)絡(luò)」將自己觀察到的棋步收集起來,轉(zhuǎn)化為專屬于自己的知識;

接著,利用「預(yù)測網(wǎng)絡(luò)」形成策略(即最好的「下一步」是什么),判斷價值(即當(dāng)前決策「有多好」);

最后,借助「動態(tài)網(wǎng)絡(luò)」判斷「上一步有多好」,回收此前做出的最佳棋步,不斷完善自己的內(nèi)部模型。

也就是說,MuZero 并沒有具體的「行事準(zhǔn)則」,它就像是一個小孩,在有了一定思考能力的基礎(chǔ)上,正在不斷完善自己的行事準(zhǔn)則。在此之前,「AlphaGo」雖能輕松擊敗人類,但也只限于圍棋等專精領(lǐng)域,卻無法「觸類旁通」,每遇到新的游戲都需要更改框架,重新學(xué)習(xí)。而掌握了「思考方式」的 MuZero 顯然能做得更多了,也就是,更通用了。

「知道雨傘能讓人不被淋濕,比能對雨滴建模更有用。」DeepMind 用這句話表示,對 AI 來說,它們會的本領(lǐng)看起來越笨,越有實際意義。

在游戲方面,以研究 AI 打撲克出名的 FAIR 研究科學(xué)家 Noam Brown 這樣評價 MuZero:「當(dāng)前人們對游戲 AI 的主要批評是模型不能對現(xiàn)實世界中相互作用進行準(zhǔn)確建模。MuZero 優(yōu)雅而令人信服地克服了這個問題(適用于完美信息游戲)。我認(rèn)為,這是可以與 AlphaGo 和 AlphaZero 相提并論的重大突破!」

這個會思考的 AI,能做什么?

DeepMind 研究表示,MuZero 在不具備任何底層動態(tài)知識的情況下,通過結(jié)合 MCTS 和學(xué)得模型,在各種棋類種的精確規(guī)劃任務(wù)中可以匹敵 AlphaZero,甚至超過了提前得知規(guī)則的圍棋版 AlphaZero。

在實驗中,只要為 MuZero 延長每次行為的時間,它的表現(xiàn)就會變得更好。隨著將每次行動的時間從十分之一秒增加到 50 秒,MuZero 的能力會增加 1000 Elo(衡量玩家的相對技能),這基本相當(dāng)于熟練的業(yè)余玩家和最強的職業(yè)玩家之間的區(qū)別。

開始自我思考的 MuZero 就像人一樣。現(xiàn)實世界混沌、復(fù)雜,人們也沒有具體的行事手冊,只能摸著石頭過河,慢慢形成自己的規(guī)劃能力,進而制定下一步該怎么做的策略。

那么,MuZero 能做什么?

《連線》記者提到了在生化界做了件「大實事」的蛋白質(zhì)結(jié)構(gòu)預(yù)測 AI,接著問起了 MuZero 的實用價值。David Silver 表示,MuZero 已經(jīng)投入實際使用,用于尋找一種新的視頻編碼方式,從而完成視頻壓縮。考慮到大量不同的視頻格式和眾多的壓縮模式,能節(jié)省 5% 的比特已經(jīng)是極具挑戰(zhàn)的任務(wù)。「互聯(lián)網(wǎng)上的數(shù)據(jù)大部分是視頻,那么如果可以更有效地壓縮視頻,則可以節(jié)省大量資金。」由于 Google 擁有世界上最大的視頻共享平臺 YouTube,因此他們很可能將 MuZero 其應(yīng)用到該平臺上。

David Silver 對它的造物有足夠的自信|WIRED

David Silver 想得更遠,「一個真正強大的系統(tǒng),它能看到所有你看到的東西,它有和你一樣的感官,它能夠幫助你實現(xiàn)目標(biāo)。另外一個變革性的,從長遠來看,(MuZero 的『強化學(xué)習(xí)』思路)是可以提供個性化的醫(yī)療解決方案的東西。有一些隱私和倫理問題必須解決,但它會有巨大的價值,它會改變醫(yī)學(xué)的面貌和人們的生活質(zhì)量。」

目前,「Alpha 家族」這種規(guī)劃算法也已經(jīng)在物流、化學(xué)合成等諸多現(xiàn)實世界領(lǐng)域中產(chǎn)生影響。然而,這些規(guī)劃算法都依賴于環(huán)境的動態(tài)變化,如游戲規(guī)則或精確的模擬器,導(dǎo)致它們在機器人學(xué)、工業(yè)控制、智能助理等領(lǐng)域中的應(yīng)用受到限制。

而不再「循規(guī)蹈矩」的 MuZero,先摸索規(guī)則、建立內(nèi)部模型再精通的思路,顯然具有更強的可塑性。會自己思考的 AI,離通用 AI 會更近一些。

「我不想給它設(shè)定一個時間尺度,但我想說,人類能實現(xiàn)的一切,我最終認(rèn)為機器都能實現(xiàn)。大腦完成的只是一個計算過程,我不認(rèn)為那里有什么神奇的東西。」David Silver 對它的造物有足夠的自信。

如果說 AlphaGo 確立了 AI 的「圍棋霸權(quán)」,那懂得自己思考的 MuZero,可能會在更多領(lǐng)域確立「霸權(quán)」。

分享到:
標(biāo)簽:自己的 圍棋 棋局 規(guī)則 游戲規(guī)則 思考 下棋 互聯(lián)網(wǎng)
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定