TechRoomage

【AlphaGo十年研究回顧】DeepMind首席科學家解讀ICML經典論文(視頻)

0 1

原標題:【AlphaGo十年研究回顧】DeepMind首席科學家解讀ICML經典論文(影片)

【AlphaGo十年研究回顧】DeepMind首席科學家解讀ICML經典論文(影片)

來源:谷歌博客

作者:Anna Ukhanova

編譯:劉小芹

【新智元導讀】ICML 2017 Test-of-Time 獎 Sylvain Gelly(現在是蘇黎世谷歌大腦團隊的研究員)和 David Silver(現在是DeepMind AlphaGo團隊首席研究員)2007年的工作:Combining Online and Offline Knowledge in UCT,提出將離線學習或在線創建的知識納入搜索演算法以增加其有效性的新方法。這一方法促成了AlphaGo的成功。谷歌研究博客發表文章回顧AlphaGo 十年研究經歷,並對這篇經典論文進行解讀。

人們不是每天都有機會停下來思考以前的工作如何幫助了當前的成功,如何影響了其他的進步,以及在今天的背景下如何解釋它們。這就是 ICML Test-of-Time 獎項設置的目的。今年這一獎項頒發給了 Sylvain Gelly(現在是蘇黎世谷歌大腦團隊的研究員)和 David Silver(現在是DeepMind AlphaGo團隊首席研究員)2007年的工作:Combining Online and Offline Knowledge in UCT。這篇文章提出將離線學習或在線創建的知識納入搜索演算法以增加其有效性的新方法。

圍棋是一種古老的中國棋盤遊戲,知名度極高,全球有數一百萬計的棋手。自從「深藍」(Deep Blue)在90年代末在國際象棋遊戲中取得成功以來,圍棋被認為是機器學習和遊戲的下一個benchmark。確實,圍棋具有簡單的規則,能夠很有效地被模擬,以及其進展可以被客觀地測量。但是,由於圍棋中可能的走法(moves)的搜索空間非常大,使一個ML系統下好圍棋非常具有挑戰性。在過去兩年中,DeepMind 的 AlphaGo 已經突破機器學習在遊戲中的可能性的局限,為了成功地擊敗世界上最好的一些棋手,帶來了許多創新和技術進步。

在 AlphaGo 取得成功的10多年前,在國際象棋中取得成功的經典樹搜索(tree search)技術是電腦圍棋程式的主要方法,但是這樣的圍棋程式只能達到人類玩家的弱業餘水平。感謝蒙特卡羅樹搜索——基於對遊戲中一個位置的可能結果進行抽樣,並利用這些模擬的結果逐步改進搜索樹的一種新型搜索演算法——電腦能夠更深入地搜索遊戲。這是很重要的一點,因為它使得程式可以納入更少的人類知識,在程式中包含人類知識是一項很難正確地做到的任務。實際上,人類專家無法表達或沒有想到的任何缺失的知識(missing knowledge)都可能對電腦評估遊戲的位置時犯錯誤,最後導致滿盤皆輸。

2007年,Sylvain 和 David 通過探索將兩種類型的知識結合來增強蒙特卡羅樹搜索技術:(i)在線(online),下一步的決策取決於當前的位置,走下一步時使用當前的計算資源,(ii)離線(offline),學習過程完全發生在遊戲開始之前,並被概括為一個可應用於遊戲中所有可能位置的模型(儘管在學習過程中並未看到所有可能的位置) 。這些方法最終做成了MoGo程式,其表現比以前的圍棋演算法有所提高。

對於online部分,他們調整了一些簡單的想法,即某些動作不一定相互依賴。例如,假如你預定去度假,酒店、航班和租車等的選擇顯然取決於你的目的地。但是,一旦決定了目的地,這些東西就(大部分)可以獨立進行。圍棋可以應用同樣的想法,即可以將某些動作部分獨立地估算出來,以獲得儘管不精確,但非常快速的估計。當然,當時間允許時,也會分析確切的依賴關係。

對於離線知識(offline knowledge)的併入,他們探索了使用強化學習使電腦自己和自己對弈,探索學習一個位置值的近似(approximation of the position value)的影響,並在樹搜索演算法中加上這些知識。他們還研究了如何以類似的方式使用基於人類知識的專業棋譜。這種離線知識有兩點幫助:首先,它有助於將程式集中在像在離線中學習到的好的下法;第二,當程式試圖估計給定的位置值時,它有助於模擬更逼真的遊戲。

這些改進在圍棋的一種較小版本(9×9)的遊戲中取得了很好的成果,甚至在一場展示比賽中打敗了一名職業玩家,並且在完整的圍棋比賽(19×19)中也達到了業餘水平中的更高水平。2007年以來,我們已經看到許多來自世界各地的研究的快速進步(幾乎每個月都有),這些研究使得圍棋演算法的進步達到高潮的是 AlphaGo(其本身也進行了許多創新)。

最重要的是,這些演算法和技術不僅局限於在遊戲中應用,還可以在許多領域中帶來進步。David和Sylvain在10年前合作的研究所做的貢獻,對於機器學習的許多進步來說都是非常重要的,它有助於我們每天的生活。這是他們當之無愧的獎項,我們向這兩位作者表達衷心的祝賀。

原文:https://research.googleblog.com/2017/09/seminal-ideas-from-2007.html

Leave A Reply

Your email address will not be published.