TechRoomage

這台對世界好奇的機器,竟然還玩起了超級馬里奧?

0 1

原標題:這台對世界好奇的機器,竟然還玩起了超級馬里奧?

十年前我們就能讓機器人完成那些可以被完美建模的任務了,那些機器人完美地運轉在工廠的車間里,完成一個特定的操作。但真正的人工智慧需要在一個無法被建模的情境中,走出去,學會獨自探索需要完成什麼任務。這就是「好奇心」,是通向強人工智慧的必經之路。

來源 | WIRED

作者 | ERIC NYQUIST 編譯 | Nurhachu Null,Rik R,邱陸陸

你也許不記得自己第一次玩超級馬里奧兄弟時的感受了,但是讓我們試著回想這個 8-bit 的遊戲世界閃亮登場:淡藍色的天空,有紋路的石頭地面,一個矮胖的、紅色著裝的小人靜靜站在那裡。他面朝右邊:你將他朝右推動。走幾步之後便會有一排磚頭在頭頂盤旋,上面盤旋著一堆「憤怒的蘑菇」。遊戲手柄的另一個按鍵能夠讓那個小人兒跳起來,他的四個像素大的拳頭指向天空。然後呢?或許是把「向右」和「跳躍」動作結合起來。好了,驚喜不驚喜:他會用自己的頭部撞擊懸浮在空中的磚塊,磚塊會像裝了彈簧一樣迅速向上彎曲並且彈回,把小人兒彈向正在靠近的蘑菇的身上,將其迅速壓平。馬里奧輕輕地從被征服的蘑菇身上跳開。然後出現一個帶有問號的棕色的對話框,似乎在問,「現在呢?」

對於 20 世紀 80 年代長大的人來說,這個場景特別熟悉,但你可以在 Pulkit Agrawal 的YouTube 頻道上看到更年輕的玩家。加利福尼亞大學伯克利分校的電腦科學研究員Agrawal 正在研究天生的好奇心如何讓學習完成一個不熟悉的任務的過程更有效率——就像你第一次玩超級馬里奧兄弟一樣。重點是,Agrawal 的影片中的新手玩家不是人類,甚至是沒有生命的。它就像馬里奧一樣,僅僅是一個軟體。但是這個軟體配備了 Agrawal 和他在伯克利人工智慧研究實驗室(BAIR)的其他同事 Deepak Pathak, Alexei A. Efros 和Trevor Darrell 一起開發的實驗性機器學習演算法。這個演算法有一個讓人驚嘆的目標:讓機器具有好奇心。

這台對世界好奇的機器,竟然還玩起了超級馬里奧?

Agrawal 說,「你可以把好奇心想象成是智能體內部自動生成的一種獎勵,有了好奇心之後它們可以更進一步的探索這個世界」。這個內部生成的獎勵信號在認知心理學中被稱為「內在激勵」。這種感覺你或許在讀我寫的遊戲描述時有間接的體會——就是一種想要看看視野之外有什麼的慾望,或者想要走出你的能力範圍,去看一下到底會發生什麼——這就是內在激勵。

人類也會響應源於外界環境的外在激勵。這類例子包括你從工作中獲得的薪水、你必須在特定時點完成的需求等。電腦科學家利用一種類似的,被稱為「強化學習」的方法來訓練他們的演算法:軟體程式在按照被期望的方式執行任務的時候會得到「分數」,然而在以不被期望的方式執行的時候會受到懲罰。

但是這種胡蘿蔔加大棒的方法對機器學習而言是有局限性的,並且人工智慧研究者開始將內在激勵視為能夠高效靈活學習的軟體智能體的一項重要組成部分,也就是說,它們不太像脆弱的機器,而是更像人類和動物一樣。在人工智慧中使用內在激勵的方法受啟發於心理學和神經生物學幾——以及那些有數十年歷史的原始人工智慧研究,現在重新變得有用了起來。(「機器學習領域裡無新鮮事。」 OpenAI 研究員 Rein Houthooft 如是說。)

這種智能體現在已經可以被訓練用於影片遊戲中,但是開發「具有好奇心」的人工智慧的吸引力超越任何現有工作。伯克利人工智慧實驗室的聯合主管 Darrell 說,「你列舉一個你最喜歡的應用領域,我會給出一個例子」。「在家裡,我們希望自動化地清理房間、收拾東西。在物流領域,我們希望貨物能被自動化地搬運、完成各種操作。我們希望汽車能夠在複雜的環境中自動駕駛,我們希望救援機器人能夠在建築里搜救需要幫助的人。在所有這些例子中,我們都在嘗試解決這個非常棘手的問題:你如何創造一台能夠自己想明白要完成什麼的任務機器?」

「打分」問題

強化學習是讓 Google的 AlphaGo 軟體得以在圍棋中戰勝人類玩家的利器。在此之前,圍棋作為一款古老的直覺遊戲,向來被認為是機器無法企及的。如何在特定的領域成功使用強化學習的細節是很複雜的,但是通用的思想是簡單的:給演算法或者「智能體」一個獎勵函數,一個用數學方法定義的信號來追尋並最大化。然後把它自由地置於一個環境中,可以是任何的虛擬世界或者現實世界。隨著智能體在環境中運行,能夠增加獎勵函數的值的動作會被強化。只要有足夠多的重複——如果說電腦在某一件事上百分百勝過人類,那就是重複——智能體就會學會這個動作的模式或者策略,以最大化它的激勵函數。理想情況下,這些策略會導致智能體達到期望的最終狀態(例如在圍棋遊戲中獲勝),在這個過程中程式員或者工程師不必在智能體進化的每一步都手動編碼。

換句話說,一個獎勵函數就是能夠讓配備了強化學習演算法的智能體能夠鎖定目標的指導系統。目標定義得越是清晰,智能體就運行得越好——這就是為什麼目前很多智能體都是在較老的影片遊戲上做測試的原因,因為這些遊戲都有基於分數的明確獎勵制度。(遊戲的塊狀的、二維的圖像也是研究者選擇它們的理由:因為遊戲相對比較容易模仿,研究者可以快速地運行並測試他們的實驗。)

這台對世界好奇的機器,竟然還玩起了超級馬里奧?

加州伯克利的電腦科學家Pulkit Agrawal

Agrawal 說,「然而現實世界中並沒有分數」。電腦科學家希望讓他們創造的智能體去探索一個不是預載入了可量化對象的世界。

此外,如果環境沒有快速並且有規則地提供顯式的激勵,那麼智能體「就沒有一個用來判斷它是否做得正確的準則」,Houthooft 說。就像熱引導的導彈不能鎖定目標一樣,「它沒有任何自己通過環境引導自己的方法,所以只能亂飛」。

最後,即使是煞費苦心定義的激勵函數能夠指導智能體表現出不同凡響的智能行為——就像 AlphaGo 打敗頂級人類玩家一樣——這種激勵函數也不可能在未經大量修訂的情況下遷移到任何其他情境中。並且,這種修改必須是人工完成的,確切地說這就是機器學習首先應該幫助人類完成的事。

除了像導彈一樣能夠可靠地命中目標的偽人工智慧體之外,我們真正想要從人工智慧獲得的更像是一種內部引導能力。「你是可以自己給自己創造激勵的對吧?」Agrawal 說,「並不存在一個天天指導你做這件事要『加1』或者『減1』的神」。

好奇心作為協同引導力

Deepak Pathak 從未嘗試過給「好奇心」這麼虛無縹緲的概念建模。「『好奇心』一詞指的是『引導一個智能體在存在雜訊的環境中有效地探索的模型』」。隸屬於伯克利 Darrell的實驗室研究員 Pathak 如是說。

但是在 2106 年,Pathak 著迷於強化學習中的稀疏獎勵問題。含有強化學習技術的深度學習軟體最近在玩分數驅動的雅達利遊戲(比如太空入侵者和打磚塊)中獲得了顯著的進步。但是在像超級馬里奧兄弟一樣的稍微複雜的遊戲就超出人工智慧的能力範圍了。因為在這些複雜的場景需要在時間和空間上朝著一個遙遠的目標前進,而且沒有一個明確的獎勵,更不用說學習並成功地執行遊戲中的組合動作(例如在奔跑中同時跳躍)。

Pathak、Agrawal、Darrell 以及 Efros 這群研究員給他們的智能體配備了他們稱之為內在好奇模塊(ICM),這個模塊被設計用來讓遊戲向前推進而不至於發生混亂。畢竟這個智能體並沒有關於如何玩超級馬里奧兄弟的先驗知識——事實上,它並不像一個新手玩家,更像一個新生的嬰兒。

這台對世界好奇的機器,竟然還玩起了超級馬里奧?

加州大學伯克利分校電腦科學家 Deepak Pathak

事實上,Agrawal 和 Pathak 的靈感來自於 Alison Gopnik 和 Laura Schulz 兩人的工作,他們分別是伯克利和麻省理工學院的發展心理學家,其研究表明嬰兒和幼兒天生就喜歡與那些最讓他們吃驚的對象,而不是那些最適用於完成某種外在目標的對象一起玩耍。「對兒童的這種好奇心的一個『解釋』是,他們建立了一個對於已知世界的模型,然後進行實驗以了解更多未知的部分,」 Agrawal 說。這些「實驗」可以是任何能夠產生令智能體(在這裡指嬰兒)感到不尋常或意外的結果的過程。孩子可能剛開始會通過隨意擺動四肢而產生新的感覺(這一過程被稱為「motor babbling」,牙牙學語),然後發展出更協調的行為,比如咀嚼玩具或敲擊一堆積木,來觀察會發生什麼。

在 Agrawal 和 Pathak 所構建的這個以驚訝感來驅動好奇心的機器學習演算法中,人工智慧第一次從數學的角度表示出超級馬里奧兄弟當前影片幀的樣子。然後,它會預測該遊戲在隨後幾個幀的樣子,這一技術已經在深度學習系統的現有能力之內了。然而 Pathak 和 Agrawal 的 ICM 走得更遠。它可以生產一個由此預測模型的錯誤率來定義的內在獎勵信號。錯誤率越高,即驚訝程度越大,其內部獎勵函數的值就越大。換句話說,如果驚訝感等同於認識到有些事沒有按照預期發生——即意識到犯錯了——那麼 Pathak 和 Agrawal 的系統就會得到驚訝所帶來的獎勵。

這種內部生成的信號在遊戲中將智能體吸引到未被開發的狀態:通俗地說,它對自己所未知的東西感到好奇。隨著智能體的學習——隨著其預測模型的錯誤率越來越低——來自 ICM 的獎勵信號將減少,從而鼓勵智能體去探索其它更令人驚訝的情況。「這是一個加快探索過程的辦法,」Pathak 說。

這種反饋循環還允許人工智慧快速地將自我從幾乎一無所知的無知狀態中引導出來。剛開始,智能體會對遊戲人物所能表現出的任何基本動作產生好奇:按右鍵會將馬里奧往右推,然後停下;連續按右鍵會將馬里奧一直往右推;按上鍵使他彈到空中,然後又落下;按下鍵沒有效果。這種模擬的「牙牙學語」過程很快就能收斂到一些有用的動作,從而讓智能體繼續後面的遊戲,即使該智能體對這一遊戲毫無了解。

例如,由於按下鍵總是沒有任何反應,從而智能體很快學會了完美地預測該動作的效果,這種預測準確度的提升讓與下鍵相關聯的由好奇心提供的獎勵信號變弱。然而按上鍵則有各種不可預知的效果:有時馬里奧是筆直上升,有時是弧線上升;有時短跳,有時長跳;有時他再也不會從上方下來(比如他碰巧在障礙物上著陸)。所有這些結果在智能體的預測模型中都被記錄為錯誤,從而帶來 ICM 的獎勵信號,這會使得主體不斷地嘗試該操作。向右移(幾乎總是揭示更多遊戲世界)也有類似的好奇吸引效應。繼續向前和向右的衝動可以清楚地在 Agrawal 的演示影片里看到:幾秒鐘內,人工智慧控制的馬里奧開始像一個多動症兒童那樣向右跳,帶來更多不可預知的影響(比如撞上一塊盤旋的磚,或不小心壓扁一隻蘑菇),所有這些都會驅動進一步的探索行為。

「通過使用這種好奇心,智能體能夠學習去做所有探索世界所需要做的事情,比如跳和殺死敵人,」Agrawal 解釋說,「它甚至不會因為掉血而受到懲罰。但它會學習去避免掉血,因為不死就意味著能夠最大限度地去探索。它在自我強化,而不是從該遊戲中得到強化。」

避免獵奇陷阱

自上世紀 90 年代初起,人工好奇心便是人工智慧領域的一個研究課題。好奇心軟體化的一個方式在於「獵奇」:智能體被設計去探索其周遭環境的陌生狀態。這個寬泛的定義似乎捕捉到了對於好奇感體驗的一個直覺性理解,但實際上,它可以使智能體陷入到雖然滿足了設定的激勵條件卻阻止它們進行深入探索的狀態。

例如,想象一台不斷展示靜態畫面的電視。這樣的東西很快就會吸引一個純粹尋求新奇事物的智能體的好奇心,因為一系列隨機閃爍的視覺噪音是完全無法進行預測的。由於每一種靜態模式對於智能體來說都是全新的,因此其內部獎賞功能將確保它永遠不會停止關注這個單一、無用的環境特性,並且它會陷入困境。

事實證明,這種毫無意義的新奇在豐富多彩的環境中無處不在,無論虛擬環境還是現實環境。因而人工智慧必須學會去應對它,這樣才能有真正的價值。例如,一輛配備了尋求新奇的內部獎勵功能的自動駕駛汽車可能永遠都無法駛出所在街區。「比如你正在行駛,街上有風兒吹著、樹葉搖著,」Agrawal 說,「而你沒法預測每一片葉子的走向。如果你預測的是像素,那麼這些交互將導致你有很高的預測誤差,並使你變得非常好奇。我們想要避免這種情況的發生。」

Agrawal 和 Pathak 不得不想出一個辦法來讓智能體的好奇心保持在一個合適的程度。預測像素——也即使用深度學習和電腦視覺來建立智能體在同一時間與完整空間內的視野——使得潛在干擾的過濾過程變得困難。計算方面的花費也很貴。

這台對世界好奇的機器,竟然還玩起了超級馬里奧?

伯克利人工智慧研究實驗室聯合主任 Trevor Darrell

因此,伯克利的研究人員對其馬里奧玩家智能體進行了設計,將其視覺輸入從原始像素轉換成一種經過抽象的現實。這種抽象只包含有可能影響智能體(或受智能體影響)的環境特性。從本質上說,如果該智能體不能與某物進行交互,那麼它一開始就不會被感知到。

使用這種剝離開來的「特徵空間(feature space)」(相比於未經處理的「像素空間(pixel space)」),不僅簡化了智能體的學習過程,也巧妙地避開了獵奇陷阱。「例如,智能體無法從建模預測頭頂上的雲的動態中獲得任何好處。」Darrell 解釋說,「所以當它好奇時,它不會去關注云。先前版本的好奇心,至少有一些是這樣,只考慮了像素級別的預測。這沒什麼問題,直到你突然經歷一件非常不可預測但又非常無聊的事情。」

人工好奇心的局限性

Darrell 承認這種好奇心模型並不完美。他說:「該系統會學習哪些事物是相關的,但不能保證總能得到正確結果。」事實上,在達到系統自身的最佳水準(也即局部最優)之前,這個智能體只能玩到超級馬里奧兄弟第一關的一半。「該智能體需要彌合的能力缺口還很大,即以極其特殊的順序來執行 15 或 16 個連續的動作,」Agrawal 說道,「因為它每次都跳不過那道溝,所以它每次都會死在那裡。然後它學會了完美地預測該結果,然後就不會對後面的遊戲產生任何好奇。」(在為智能體的辯護時,Agrawal 指出,這個缺陷是因為人工智慧只能在離散的時間間隔內按壓控制方向的模擬按鈕,這使得某些動作無法被實現。)

最終,人工好奇心的問題在於,即使是在內在好奇研究領域浸淫多年的研究人員,也仍然不能準確定義出什麼是好奇心。明尼蘇達大學計算的感知與行為實驗室主任兼神經科學家 Paul Schrater 說,伯克利的模型是在「讓一個智能體在短期內自動學習一個新環境這一方面最聰明的辦法」,但他認為這與「好奇心的直覺性概念」關係不大,卻與肌肉的學習與控制聯繫得更為緊密。他說:「它的控制對象是在認知層面以下,更多在身體的行為細節方面。」

對 Schrater 來說,伯克利團隊的新思路是將其內在的好奇心模塊附著在智能體上,該智能體將超級馬里奧兄弟當做一個特徵空間而不是像素幀序列。他認為這種方法大致可以近似於人類大腦「提取與特定任務相關的視覺特徵」的方式。

好奇心還要求智能體至少能一定程度上在虛擬的或者物理的環境中具象化以產生實際意義,法國國家資訊與自動化研究所(Inria)研究總監 Pierre Yves Oudeyer 說。Inria 位於法國波爾多市。Oudeyer 十多年來一直在創建好奇心的計算模型。他指出,世界如此之大而豐富,處處蘊藏驚喜。但這還不夠。「如果你有一個無形智能體,利用好奇心來探索一個巨大的特徵空間,那麼其行為看起來會像隨機探索,因為它沒有對其行動的任何約束,」Oudeyer 說道,「例如,對身體的約束可以簡化世界,可以幫助智能體集中注意力並指導其探索行為。」

但並非所有有形智能體都需要內在激勵,正如工業機器人的歷史所昭示的那樣。對於指令較為簡單的任務,比如讓機器人沿著地面黃線在各個地點間運送貨物,為這個過程添加好奇心就屬於機器學習的矯枉過正。

「你可以給智能體一個完美的獎勵功能——也就是它需要事先知道的一切,」Darrell 解釋說,「10 年前我們就能解決這個問題。但是如果你把機器人放在一個無法預先建模的情境中,比如災難搜索與救援,那麼它就必須走出去,學習獨自探索。這不僅僅是映射——它必須在環境中學習自身行為的影響。你肯定想讓一個智能體在學習如何完成工作時產生好奇心。」

人工智慧往往被通俗地定義為「任何電腦還做不到的事情」。如果內在激勵和人工好奇心能讓智能體找出人類所未知的能夠實現自動化的任務,那麼「我很確定這就是我們想要讓任何人工智慧都具備的能力,」OpenAI 研究員 Houthooft 說,「困難在於如何調試好奇心。」雖然 Agrawal 和 Pathak 的馬里奧玩家智能體可能無法獨自通過第一關,但這可能是調試(人工或者天然的)好奇心的方式:一步一個腳印,循序漸進。

Leave A Reply

Your email address will not be published.