原標題:她如何用一個申不到經費、被稱作學校之恥的項目,革新了整個研究領域、掀起了如今的AI浪潮?

本文由微信公眾號「科研圈」(ID:keyanquan)授權轉載

轉載請先聯繫[email protected]

她如何用一個申不到經費、被稱作學校之恥的項目,革新了整個研究領域、掀起了如今的AI浪潮?

斯坦福大學副教授、谷歌雲(Google cloud)首席科學家李飛飛 圖片來源:stanford.edu

畢業於普林斯頓大學的華裔女科學家李飛飛,在不被看好的情況下,帶領團隊創健了名為 ImageNet 的數據集和人工智慧挑戰賽。ImageNet 大賽不但帶動了人工智慧(AI)的高速發展,更為Google、facebook 等企業培養了一眾優秀的 AI 專家,重新定義了人們研究人工智慧的思考方式,推動了如今如火如荼的人工智慧浪潮。

撰文 Dave Gershgorn

翻譯 許黎珊

審校 魏瀟

2006 年,李飛飛開始醞釀一個大膽的想法。

當時,她還是伊利諾伊大學香檳分校的一名剛剛上任的電腦科學(computer science)教授,她發現自己在學術界和人工智慧行業的同事正在苦心鑽研同一件事情:無論數據如何,只要演算法越高效,決策就會越準確。

但是,李飛飛清楚地意識到這種做法的局限性——如果數據不能反映真實世界的情況,即使用最好的演算法也不會得出理想的結果。

她的解決辦法是——建造一個更加真實的資料庫。

「我們決定要干一件史無前例的事情,」李飛飛談到最初跟她一起創建數據集的夥伴們時說道:「我們要把整個世界的物體一一映射到數據集中。」

李飛飛團隊把他們的成果命名為 ImageNet,並在 2009 年發表論文中將其公之於眾。這個數據集當時還籍籍無名,它的宣傳海報貼在邁阿密海灘的某個會議中心的小角落裡,無人問津。但是,沒過多久,ImageNet 就迅速發展成一項年度競賽,這項比賽通過識別數據集中的物體,選出識別錯誤率最低的演算法為優勝者。許多人認為正是這一比賽推動了如今如火如荼的人工智慧浪潮。

參與 ImageNet 挑戰賽的團隊遍布科技領域的各個角落:在 2010 年舉辦的第一場挑戰賽的優勝者曾經出任百度、谷歌和華為等公司的高層領導;馬修 · 澤勒(Matthew Zeiler)在 2013 年 ImageNet 挑戰賽上贏得冠軍,他在優勝演算法的基礎上創辦 Clarifai 公司,目前獲得高達 4000 萬美元的風險投資;2014 年,谷歌與兩位牛津大學的研究人員共同贏得比賽冠軍,隨後,谷歌很快招募這兩位獲獎者加入它最近收購的 DeepMind 實驗室。

目前,李飛飛身兼谷歌雲(Google Cloud)首席科學家、斯坦福大學教授和斯坦福大學人工智慧實驗室主任等多重身份。

今年 7 月 26 日,她最後一次在電腦視覺與模式識別會議(Computer Vision and Pattern Recognition, CVPR)上對 ImageNet 挑戰賽進行回顧與總結—— 2017 年是該競賽舉辦的最後一年。短短 8 年時間,冠軍演算法識別物體的準確率從 71.8 %上升到現在的 97.3 %,精確度已經遠遠超過人類。這無疑證明了訓練數據越龐大,越有助於演算法做出更好的決策。

儘管挑戰賽結束了,但是它在行業中造成的影響依舊沒有褪去。自 2009 年以來,電腦視覺技術、神經語言處理和語音識別等人工智慧的分支領域誕生了數十個新的研究數據集。

「在 ImageNet 的影響下,固有的思維模式開始發生轉變——當人們的重心都放在如何做出更好的演算法模型的時候,我們轉而研究如何改善數據。」李飛飛說道,「數據重新定義了我們對模型的思考方式。」

ImageNet 的誕生

在 20 世紀 80 年代末,普林斯頓大學的心理學家喬治 · 米勒(George Miller)開展了一項名為 WordNet 的項目,旨在建立英語的層級結構模型。WorldNet 類似於某種詞典,只是其中的單詞並不按照字母 A-Z 的順序排列,而是根據一個單詞與其他單詞的關係來排序,這種語言組織方式是基於機器可讀的邏輯。例如,在 WordNet 裡面,dog(狗)放在 canine(犬科)目錄下,canine 又放在 mammal(哺乳動物)目錄下,以此類推,形成多重層級結構。它所彙集的索引單詞數量超過 15.5 萬個。

她如何用一個申不到經費、被稱作學校之恥的項目,革新了整個研究領域、掀起了如今的AI浪潮?

基於 WorldNet 的 ImageNet 層級結構 來源:ImageNet

李飛飛剛剛擔任伊利諾伊大學香檳分校教授的時候,一直致力於解決機器學習中一個關鍵問題:過度擬合和過度泛化。過擬合指一個演算法模型過分擬合訓練樣本,只能識別與之前的樣本相似的對象,也就是說,它無法處理除訓練數據以外的其他數據,而過度泛化指一個演算法模型在訓練後無法準確地分類數據。

李飛飛表示,當時,要找到解決擬合和泛化問題的演算法似乎只是妄想,因為以前的數據集沒有體現世界的多樣性——哪怕是識別圖像上的貓,對當時的演算法而言也太過複雜,難以實現。但是,訓練演算法時使用更多反映物體多樣性的數據可以有效優化演算法,這在數學意義上是成立的。例如,如果你只看過 5 張貓咪的圖片,那你得到的數據只有 5 個拍攝角度、5 種光線明暗程度或者 5 個品種的貓。但是,如果你看過 500 張貓咪的圖片,那你就有更多的樣本來確定不同貓咪之間的共同點。

李飛飛開始研究其他人是如何較好地歸納、分類並用數據表示世界上的物體。在尋找的過程中,她注意到了 WordNet 。

李飛飛在仔細研讀過 WordNet 的分類方法後,從中受到啟發。2006 年,她訪問普林斯頓,與一直從事 WordNet 研究的教授克里斯蒂安 · 菲爾鮑姆(Christiane Fellbaum)見面。菲爾鮑姆表示,在 WordNet 中,每一個單詞都可以和一張圖片相關聯,但是圖片主要是為了提供解釋單詞意思的參考,而不是用來構建電腦視覺的數據集。在那次會面後不久,李飛飛設想一個更宏大的想法——建立一個規模龐大的數據集,其中包含了每一個單詞的圖像實例。

申請不到經費的項目

幾個月之後,李飛飛到她的母校普林斯頓大學任職。在 2007 年年初,她啟動 ImageNet 的項目研究。最開始組建項目團隊時,她首先招募了研究員李凱教授,隨後李凱說服了博士生鄧嘉轉到李飛飛的實驗室。直到 2017 年項目結束之前,鄧嘉一直在負責協助運營 ImageNet 。

「我認為,ImageNet 顯然不同於其他人所作的研究。」鄧嘉說道,「我當時明確感覺這將會改變視覺研究領域的運作模式,但我不知道它會以怎樣的方式改變。」ImageNet 數據集既包括熊貓和教堂等實際物體,也包括愛情這樣的抽象概念。

李飛飛最初的想法是以每小時 10 美元的價格聘用本科生,手動尋找合適的圖片添加進數據集。但是,隨手一算就會發現,按本科生收集圖片的速度,要完成 ImageNet 項目大約需要 90 年。

隨後,她解散了本科生團隊,李飛飛和她的團隊重新回到了起點。他們考慮,是否可以利用電腦視覺演算法從網路中篩選圖片,他們只需負責組織和管理這些圖片?但是,經過幾個月反覆修改演算法後,得出了一個結論:這個方法依舊不可行——未來使用數據集的演算法同樣會受到製作數據集的識別演算法的影響,因為其所能達到的識別準確度不會高於製作數據集時所具備的識別能力。

人工篩選和添加圖片浪費時間,使用識別演算法又存在弊病,屋漏偏逢連夜雨,李飛飛的團隊還資金短缺:李飛飛說,雖然她多次申請資金,但是 ImageNet 項目未能獲得任何聯邦政府的撥款,甚至有人批評道:這個課題是普林斯頓之恥,這個項目的唯一優勢是,申請人是個女的。

轉機出現

最終,李飛飛在與一個研究生閑聊時突然發現項目的轉機。當時,那位研究生問李飛飛,有沒有聽說過亞馬遜旗下的「土耳其機器人(Mechanical Turk)」——它是一個眾包網路平台,「請求者」在該平台上以低廉的薪資召集世界各地的網路使用者完成各種的瑣碎工作。

「他給我看了這個網站,我可以告訴你,就在那一天,我確認 ImageNet 肯定能成功。」李飛飛說,「我們突然之間找到擴大數據集規模的方法,如果單純依靠本科生人工找圖片,我們根本沒辦法完成這個項目。」

她如何用一個申不到經費、被稱作學校之恥的項目,革新了整個研究領域、掀起了如今的AI浪潮?

亞馬遜「土耳其機器人」圖片分類的界面

使用「土耳其機器人」並不意味著一勞永逸,平台本身具有的許多問題都需要交由李飛飛的博士生鄧嘉和奧爾加 · 魯薩科夫斯基(Olga Russakovsky)來解決。例如,每張圖片需要經過多少人過目?要確認圖片顯示的是貓咪或許只需 2 個人,但是要辨別出圖片上出現的是一隻微型哈士奇可能需要經過 10 次驗證;如果參與該平台的「工作者」偷懶,試圖操縱或者欺騙系統又該如何發現錯誤?李飛飛的團隊最終針對參與者的行為開發了一批統計模型,確保數據集中只包含正確的圖片。

雖然他們通過「土耳其機器人」提供的服務收集數據,但是數據集工程浩大,歷經兩年的辛苦工作才得以完成。ImageNet 中包含 320 萬張標記過的圖片,共分成 5247 個種類,歸類到 12 個子目錄樹下,比如哺乳動物、汽車和傢具等等。

2009 年,李飛飛和他的團隊發表了關於 ImageNet 的論文,其中介紹了數據集這一構想——但他們只能低調地宣傳。李飛飛回憶道,國際電腦視覺與模式識別會議(CVPR)作為電腦視覺研究領域的頂尖會議,只允許他們發一張海報,不接受任何演講宣傳。於是,他們免費發放印有 ImageNet 牌子的鋼筆來吸引注意力。當時,人們很懷疑訓練更多的樣本就能改善演算法這樣一個簡單的道理。

鄧嘉談到了當時大家對 ImageNet 的質疑態度:「當時有人說,『如果你連一個物體都不能準確識別,為什麼還嘗試做幾千個、幾萬個物體?』」

如果數據是新時代的石油,那麼在2009年,它還只是原始的恐龍骨頭。

ImageNet 挑戰賽帶來的意外收穫

同年,在京都舉辦的一個電腦視覺大會上,與會的研究人員之一的亞歷山大 · 伯格(Alex Berg)在會場叫住李飛飛,他提議 ImageNet 挑戰賽應該不僅要求演算法判定物體是否存在,還需拓展規則,要求選手用演算法定位目標物體在圖像中的位置。李飛飛在交流之後表示:不如你加入我的團隊吧。

伯格、鄧嘉和李飛飛三人基於這些數據集一共撰寫了五篇論文,用來解釋演算法識別大規模數據的過程。其中第一篇論文成了為演算法如何識別成千上萬的圖片的比賽標準,也就是 ImageNet 挑戰賽規則的雛形。

李飛飛在第一篇論文中寫道:「我們意識到,如果要普及這個數據集,我們仍需開展進一步的研究。」

隨後,李飛飛奔赴歐洲與著名的國際電腦視覺演算法競賽(PASCAL VOC)的組委會交流,組委會表示願意同她合作聯合比賽,共同使用 ImageNet 和 PASCAL 的數據集。在當時,PASCAL 數據集具有一定影響力,但它只包含 20 個物體類別,而 ImageNet 有 1000 個類別,明顯比它更加龐大。

隨著國際電腦視覺演算法競賽在 2011 年順利開幕,到了 2012 年,該數據集迅速成為一項基準,用于衡量圖像分類演算法在識別當時最複雜的數據集時的表現。

她如何用一個申不到經費、被稱作學校之恥的項目,革新了整個研究領域、掀起了如今的AI浪潮?

ImageNet 數據集的網路截圖

但是,除了比賽成績以外,研究人員開始注意到另一個有趣的結果——參賽的演算法經過 ImageNet 數據集訓練後能更準確地識別圖像。

「我們發現用 ImageNet 訓練過的演算法可以作為其他識別任務的初始模型,這真是意外之喜,也就是說,這些原本用於圖像識別的演算法經過微調之後就能完成其他任務,」伯格說道,「這不僅是神經網路的巨大突破,還是模式識別的一大進步。」

ImageNet 引領的人工智慧浪潮

2012 年,在第三屆 ImageNet 挑戰賽上發生了一件大事——如果將如今風靡全球的人工智慧浪潮的歸功於一件大事,那麼這份榮耀應當屬於當年挑戰賽宣布冠軍成績的那一刻。

來自多倫多大學的三位挑戰者,傑弗里 · 辛頓(Geoffrey Hinton),伊利亞 · 施克斯克(Ilya Sutskever)和亞歷克斯 · 克里傑夫斯基(Alex Krizhevsky),共同創造了一個名為 AlexNet 深度卷積神經網路結構,以壓倒性的優勢一舉奪得冠軍——他們將演算法準確率提高了 10.8 個百分點,足足比第二名高了 41 %。直到今天 AlexNet 仍被用於研究。

她如何用一個申不到經費、被稱作學校之恥的項目,革新了整個研究領域、掀起了如今的AI浪潮?

隨著時間的推移,ImageNet 大賽中參賽演算法的錯誤率越來越低

對傑弗里 · 辛頓和他的兩位學生而言,ImageNet 數據集出現的時間恰到好處。自 1980 年辛頓開始研究人工神經網路以來,他一直苦於沒有良好的研究平台。與他的苦境相比,同在人工智慧領域的雅恩 · 樂昆(Yann LeCun)等人作為貝爾實驗室的研究員,將開發出來的卷積神經網路技術應用在 ATM 機的支票讀取器上。就在幾年前,顯卡製造商英偉達(Nvidia)的研究人員已經知道如何使這些神經網路模型加快數據處理,但是經過優化的演算法速度依舊無法超越其他技術。

在使用 ImageNet 數據集之前,辛頓和他的團隊已經證明其研發的神經網路可以基於更小的數據集開展筆跡識別等小型任務,但是辛頓的團隊需要更多的數據來實現神經網路在現實世界的應用。

施克斯克說道:「如果你的演算法在 ImageNet 上的表現得很好,那麼圖像識別對於你來說明顯不成問題。」

現在,卷積神經網路的應用十分廣泛,基本上任何涉及識別圖像或影片中物體的應用都採用這種神經網路——樂昆作為 Facebook 的人工智慧實驗室主任用它來進行照片分類;自動駕駛汽車用它辨別障礙物。卷積神經網路能通過在每層抽象概念上進行上千次甚至百萬次小數量級的計算,按照從底層往上層遞增的順序尋找像素之間的聯繫,以此來辨別圖片中包含什麼物體。每新輸入一個圖像,神經網路會把圖像的模式與已經分類出來的模式進行匹配。辛頓多次向他的同事表示自己團隊的研究十分重要,但是,現在他終於有證據證明神經網路計算優於其它最先進的技術。

「更令人驚奇的是,人們可以通過深度學習不斷優化神經網路技術,」施克斯克提及目前人工智慧領域最受歡迎的技術時,表示神經網路的層級結構讓它可以識別更加複雜的模式:「深度學習是改進演算法最行之有效的方法。」

2012 年,ImageNet 的比賽結果讓很多研究人員爭相複製這種深度學習技術。馬修 · 澤勒(Matthew Zeiler)曾是辛頓的學生,目前在紐約大學攻讀博士學位。他在知道 ImageNet 的比賽結果不久後,通過與多倫多大學的關係,獲得了 ImageNet 的論文和程式碼的早期訪問許可權。隨後,澤勒聯手紐約大學研究神經網路的教授羅伯 · 弗格斯(Rob Fergus),開始為 2013 年的挑戰賽研究參賽演算法。澤勒甚至在兩人組隊的前幾周,為了更加專註於比賽,辭去谷歌的實習工作。

天道酬勤,他們獲得了當年挑戰賽的冠軍。李飛飛回憶道,到 2014 年,所有獲得高分的參賽團隊都採用了深度神經網路。

「2012 年的 ImageNet 競賽的確促成了現在 AI 繁榮發展的局面,」澤勒在接受郵件採訪時說道,「在 2012 年挑戰賽開始不久前,有一些語音識別領域演算法表現出很高的準確性,但是它們與 ImageNet 在 2012 年以及之後 5 年所達到的輝煌相比,其知名度遠不如 ImageNet。」

如今,許多人認為 ImageNet 解決了諸多難題,比如在它的幫助下,圖像識別錯誤率降至低於 2 %的程度。但是,這僅僅指分類問題或者圖像識別問題的進步,並不代表演算法了解這些物體的特性——物體的來源、用途、製造者或者物體如何與周圍環境進行交互。簡單來說,演算法不能理解它識別的物體,這在語音識別中,甚至在自然語言處理中也同理。所以,目前,人工智慧領域的研究人員的下一個目標是讓演算法理解在特性環境下的物體,至於他們通過什麼途徑達成這一目標,仍舊有許多謎題有待解開。

ImageNet 的未來

雖然競賽已經落幕,但是 ImageNet 數據集造成的影響卻長久不衰——數據集經多年的更新後擁有的圖片數量已經達到 1300 萬之多。

伯格表示自己的團隊曾經在 2014 年時試圖去掉挑戰賽的某項規則,但是遭到來自谷歌和 Facebook 等公司的強烈反對,這些大公司通常偏愛中心化的基準,因為這樣一來,科技行業就可以指著一個數據說:「你看,我們做的演算法遠超這個指標,就是這麼完美。」

由於深度學習技術已經證明優化演算法需要如 ImageNet 一樣大量的數據,自 2010 年以來有許多企業和學術機構,包括谷歌,微軟、Facebook 和加拿大高等研究所等等,開始高調地宣傳他們自主研發的數據集。

數據集變得越來越高端:創業公司和風投在各種媒體平台上發帖子,寫文章宣傳自己剛推出的數據集,以及他們的演算法在 ImageNet 上的表現是多麼的好;谷歌,Facebook 和亞馬遜等網際網路公司開始利用每天出現在其平台上的出現的數以百萬的圖片、語音片段和文欄位落,推出自己的內部數據集。與此同時,每個創業公司也在努力為各自的數據集收集數據:TwentyBN 是一個專註於視訊認知的人工智慧公司,它使用「亞馬遜土耳其機器人」平台收集影像片段,要求參與者在錄像中表演的簡單手勢和動作,該公司已經面向學術界推出兩款免費使用的數據集,每個數據集包含的影片數量超過 10 萬段。

李飛飛說:「各種各樣的數據集如雨後春筍般紛紛湧現,涉足的領域從影片、語音到遊戲不一而足。」

人們往往認為資料庫免費是理所應當的事情,其實數據集的收集、整理和審查工作相當耗時。當然,公開和免費是 ImageNet 的初衷之一,也正是因為如此,它和它的數據集可以經受住長期考驗。

2016 年,谷歌發布了 Open Image 數據集,其中囊括了 900 萬張圖片,分為 6000 多種類別。最近,谷歌升級改造了數據集,標明了圖像中每個物體的位置,這也是受 2014 年 ImageNet 挑戰賽的最重要的一項規則的影響。DeepMind 實驗室在被谷歌收購之後,迅速轉變成谷歌的核心產業,最近 DeepMind 也推出自己的數據集,其中裡面包含了很多人各種各樣的動作。

「 ImageNet 對人工智慧領域的改變之一就是它讓人們開始真正意識到數據在研究中的地位,哪怕創作數據集是件吃力不討好的研究,」李飛飛說:「數據毫無疑問是優化演算法的重要一環,跟演算法本身一樣重要。」

原文鏈接:

https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/

本文由微信公眾號「科研圈」(ID:keyanquan)授權轉載。

轉載請先聯繫[email protected]

編輯:yangfz