原標題:谷歌與Mozilla競賽,瘋狂收集人類語音數據

編者按:想要製造完美的語音助手,首先你得有足夠大的語音資料庫。谷歌與Mozilla都對此有清晰的認識,他們正在展開一場競賽,收集世界各地不同語言、不同口音人們的語音片段。本文編譯自FastCompany原題為「Google, Mozilla, And The Race To Make Voice Data For Everyone」的文章。

谷歌與Mozilla競賽,瘋狂收集人類語音數據

語音控制助手Siri、Alexa、Cortana、谷歌Home有多好,實際上是由驅動設備的數據決定的。訓練程式,讓它理解使用者所說的話,需要許多許多真實世界的樣本,也就是人類說話的樣本。

正因如此,在競爭中老牌語音識別技術公司佔據優勢,因為它們積累了大量樣本語音數據,可以用來訓練演算法。創業公司也想參與競爭,它們必須購買屬於自己的語音和音頻文件,可能是從現有檔案中提取,比如從TED Talk實錄中轉化過來的300小時語料庫。

卡耐基梅隆大學研究教授Alexander Rudnicky說,開發者要進入語音資料,這些資料長達幾百或者幾千小時。

上周四,谷歌開放一個眾包全球語音記錄資料庫。裡面有65000段1秒音頻,包括全球各地使用者所說的簡單語音命令,比如是的、不是的、停止、前進等等。就在幾周前,開發火狐瀏覽器的Mozilla也推出一個新項目,名叫Common Voice。它們的目標是構建一個免費使用的眾包語音樣本資料庫,樣本來自全球各地,人們所說的樣本辭彙和句子多種多樣。

谷歌的記錄是AIY人工智慧項目的一部分,這個項目相當於DIY人工智慧項目,有了它製作者用機器學習做實驗會變得更容易。軟體工程師Pete Warden在聲明中介紹說:「我們創造數據的基礎架構已經開放,希望能有更多的社區用它製作自己的數據,為那些服務不足的語言和應用創建數據。」

語音數據的容量超過1GB,谷歌收集了許多語音數據訓練AI系統,本次開發的數據只是其中的很小一部分。谷歌還曾開放自動目錄助手服務,它是谷歌收集人類語音數據的一種主要方法。

亞馬遜Alexa將使用者的查詢聲音上傳到伺服器,然後用數據對工具深入訓練。蘋果讓Siri學習新語言和方言,它招募講話者閱讀特定文本短文,當服務將語音轉化為文本時,蘋果讓人翻譯音頻段落。微軟在全球設立模擬部門收集音頻段落,用來訓練Cortana數字助手。

所有這些都是悄悄進行的,學術專家、研究人員、競爭對手拿不到數據。正因如此Mozilla才會決定推出Common Voice項目。

Mozilla新興技術高級副總裁Sean White說:「根據這些系統開發時,我們發現在演算法領域我們可以站在其它人的工作成果之上開發,拿出自己的演算法創新成果,然而管理數據、生成數據、聚合數據卻是一大挑戰。如果你想開發新的語音識別系統,想找到可以使用的高質量數據是一件很難的事。」

Common Voice邀請每一個人加入,只要能上網、有麥克風就可以閱讀特定句子,將簡短的語音記錄提交上去,所有一切只需要在Web瀏覽器上點擊幾下、觸擊幾下就能完成。谷歌的項目大體也是這樣運行的,只是Common Voice要求大家提交完整的句子錄音,而谷歌只要求提交特定單詞或者數字,這些單詞和數字在命令中經常使用。句子有的是貢獻者提交的對話短語,還有引文,比如電影中出現的話語。Mozilla要求參與者提供一些基本統計資訊,比如年齡、性別、所說英語的類型。

在最開始的57天里項目收集了30.7萬段記錄,每段語音長3-5秒。Mozilla開放創新團隊首席策略師Michael Henretty說,記錄加在一起相當於340-510小時的語音,

Michael Henretty說:「時長已經超過TED演講,它是現有最大的開源資料庫之一。」

今年晚些時候,Mozilla的目標是推出一個資料庫,希望到時裡面有10000小時的音頻,按照公司的估計,如果數據的數量達到這樣的水平,就可以訓練高質量現代系統。谷歌剛剛開放的資料庫只有18小時記錄,Mozilla的數據多得多。

Rachael Tatman是谷歌數據科學平台Kaggle的一名數據準備分析師,今年她發表一篇論文,介紹了性別、方言對YouTube自動添加字幕的影響。她發現如果說話的是女人或者是來自蘇格蘭的人,字幕精準度會降低,使用的訓練數據不同,不同系統犯的錯也不同。

Tatman說:「如果我聽到許多語音,這些語音是弗吉尼亞女人說的,那麼我會很熟悉弗尼吉亞女人的聲音,至於加州男人說的話精準度就會差一些。」

現有開源資料庫都有自己的偏見,例如,有一個資料庫叫作Swithboard會話資料庫,它是德儀收集的,現在已經歸賓夕法尼亞大學Data Consortium所有,這個資料庫對美國中西部的語音存在偏見。在人工智慧的其它領域,偏見數據也是一個問題,一些演算法識別白人的臉很精準,如果非洲裔美國人在Twitter上用英文發消息,它們卻難以理解;科技企業和開源項目對此很擔心,它們希望服務多樣化。

Mozilla還會邀請使用者對提交的樣本進行驗證,他們要傾聽樣本,確保記錄正確。

Tatman說,流行語音助手服務開發商大多沒有開放內部記錄並非全是因為競爭。有許多詢問包含了個人資訊,比如網際網路搜索記錄,發送的文本資訊,它可能會泄露使用者隱私。個體語音是有特點的,根據語音可以確定個體的身份。

儘管如此,企業願意在內部使用數據:蘋果之前曾說過,它會保留Siri數據,保留之時會將身份資訊剔除,比如ID號碼、郵件地址,保留時間最多2年,用來改進演算法。

Tatman說:「你的語音是可以識別的,它是身份資訊。」

Mozilla也在採取措施保護使用者隱私,它收集開源語音數據。Mozilla說:「我們花了很大的精力將使用者與記錄分離,確保裡面沒有個人身份資訊。」

Mozilla資料庫相比現有公共記錄(比如TED演講內容)有一個優勢:數據是在使用者真正使用語音識別軟體的環境下記錄的,和Siri、Alexa設備的聲音樣本相似。

Rudnicky說:「從根本上講,他們用瀏覽器收集數據,也就是說他們收集的數據會有不同的特點,這些特點能夠代表目標使用者,告訴我們他們是怎樣的。我坐在辦公室,拿起特殊麥克風,它可能是用於桌面環境的麥克風,以及類似的東西。」

在刻意的安排下,揚聲器、口音多種多樣,數據集的規模符合預期,這樣一來收集的記錄會比現有音頻數據更實用,甚至可以與大公司自己使用的數據相提並論。

Henretty說:「我們正在努力編織一張儘可能大的網。」

原文鏈接:https://www.fastcompany.com/40449278/google-mozilla-and-the-race-to-make-voice-data-for-everyone

編譯組出品。編輯:郝鵬程