原標題:【開源之戰】在搜集人類語音數據上,谷歌與火狐展開正面交鋒

來源:Fast Company

編譯:弗格森 張易

【新智元導讀】巨頭都在爭相開源,那麼彼此之間會不會形成競爭?近日,火狐瀏覽器的所有者 Mozilla 開源了一個語音資料庫,與谷歌所做的資料庫高度類似。這篇文章比較了兩家公司資料庫的構成要素和數據搜集方法。文章認為,那些免費的音頻資源更實用,甚至比那些大公司秘而不宣的數據集更有價值。

一個語音虛擬助理,比如Siri、Alexa、Cortana或者Google Home的表現,很大程度上是由驅動其的數據決定的。要訓練這些程式來理解你正在說什麼,首先要擁有大量關於人類對話的現實案例數據。

這讓現有的語音識別公司擁有天然的優勢,因為他們已經大量地積累了對話樣本數據,能用於訓練演算法。所以,希望在這個舞台上競爭的創業公司必須擁有自己的一套語音音頻文件,也許可以從現有的文檔(如TED Talk轉錄構建的大約300小時的語料庫)獲得。

卡內基梅隆大學研究教授 Alexander Rudnicky說,開發人員通常需要訪問數百或數千小時的音頻。

谷歌從某種程度上也認可了這一說法,上周,他們發布了全球錄音的眾包數據集。這一包含了 65,000 條一秒鐘音頻剪輯的語料庫包括了來自世界各地的人們說的簡單的指令詞 :「 是的」,「不」,「停止」,「去」等等。

Mozilla是開源Firefox瀏覽器的擁有者。Mozilla最近推出了一個名為Common Voice的新項目。他們的目標是建立一個免費對外提供的,眾包的世界各地語音樣本數據集,包含各種樣本單詞和句子。

谷歌的錄音是AIY自動動手開發人工智慧項目的一部分,旨在使創客們能夠體驗機器學習。 「我們用來創建數據的基礎設施也是開源的,我們希望看到它被更廣泛的社區用來創建自己的版本,特別是覆蓋服務不足的語言和應用程式,」谷歌軟體工程師Pete Warden說。

總的來說,它不僅是超過一千兆位元組的聲音,還是谷歌收集的用於訓練自己的AI系統的語音數據總量的一小部分。該公司曾經開設了一個自動化的助理服務,事實證明,這是他們收集人類語音數據的一種方式。

亞馬遜的Alexa將使用者的語音查詢命令傳輸到伺服器,用於進一步訓練該工具。蘋果通過聘請朗讀者來閱讀特定的文本,教會Siri新的語言和方言,並讓人從伺服器上的語音到文本轉換模型上轉錄寫語音片段。據報道,微軟已經在世界各地設立了模擬公寓,以栩栩如生的環境中捕捉到的音頻片段來訓練Cortanan 數字助理。

但是,以上所有這些都是私人公司持有的,通常不對學術界、研究人員或將來的競爭對手開放。這就是為什麼Mozilla決定推出其Common Voice項目。

「當我們開始開發這些系統時,我們發現我們可以在演算法的基礎上建立其他人的作品,並在演算法方面做自己的創新工作,但是對於所有這些,數據選擇,創建和聚合是一個挑戰,「Mozilla新興技術高級副總裁肖恩·懷特(Sean White)說。 「如果你想做一個新的語音識別系統,你不能到市場上隨便就能找到一個高質量的數據集來使用。」

Common Voice 邀請所有具有網際網路連接和麥克風的人通過網頁瀏覽器上的幾次點擊來提交他們自己閱讀特定句子的簡短記錄。這與谷歌的項目工作方式類似,雖然Common Voice要求人們提交完整的句子,而谷歌只要求錄入那些通常用作命令的特定單詞和數字。

這些句子是由志願者提交的那些會話短語的混合,比如 -「她把充電器還給我了」是項目的GitHub文件中的一個,出自經典電影Charadeand It』s a Wonderful Life。 Mozilla還要求參與者提供一些基本的人口統計資訊,如年齡,性別和英語方言區(例如美國英語,加拿大英語或英語,西印度群島和百慕大)。

該項目在首次開放的大約57天內收集了大約307,000個錄音,每段約3至5秒。 Mozilla開放式創新團隊數字戰略家Michael Henretty說,這使得總音頻的播放時間達到了 340 到 520小時。

他說:「我們已經超越了TED演講,那是其中一個較大的開源數據集。

Mozilla的目標是在今年晚些時候發布一個版本的數據集,希望能在這段時間內擁有10,000小時的音頻,這個數字估計足以訓練現代的生產質量標準的系統。這遠遠超過谷歌剛剛提供的18小時的音頻剪輯資料庫。擁有大量和各種各樣的語音樣本的關鍵原因之一是使得在其上訓練的演算法避免了意想不到的偏見。因為任何一個嘗試使用語音助手的重口音的人都可以證明,這些系統在理解簡單的英語方面比別的更好。

谷歌收購的數據科學社區 Kaggle 的數據準備分析師 Rachael Tatman 在今年早些時候發表了一篇關於性別和方言如何影響 YouTube 自動化標題準確性的文章。她發現 YouTube 自動標題對於女性和蘇格蘭口音的演講不太準確,但根據訓練數據的使用情況,不同的系統可能會出現不同的錯誤模式。

「如果是我看了很多弗吉尼亞州的女性發表的演講,我也會對來自弗吉尼亞州的女性的演講聽得更準確,而對來自加利福尼亞州的男性就聽不了這麼準確。」Tatman 說。

現有的開源數據集已經被發現存有「偏見」——例如德州儀器最初收集的交換機對話數據集,現在託管在賓夕法尼亞大學語言數據聯盟。有偏見的數據在人工智慧的其他領域一直是個問題,一些演算法被認為更好地識別白人面孔,或者在理解推特上非裔美國人的英語時有困難,這對旨在為不同受眾服務的高科技公司和開源項目來說尤其是問題。

Mozilla 還邀請使用者驗證提交的樣本,驗證錄音的正確性。最近,由網站進行驗證的樣品包括來自英語世界各個地方口音的正確錄音,還配了一個聽不清的樣本,以及一段貓王的音樂。

Tatman 說,大多數語音助手背後的公司都沒有提供內部語音記錄,這並不完全是為了防止競爭。由於很多查詢都包含了個人資訊,例如網路搜索或簡訊,如果開放數據將會造成隱私泄露。通過一個人獨特的聲音就可以識別他。

不過,這些公司仍會在內部使用這些數據:蘋果公司過去曾表示,它可以保留兩年的Siri數據,以及相應的使用者標識(如抽取出的 ID 號碼和電子郵件地址),以幫助改進演算法。該公司沒有對其當前Siri音頻保留政策引發的每個評論的進行反饋。

Mozilla 也採取了措施來保護使用者隱私,因為它收集的是開源語音數據。「我們費盡心力地將使用者與相應的錄音分開,使得剪輯本身沒有嵌入個人識別資訊。」

和一些現有的公開可用語音記錄數據集(如經過標記的 TED 演講)相比,Mozilla 數據集的一個優點是,和Siri或Alexa設備的聲音樣本一樣,錄音時的環境條件與人們實際使用語音識別軟體時的環境條件相似。

Rudnicky解釋道:「他們基本上是用瀏覽器來收集數據,這意味著所收集的數據的更多地代表了目標使用者可能具有的特徵。例如,我坐在辦公室里,我用的麥克風是辦公環境下桌面使用的那種,類似這樣。」

所收集的錄音擁有各種各樣的講者及口音以及所預期規模的數據集,因而會比現有的那些免費的音頻資源更實用,甚至比那些大公司秘而不宣的數據集更有價值。「我們在儘可能地撒一張大網」,Henretty稱。