原標題:【智能音箱的理想國】突如其來的智能音箱讓它背後的技術有些猝不及防

【智能音箱的理想國】突如其來的智能音箱讓它背後的技術有些猝不及防

編者按:最近,大大小小的廠商都加入了智能音箱戰局。那麼,智能音箱是不是一門好生意,這會成為硝煙瀰漫的戰場還是歌舞昇平的烏托邦?為此,動點科技近期推出了專題 【智能音箱的理想國】,我們將從硬體、評測、市場、投資人和它背後的人工智慧、語音識別等方面進一步呈現它。作為此次專題系列文章之六,本文將從語音識別、語義識別等技術的角度帶大家和一起解讀智能音箱。

Amazon Echo 銷售的火爆帶動了一大批企業進駐智能音箱領域,包括 蘋果 、 谷歌 、以及國內的 阿里 、 小米 等在內的巨頭都希望在這個市場中分得一杯羹。

然而,智能音箱的關鍵技術點是否已經成熟?我們分開來看看:

遠場語音拾取

由於智能音箱離使用者比較遠,加上真實環境中存在大量的雜訊、多徑反射和混響,所以,與手機等近場應用相比,相同配置下智能音箱拾取聲音信號的質量會差很多,這會嚴重影響後續的語音識別率。因此,遠場語音拾取是智能音箱必須擁有的基礎能力。而目前,麥克風陣列是解決這個問題的主流方案。

麥克風陣列指應用於語音處理的按一定規則排列的多個麥克風錄音系統,具體又分為 2 麥克風陣列和多麥克風陣列。

理論上來說,麥克風越多識別效果會越好。比如,Amazon Echo 便採用 6+1 麥克風陣列,支持 360°聲源定位。而 Google Home 採用 2 麥克風陣列只能支持 180°聲源定位,定位角度的區分度也弱一些。

不過,雲知聲 IoT 副總裁陳吉勝表示,當前那些認為麥克風越多越好的看法是有待商榷的,因為麥克風越多,量產的難度也就越大,而且後續出故障的概率也越大。陳吉勝就比較推崇 Google 的 2 麥克風陣列設計,「這個方案最大的好處是結構簡單,實施落地方便。」當然,2 麥克風陣列由於結構簡單,要想達到相同的效果,對演算法的要求自然要更高。

目前,智能音箱仍舊是多麥克風陣列為主,而這就意味著,在遠場識別方面我們還有很多工作要做。

語音喚醒

智能音箱一旦開機,麥克風陣列其實始終都處於拾音狀態,但就像人與人之間的交流很多時候都需要叫對方名字一樣,智能音箱要想知道何時工作,也必須先聽見主人叫它的名字——即語言喚醒,比如蘋果的「Hey Siri」、Google 的「OK google」以及亞馬遜 echo 的「Alexa」等。而語音喚醒的目的是提示機器重點注意並識別後面所要說的話。

據了解,一般的語言識別,不論是遠場還是近場,基本都是在雲端的,這樣可以使用大模型,伺服器的高速計算等優勢獲得好的識別結果。然而語音喚醒基本是在本地設備上,因此它的要求更高,技術難點則具體體現在以下幾個方面:

a)功耗要低。由於語音喚醒意味著需要後台持續運行演算法,耗電是持續的。比如在 iPhone 6s 之前,只有在接入電源的情況下才可以通過直接喊「Hey Siri」進行語音喚醒,而 iPhone 6s 之所以能做到,也要歸功於它集成了一顆專門進行語音激活的低功耗晶元。

b)計算量要小。計算量小一方面是低功耗的要求,另一方面要是實時率的要求。系統的反應速度應該越快越好,最好是使用者話音剛落,設備就應答了,這給使用者的感受,才像是有個隨叫隨到的助手。

c)喚醒效果。理想狀況下的效果是隨叫隨到,不要漏報也不誤報,即它不能在你叫它的時候不回應,也不會在你沒叫它的時候莫名其妙地啟動。而漏報與誤報往往又是此消彼長的關係:喚醒詞越長,誤報肯定小,但同時漏報也就多了。

另外,人們對智能音箱的最終期望其實是不要有喚醒詞。目前的音箱,所有的交互都是一喚醒再一問一答,每次使用前,需要先喊一聲音箱的名字,然後再下達指令。這種交互最大的問題就是——讓人感到生分、不爽。而這就意味著對演算法的要求更高了。

語音識別

語音識別技術就是讓機器通過識別和理解的過程把語音信號轉變為相應的文本或命令的技術。語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。

語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應於語音到音節概率的計算和音節到字概率的計算。一個連續語音識別系統大致可分為四個部分:特徵提取、聲學模型訓練、語言模型訓練和解碼器。

當前,近場語音識別的準確率已經足夠高了,微軟神經網路 LACEA 在 switchboard 數據集上已經把詞錯誤率降到了 5.8%,比人類標註還要好。然而,在遠場識別方面,準確率還是有待提升的,其中重要一個原因就在於遠場環境下雜音太多,即使有麥克風陣列的助攻,效果也往往差強人意。

另外,目前語音識別主要在標準普通話方面識別得更好,雖然也有幾家語音公司推出了粵語、四川話等識別,但由於語料庫的相對缺乏,這僅僅只是少數幾家公司能做的事,而且準確率無法跟普通話相比。

需要補充的是,在中英文混雜、專業名詞混雜等情況下,目前的語音識別效果均有待提升。不過,問題的關鍵還是在於如何獲取足夠多的數據,有了數據,通過大數據訓練這些問題理論上並不是什麼大問題。

語義理解

通過語音識別將聲音轉換成文字之後,便要理解這些文字的含義,讓機器能夠準確理解使用者的意圖,即自然語言理解,這是智能音箱乃至人工智慧最核心也是最迫切需要解決的問題。

一般而言,語義理解中至關重要的便是分詞,即將一段文字按照主謂賓等形式區分開來,以便後續的理解。比如,將「結婚的和尚未結婚的」分詞為「結婚/的/和/尚未/結婚/的」。

看似簡單,但要讓機器做到這一點可不簡單,比如機器可能會將上面那段話分詞為:「結婚/的/和尚/未/結婚/的」。如何讓機器判斷兩種分詞哪種正確?

另外,由於一個詞的含義眾多,不同人說同一句話,以及同一個人在不同場合說同一句話,意思都不一樣,比如:

A:你這是什麼意思?

B:沒什麼意思,就是意思意思。

A:你這樣就沒有意思啦。

B:哪裡哪裡,這只是一點小意思。

A:呵呵,你這個人真有意思。

如何讓機器正確理解這裡的「意思」到底是什麼意思?

總的來說,在常見問題應答方面,據有關調查數據顯示,Google Home 的應答率和準確率都最高,可應答率 68.1%,準確率 90.6%,其次是 微軟的 Cortnana,這兩個公司的成功關鍵就在於 Google 以及 Bing 在搜索引擎上積累的大量數據。相比之下,蘋果 Siri、亞馬遜 Alexa 與前兩者還是有一定差距的,亞馬遜 Alexa 的準確率實際上是緊追 Google 的,為 87%,但它能回答的問題十分有限,僅 20.7%的應答率。

最後,有了這些技術,想要做出一個好的智能音箱還有兩方面需要注意,一是硬體,這對中國創業者或許並不難,但對供應鏈的把控至關重要,之前很多智能硬體都掉到這個坑裡了;另一個就是內容,據稱小米音響早在 5 月份便已經研發完成,直到最近才發布,也是因為內容的緣故。再則,如今搜狗、喜馬拉雅等內容平台均有做智能音箱,所以留給創業公司的機會不多了。

本文 【智能音箱的理想國】突如其來的智能音箱讓它背後的技術有些猝不及防 來自 動點科技.