原標題:對話思必馳副總裁雷雄國:背靠阿里由「軟」到「硬」

智東西

文 | 寓揚

智能音箱的火熱,催熟了語音技術提供商、方案商。而在智能音箱的產業鏈中,語音語義是核心的一塊,也成為語音技術公司的「兵家必爭之地」。

而思必馳就是一家面向B端市場的語音技術提供商,阿里巴巴則是其最大的投資方,背靠巨頭,發展迅速。近期智東西和思必馳副總裁雷雄國展開對話,作為一家語音技術提供商,思必馳發力哪些細分場景,在智能音箱行業扮演怎樣的角色,又為何推出DUI語音開放平台?

對話思必馳副總裁雷雄國:背靠阿里由「軟」到「硬」

一、團隊:三大場景、四個城市、研發超70%

目前,思必馳在蘇州、深圳、北京、上海建有四個團隊,員工達300多人,其中研發人員佔到70%以上。

具體而言,思必馳總部在蘇州,負責核心的底層技術、語音識別演算法的研發,DUI開放平台的研發也在蘇州;深圳方面主要負責基於語音交互的智能硬體產品化落地,將思必馳技術的SDK、DUI平台進行輸出,提供行業語音解決方案,主要包括車載、家居、機器人業務;上海團隊是公司的瞭望塔,思必馳和上海交通大學成立聯合實驗室,布局前沿技術的研發;而北京方面則是市場團隊和商務拓展團隊。

雷雄國是思必馳深圳團隊的負責人,下有車聯網和IoT(物聯網)兩個事業部,團隊規模在100人左右。其中車聯網事業部面向車機廠商將語音識別、內容和交互產品做一個融合,提供語音交互整體解決方案。而IoT事業部主要面向智能音箱、電視盒子、機器人等提供從技術到整套解決方案。其中,阿里巴巴、小米、聯想等頭部玩家都是思必馳的客戶。

對話思必馳副總裁雷雄國:背靠阿里由「軟」到「硬」

(思必馳主要深耕領域)

雷雄國談到,目前思必馳的「主戰場」沒有變,還集中在車載、家居、機器人等三個具體場景,提供語音技術及解決方案。此外,思必馳也在進行著突圍,如推出DUI開放平台,向開發者提供定製化的語音語義技能;並針對醫療、政府、客服等業務,通過資本方式孵化團隊提供解決方案。

其中,思必馳在車載市場深耕時間較久,客戶也比較多,目前在車載市場份額最大,也是核心盈利來源之一。雷雄國表示,在後裝車載市場,思必馳佔有車機語音交互60%~70%的市場份額。而在目前以科大訊飛為主的前裝市場,思必馳近期也在發力布局。

二、深耕垂直場景凸顯技術優勢

思必馳提供的核心技術主要集中在前端信號處理和語音語義兩方面。其中,前端信號處理包括麥克風陣列技術、聲源定位、回聲消除等;語音語義技術方面從思必馳2007年成立就有了深度的積累,目前集中在語音識別、語義理解、語音喚醒、語音合成、聲紋識別、人機對話等方面。

對話思必馳副總裁雷雄國:背靠阿里由「軟」到「硬」

(思必馳的語音AIOS對話操作系統)

目前語音交互平台市場火熱,從巨頭到創業公司紛紛湧入,相較於其他企業,思必馳的優勢又在哪裡?雷雄國認為,核心優勢需要聚焦到產品上,其中不同場景的聲學環境優化和內容語義理解是兩個核心的優勢。

他談到,語音交互和場景緊密相關,Siri在手機中識別的很好,但是在汽車中識別率就會大幅下降,在家裡遠場場景下也無法工作。在車載的各種環境,如高速、嘈雜市區、車窗是否打開、副駕駛有沒有人在說話等, 思必馳對聲學環境做了一系列的優化,將車載環境下的識別率大幅提升。

此外,不同場景下,使用者發出的指令可能有不同的語義,思必馳對不同場景提供深度定製的語言模型。在車載環境和家居環境中,車上主要是導航場景,網際網路電視主要是搜索場景,思必馳為不同的場景提供不同的語料模型。他解釋到,車載中「我餓了」可能是導航去飯店,而家庭中「我餓了」可能是點個外賣,這需要在語音識別的基礎上對語言模型進行深度定製。

三、看好智能音箱市場 較早入局

目前,阿里巴巴、小米、聯想等公司的智能音箱都採用了思必馳的語音技術或方案,顯示出市場對思必馳的認可。

雷雄國談到,思必馳很看好智能音箱這個市場,在2015年就開始做這個市場。在整個產業鏈中,思必馳與每個環節廠商的合作關係都很不錯,包括底層的晶元廠商、深圳大量音箱ODM廠商、內容提供商、做智能音箱的傳統客戶、網際網路客戶等等。在與大品牌合作的過程中發現,智能音箱的門檻還是比較高的,思必馳也推出軟硬一體化的解決方案,降低智能音箱玩家在語音交互上的門檻。

對話思必馳副總裁雷雄國:背靠阿里由「軟」到「硬」

(圖為天貓精靈X1中使用的思必馳六麥環形陣列)

思必馳在智能音箱相關的技術上的研發投入則布局更早。他介紹到,除了語音識別、語義理解思必馳很早就布局以外,在2012年就開始研究麥克風陣列技術。這項技術是和聯想的一個內部項目啟動的,從2012年到2015年,思必馳在不斷的積累此項技術。

僅僅是麥克風陣列這項技術,思必馳也有不小的投入,包括人力投入、數據採集投入,以及硬體生產。具體來講,在思必馳內部,有一個十幾人的團隊專門研究麥克風陣列的前端信號處理,結合思必馳的語音引擎進行優化。除了專門的研究團隊,思必馳還配備了相關的配合團隊,如數據資源採集團隊, 在2012年就開始採集嘈雜環境下的數據資源;提供產品化資源,配備軟體人員、IP開發人員、陣列硬體開發人員;此外,在產品化過程中,針對麥克風陣列核心技術出現的問題,產品研發團隊中也有人員負責陣列的評估和優化。

在麥克風陣列方面,目前思必馳提供單麥、雙麥、四麥、六麥的解決方案。其中單麥和雙麥主要應用在車載後視鏡和電視盒子上, 雷雄國表示, 經過幾年技術的積累,思必馳2015年在單麥克風遠場交互的效果上還是不錯的。

而六麥是目前思必馳性能最好、技術最全的麥克風陣列。它是在之前6+1麥早期方案的升級上產生的,通過演算法的優化,6麥就能達到甚至超過6+1麥,從而降低了麥克風陣列的成本以及賦予產品設計更大便捷。阿里推出的智能音箱天貓精靈X1就是採用的思必馳的六麥環形陣列。此外,雷雄國透露,在麥克風陣列方面也在跟如百度、騰訊等一些重量級客戶合作,陸續也會有產品推出。

目前思必馳在麥克風陣列的參考設計有兩類,一類是純採集板,另一類是基於全志R16晶元平台的完整解決方案和基於聯發科MT8516晶元平台的完整解決方案,也是思必馳目前主推的方案,成本約在200元左右。

雷國雄談到,在智能音箱的麥克風陣列方面核心有兩個,一是技術性能,二是商業模式。性能上,麥克風陣列需要一定的技術積累,而思必馳在麥克風陣列方面積累了5、6年的經驗,能夠提供穩定的性能;在商業模式上,客戶除了考慮性能還會考慮價格,因此思必馳提供單麥、雙麥、四麥、六麥等不同的解決方案。

此外,他也談到,短期內國內智能音箱的市場教育比較難,需要大公司對使用者的習慣進行教育,思必馳看好這個市場,未來也會持續投入的。目前國內智能音箱在語音交互的體驗、技術、產品上還有很大的改進空間。此外,內容版權方也會對這個行業產生較大的影響。像智能音箱的基礎功能還是聽歌,音樂內容版權方對市場的判斷,以及他們的市場策略都會影響行業的發展。

四、前進新探索:DUI開放平台

思必馳在今年7月份推出了DUI開放平台,開發者可通過其平台進行個性化技能定製。9月7日,DUI開放平台也將在北京正式發布。

對話思必馳副總裁雷雄國:背靠阿里由「軟」到「硬」

(思必馳DUI開放平台技能服務)

雷雄國介紹到,思必馳做平台已經很長時間了,2013年就推出了「對話工場」平台, 把核心技術通過平台開放給做APP的合作夥伴。在2015年推出了AIOS,把平台場景化,解決技術的實際落地問題,也取得了不錯的成績,其中後裝車載市場佔據了60%~70%的市場份額,幾個智能音箱的頭部公司使用思必馳的技術,電視盒子實際落地量超一千萬台。從對話工場到車載、家居、機器人等幾個方向的落地,這些落地反過來也推進平台的發展。

在去年年底,結合這幾年的落地經驗,思必馳打造了DUI開放平台。儘管目前越來越多的玩家推出語音交互的平台,也包括百度、騰訊等網際網路巨頭,但思必馳的視野核心還是智能硬體平台,從幾個具體場景的深耕轉向通用平台。

那更多的垂直場景如何優化服務?他給出了兩種解決方案。一方面,思必馳會將車載、智能音箱、電視機盒子、機器人等幾千萬台使用者終端連接到DUI平台, 前期做的解決方案會圍繞DUI平台繼續垂直打磨,讓客戶很方便的使用思必馳的即使積累。

另一方面思必馳DUI平台的「開放」更加包容,即和第三方技術提供商合作共同打造平台。思必馳在擅長的領域提供技術解決方案,在其他領域則和垂直行業的公司合作,比如海知智能在NLP(自然語言處理)領域作的不錯,通過深度合作,將其NLP技術作為一個技能或者產品解決方案集成在DUI平台上。

目前該平台出於內測階段,已經有幾百個開發者。開發者需要註冊並提交審核,符合智能硬體、物聯網大方向並具備足夠開發能力的開發者將會通過審核,使用平台進行定製技能。

而在盈利方面,雷雄國稱,目前思必馳會把精力集中到產品層面,把產品功能做好。

結語:走軟硬體結合的道路

雷雄國認為,語音技術公司在智能手機的落地中,由於硬體固定,只需要做好交互技術就行。而未來的物聯網時代,一方面公司核心需要考慮產品落地問題,如單單一個麥克風陣列,就需要和後端的喚醒引擎對接,技術對硬體的形態和要求、應用到不同的領域,也是很敏感的。

另外,市場需求是多樣的,需要把前端信號處理、後端喚醒、語音語義相結合,推出基於這一整套的交互解決方案,體驗才會好。

這就決定了思必馳需要從最初的一家軟體公司走向一條軟硬體結合的道路。