TechRoomage

這家中科院創業團隊,跟雷軍學習營銷知識,給小米音箱一雙耳朵

0 4

原標題:這家中科院創業團隊,跟雷軍學習營銷知識,給小米音箱一雙耳朵

智東西 文 | 寓揚

隨著遠講語音設備的興起,人機交互變革可以說是2017年的一個火熱話題,到處都在談論著人機交互的演進以及對語音交互未來的看好。

圍繞著語音交互,晶元、麥克風陣列、遠場語音識別、語義理解、語音合成、代工廠商、平台服務、終端智能設備等相關廠商都在蓄勢待發,力求搶佔語音入口的先機。

而「喚醒萬物」的第一步需要智能設備具有一雙「耳朵」,聽清人的聲音,從而理解人的意圖。而聲智科技就是一家賦予智能設備「耳朵」的創業公司,它讓設備聽清我們的聲音,為後續的理解做好鋪墊。

近期,智東西與聲智科技創始人陳孝良圍繞遠場語音交互展開對話,看看這位來自中科院聲學所的學者式創業者,有什麼樣的創業故事,他眼中的語音交互行業又是如何?

一、來自中科院聲學所的創業團隊

陳孝良給人的感覺是健談、務實。有時拋出一個問題,他都可以圍繞公司以及行業侃侃而談,但談話的內容也很務實,沒有假大空。

他在2003年進入中科院聲學所雜訊與震動實驗室,從事工業級、國防級聲學相關研究。而在陳孝良進入聲學所之前,他則在金山做過一年軟體工程師。他聲稱在金山跟雷軍等人學習到很多營銷的知識。

(聲智科技創始人陳孝良)

在聲學所一待十餘年之後,隨著語音交互入口的到來,以及陳孝良開拓新「疆土」的決心,他在2016年4開啟創業生涯,創辦了聲智科技。

聲智團隊最初的成員來自中科院聲學所的三個實驗室:雜訊與震動實驗室、中科信利實驗室與國家網路新媒體。其中,雜訊與震動實驗室主要從事聲學相關研究,中科信利實驗室從事語音識別研究,而國家網路新媒體的主攻方向則在雲端。因此,從一開始聲智團隊就具備聲學、語音識別、雲服務三種能力。

聲智科技目前有50多名成員,其中40多人都從事技術工作。其人員構成除了聲學所外,還來自杜比實驗室、亞馬遜、谷歌等。而聲智所提供的技術也分為前端的拾音(聲學)與遠場語音識別兩塊。

而在融資方面,剛剛成立的聲智科技就拿到了峰瑞資本和360的天使投資。緊接著在去年10月份,聲智獲得1600萬元Pre—A輪融資,由洪泰基金領投,峰瑞資本跟投。此外陳孝良也透露到,聲智科技的A輪融資也在進行中,並將在今年10月份進行公布。

可見在語音交互這個大風口下,具有中科院聲學所背景的聲智團隊獲得了資本市場的青睞。陳孝良稱,融資一方面用於擴大業務和生產規模,另一方面則用於技術迭代與投資前沿聲學的研究。

陳孝良也談到國內一線的家居品牌使用的大都是聲智科技的技術方案,如小米、360、海爾等。此外,百度、騰訊、阿里巴巴、思必馳等也都是聲智科技的合作夥伴。

二、遠場拾音+遠場語音識別

如果將語音交互分為拾音喚醒、語音識別、語義理解、垂直搜索、語音合成等環節,那麼聲智科技主要做的集中在前兩塊,即前端的拾音環節和遠場語音識別上,完成獲取使用者聲音,並聽清使用者聲音,將聲音轉換成文本,再交由後端公司完成其他任務。

具體來講,聲智科技從聲學出發為客戶提供軟硬體到語音識別的遠場語音交互解決方案。它提供遠場拾音到遠場語音識別一整套技術,從而實現拾音和語音識別之間模型與演算法的匹配,讓語音識別的速度和精度更高,提供更好的前端效果。陳孝良談到,「拾音、語音識別是很難拆分的兩塊,前面怎麼處理,會直接影響後面的精度」。

(聲智科技技術產品)

他還談到,相對來說,遠場語音交互的核心問題是解決真實場景下的聲學問題,如混響、雜訊問題等,而不在於簡單的拿數據訓練一個模型。而國內公司很少有團隊專註於聲學這塊,這也恰恰是聲智科技的優勢所在。

在具體的業務上,聲智科技有兩條線。一條線是「給人聽」的,偏重於聲學方面,比如語音通話解決方案、影片會議方案。另一條線是「給機器聽」的,主要是遠場語音交互的智能設備,聲智提供前端的軟硬體解決方案,具體包括麥克風陣列模塊(PCBA)、拾音演算法、以及遠場語音識別。

在拾音環節重要的就是麥克風陣列,相比於其他家的麥克風陣列技術,聲智科技的方案能夠以場景和使用者為中心, 陣列的結構也更加開放。陳孝良提到,無論是單麥、兩麥還是多麥克風的方案聲智科技都有,但並不太關心這塊,他們以場景為核心定位,結合場景和產品去決定使用具體的方案。

比如智能音箱就比較適合用環形的麥克風陣列,筆記本適合線性的陣列,而很多家電設備則適合「L型」的陣列。另外也要考慮客戶對效果的需求以及成本,來給出最適合的方案。

而在語音識別上,聲智科技只做遠場語音識別,目前遠場識別的準確率在90%左右。而遠場語音識別最大的痛點在於環境的複雜性,如房間里的混響、雜訊等。語音識別的提高,儘管可以用自適應的方式來做,但總是有一些負面效果。這需要前端物理模型的更新,後端雲平台訓練模型的更新。

目前聲智科技的技術解決方案主要應用在智能家居、車載前裝、安防和金融場景,具體產品則有智能音箱、智能電視、消費機攝像頭、安防級攝像頭、車載設備等。這方面的客戶則有小米、360、聯想、京東、創維、海爾等。

三、工業級應用成核心盈利來源

儘管當下語音交互以及智能音箱火熱,但是市場尚未打開,銷量也沒起來,聲智科技又是如何盈利的呢?

這家中科院創業團隊,跟雷軍學習營銷知識,給小米音箱一雙耳朵

(聲智科技開發套件)

陳孝良坦言,聲智的商業模式很簡單,就是賣方案,具體而言就是賣硬體,語音識別則是免費的。在硬體方面,聲智科技出售麥克風陣列模組、PCBA電路板以及多個系列的開發套件。

儘管去年剛剛成立,聲智科技現金流已經為正。陳孝良表示,聲智去年盈利已達百萬元,而今年則在千萬量級。

但其核心的盈利場景並不在智能家居、以及消費電子領域,而是工業級應用上, 如安防攝像頭等,這塊工業級應用佔據了聲智科技盈利的八成左右。

可見,儘管智能家居是眾多企業深耕的一個場景,但是當下的智能硬體並不賺錢,公司需要依靠多元的業務結構尤其是現金牛業務來支撐企業的發展。

四、遠場拾音當下的痛點問題

在遠場拾音領域目前主要有兩個流派,一種是以科勝訊為代表的將數據處理放在前端硬體實現,但陳孝良稱這種方式會逐漸退出主流,因為硬體端的升級較為麻煩,更新周期也更長。另一種是以谷歌為代表的將技術架構都放在雲端,為了降低硬體端的計算因此選擇了兩麥。

而聲智科技則選擇了介於兩者之間的路線,考慮到前端硬體迭代成本較高,將不依賴數據處理的放在前端硬體,將依賴數據處理的置於雲端,升級的話只需要升級軟體即可。

但陳孝良也談到,消費級麥克風陣列技術剛剛開始,我們目前的技術只做到了能夠應用,但效果並不夠好。遠場拾音上面臨環境的複雜性,以及如何低成本的解決環境雜訊、人聲干擾等問題。而這需要麥克風的升級(矢量麥克風)、演算法的迭代,還有很長的路要走。

目前的麥克風陣列技術還停留在聲源定向層面,還沒有做到聲源定位,更不用提聲源追蹤。比如,你在移動中和智能設備進行溝通,由於波束形成,它會抑制主瓣之外的聲源,在背景雜訊存在的情況下,很可能無法完成交互任務,而這有賴聲學前沿技術來解決。

此外,麥克風陣列也無法做到同時與多人交互。目前的波束形成技術還是單波束聲源定向,這意味著會重點拾取某一個方向的聲源,從而抑制其他方向的聲源,因此機器無法同時與多人進行交互。而目前多波束技術還沒有做到,即便多波束做到後又會誕生更複雜的問題,比如多波束如何分辨等,這都需要聲學前沿技術的進一步突破。

五、看好電視、車載場景下的語音交互

在語音交互場景下,陳孝良談到,明年他更看好智能電視,一方面傳統電視需要升級,另一方面網際網路電視也存在海量資源與高效獲取的矛盾,語音交互是比較契合的剛需。而時間再晚一點,汽車中的車載設備也是也是一個比較看好的市場。

關於智能音箱,他認為如果把聚焦點放在「智能」上則不看好,因為很難靠智能帶起一個新品類。但是如果把關注點放在「音箱」上,這個市場本身就存在,把智能音箱看做是藍牙音箱的升級,一定的銷量則是沒有問題的。

這家中科院創業團隊,跟雷軍學習營銷知識,給小米音箱一雙耳朵

(小米AI音箱使用聲智科技遠場語音交互方案)

而智能音箱市場的銷量能否夠爆發?他認為還需要半年時間來驗證智能音箱這個趨勢是否成立,然後才能再去驗證何時能夠爆發。百萬量級是一個坎,如果這個銷量達不到,那麼人工智慧的第一波就「硬著陸」了。

國內智能音箱真正的火熱還要從BAT等網際網路巨頭的入局,他認為BAT等公司做智能音箱只是一個突破口,是第一個AI落地的驗證產品,是對自身技術的驗證。正如同小米AI音箱,音箱只是一個落地產品,而小米的AI大腦則是戰略產品。

此外,新的人機交互方式、語言入口,必然會誕生新的平台出現,從而成為下一個巨頭級企業。目前百度推出了DuerOS平台、思必馳推出了DUI平台,科大訊飛也有自己的AIUI平台等等,不論是網際網路巨頭,還是語音技術公司以及創業團隊都在湧入語音交互平台。

陳孝良認為,做平台前期需要巨額的投入,來補貼上下游的合作夥伴以及客戶,從而為各方創造價值。這也決定了未來平台需要大量的投入,也會面臨激烈的競爭,眾多玩家中只有幾家能夠存活。

以淘寶為例,它的成功不是技術的成功,而是商業模式的成功。淘寶在前期也花了很大的精力去拉商家做補貼。可見平台前期需要大量的投入,去補貼合作夥伴補貼客戶,從而共同打造一個生態,這和做技術是完全不同的思路。

雖然現在各家都在拉合作夥伴做開放平台,但是現在的AI平台,並沒有過多考慮合作夥伴的利益,也沒有將補貼落到實處。平台最怕的就是沒人用,一旦沒有客戶進入,所有的平台、合作夥伴都會成為空談。

他還認為,平台的核心是在於商業模式,目前各家平台都處於起步階段,各家都存在機會,但各家的策略十分重要,不能拿技術的思路做平台。未來誰家平台的策略更精準,能夠獲得客戶,為產業鏈上下游合作夥伴創造價值,誰就能夠獲得更多優勢。

結語:風口下的語音交互行業

隨著語音交互的火熱,行業對於聲學需求也在不斷增大,也推動了中科院聲學所這樣的科研學術機構走到了時代的前沿,湧現出了像陳孝良這樣的創業者,將更多的聲學研究應用於消費級場景。

但是語音交互才剛剛開始,一方面需要整個產業鏈打磨自身技術,並提供更多優質的應用技能。另一方面就聲學本身而言還存在遠場語音識別、聲源定位追蹤、多人交互等難題,需要更多前沿科技的投入,共同推動行業的發展。

Leave A Reply

Your email address will not be published.