TechRoomage

思必馳發布 DUI 開放平台,全鏈定製化賦能更多終端 | 專訪

0 1

撰文 | 藤子

編輯 | 劉燕

9 月 7 日,思必馳在北京召開 2017 思必馳 DUI 開放平台發布會上,宣布 DUI 開放平台正式開放註冊。作為開放式對話平台,DUI 覆蓋多應用場景和第三方內容資源,內置語音及語言技能庫,為物聯網、移動網際網路和網際網路的開發者提供單項技術服務和完整的、定製的智能對話交互解決方案。

思必馳發布 DUI 開放平台,全鏈定製化賦能更多終端 | 專訪

事實上,實現技術平台全面開放的背後,是思必馳從 2013 年開始的三次定位與調整:2014年,專註場景體驗,扶持軟硬一體的車蘿蔔 HUD,2015 年開始深耕細分市場,2016 年開發 DUI 平台到現在,目前思必馳技術應用的產品觸達用戶數千萬。

與此同時,在主要方向上,思必馳也頗有收穫。據高始興描述,思必馳已經紮根三大垂直領域——在車聯網后裝市場,思必馳已經達到了 60%(合作夥伴、市場端的佔有量),今年年底預計達到 70%;在音箱領域,跟包括富士康、聯想、阿里、小米、騰訊等眾多夥伴達成了合作;玩具市場中,思必馳的合作夥伴數量也已經過半。

「這 4 年來我們一直堅持一個夢想,我們希望找到更大的市場,讓我們的對話交互賦能給更多的終端。」思必馳 CEO 高始興在發布會上表示。

在不斷嘗試的語音路上,找到如今的方向——開放式語音對話平台

思必馳於 2007 年成立,當時,語音識別多用於呼叫中心、國家教育項目。思必馳同樣從英語教育切入,試圖讓智能設備成為口語教師,學生通過人機對話學習口語,教師利用智能設備呼應口語教學。

在這個領域,思必馳佔據了 40% 的市場份額。然而,教育市場的狹窄,始終無法撐起語音識別的廣泛應用。2011年,蘋果發布 Siri ,在震動業界的同時,也讓大量開發者認為語音交互的春天已經到來,很多 App 開發者都希望通過語音實現搜索,使用語音交互,而不是觸摸交互。

思必馳同樣看到了這一方向的前景,於是在 2012 年 開啟移動網際網路市場探索 ,開始研發口語對話系統平台,一年後,推出「對話工場」,作為國內第一個口語對話系統,「對話工場」試圖將其口語對話能力提供給 App 開發者,使 App 開發者的用戶能夠通過語音調用服務。 同時,教育事業部在 2014 年分拆,成立了 「 馳聲科技 」 。

然而,起了個大早的思必馳發現行業的成熟度並非像起初想象的那樣。2015 年,思必馳暫停「對話工場」,研發 AIOS 對話操作系統。儘管暫停了「對話工場」,但對對話平台念念不忘的思必馳在 2016 年,觀察到行業的成熟度正在發生變化,2016 年初,思必馳內部開始進行 DUI 開放平台的策劃及模塊化嘗試。2016 年底,搭建平台,並將 DUI 平台部門升級為思必馳重大戰略方向。思必馳 VP、DUI 開放平台負責人趙恆藝認為,從 2017 年市場上紛紛冒出的對話開放平台來看,也證明了這個市場的成熟度。

然而,趙恆藝認為,行業的進步離不開大量標準化的產品,這能給全行業的終端用戶提供良好的用戶體驗。但是,基礎用戶體驗提升之後,又需要差異化的競爭力,需要在各個環節、功能點、場景進行定製化工作。思必馳正是順應這一趨勢,給出了自己的答案——定製規模化,解決當前行業的——技術提供商的定製效率與 B 端客戶對產品迭代和需求不能很好的被滿足的主要矛盾。

因而, DUI 開放平台主打規模化定製。作為一個全鏈路定製化開放式語音對話平台,DUI 能實現從喚醒詞、語音識別、語義理解到對話管理、輸出以及 TTS 都能實行定製。

但是,從技術到產品和平台,趙恆藝認為,中間有很長的路,而在此次發布會上,隨同發布的 DUI 平台的四個系統,則保證了平台不僅僅是停留在工具層面,而是成熟的易用的平台。

青囊系統:如何建立迭代的系統,如何支持客戶的定製和需求的迭代,這都需要建設整個的服務里,青囊系統正是為了這樣的目的而被打造的。青囊系統是 DUI 服務力和研發支撐的一個系統。它可以縮短開發者發現問題、反饋問題、更新 Bug,再到更新版本,從反饋到迭代這樣一個閉環鏈條。

紫薇系統:如果要進行對話交互,就需要連接大量的內容和服務,才能滿足用戶的個性化需求。而這是紫薇系統的功能。

天機系統:這是思必馳 DUI 平台的洞察力系統,通過平台的大數據系統,可以實現對用戶畫像,以及智能推薦的需求。除此之外,還能分析用戶每個請求的日誌,並對結果進行實時反饋。對於開發者來說,一個請求是識別錯誤,還是解析錯誤,發生了什麼問題,如何去定位,天機系統則能當場定位問題發生的現場。

玲瓏系統:在 DUI 的控制台,定製的對話系統最終要落地到終端產品,無論終端產品是手機上的 APP,還是在電視上、音箱、微信或網頁上。但是,這樣一個平台總是要有一個落腳點。玲瓏系統可以非常方便地進行一個跨平台的轉接。

在帶領研發 DUI 的過程中,趙恆藝也深刻地認識到,從工具到產品,需要不斷打磨細節,才能最終真正服務於用戶。正是如此,相比其他語音交互平台,DUI 開放平台則更為產品化。

從平台層面解決客戶的痛點

在趙恆藝看來,DUI 能從工具上升到平台,則完全是由於思必馳過去的積累。儘管過去做「對話工場」,行業的成熟度和熱度並沒有達到期望的地步,卻積累了不少客戶以及行業合作夥伴,比如導航電子地圖提供商易圖、車載電子產品方案提供商諾威達、基於 HUD+ 語音操控人機對話的智能車載機器人的車蘿蔔等,還有聯想電視、美的空調等以及一些故事早教機、晶元廠商等。

在跟客戶的協作時,思必馳踩過了很多坑,了解了很多 B 端客戶的痛點。以車載領域為例,在思必馳對接車載的相關客戶時,發現客戶需要對本地和雲端進行混合識別,並開發混合的技能。然而,各家車載設備使用的底層晶元和硬體都不相同。

不同車載設備對平台的需求不盡相同,思必馳從過去的經歷中,已經看到了這一點。因而從一開始的 DUI 規劃設計中,思必馳就決定將這些痛點集成在平台中,從平台層面去解決。但這並非易事,因為這對 DUI 平台的整個語音系統都會帶來挑戰。

思必馳只能下苦功夫,調試大量的參數,測試每一個項目,在平台上就進行與合作夥伴的硬體相關的優化。通過這樣的方式,既能滿足不同客戶的不同需求,同時也可以大為縮減客戶在前端設備的調試時間,因此工程落地的速度也會提高。在此前,客戶使用思必馳的平台進行落地,需要花費兩三個月,而在 DUI 平台上,只需要一周時間即可。

在趙恆藝看來,這也是中小型企業在人工智慧行業有所作為的方法,思必馳正是如此,專註於有限的領域,比如智能車載、智能家居、機器人、晶元,在這些領域中與客戶密切配合。「從同一個產品的概念設計到真正量產落地,這樣的優化,對行業而言,也是有推進作用的。」趙恆藝說。

在平台上,如何將客戶的需求從技術方面實現?

從規劃 DUI 平台時,思必馳就注意根據客戶的需求,解決其中的痛點。然而,每個客戶都有自身的需求,要將這些不同的需求集合在同一個平台上,技術上如何實現,對思必馳而言,同樣是一個難題。

趙恆藝介紹,首先需要對技術進行解耦,處理前面的信號,在信號處理之後,針對不同的場景,進行語音識別的引擎設計,思必馳如今有多個引擎,都是針對場景的設計。在語音識別之後,是聲學模型和語言模型,在這個階段進行較好的定製,比如用戶側重於影視領域,有大量的電影,就對用戶進行語言模型的定製,而每個語言模型,思必馳都在服務端為用戶定製大量資源,趙恆藝認為,只有這樣才能真正實現產品化。

其次是自然語言理解,在這個階段,思必馳也會針對不同場景進行定製。之後是對話管理,趙恆藝介紹,在這方面,思必馳也做了大量的工作,能使用戶進行相關定製,而他們也可以跟客戶一起進行對話管理。

同時,趙恆藝也認識到,在這個基礎上,每個客戶都需要自己個性化的東西,因此他們將這種個性化賦予客戶,比如如何回復回話,對話的邏輯,GUI 等同樣可以定製,而聲音也可以定製,用戶可以自己上傳自己的聲音,生成專屬於自己的一個TTS 個性的合成音。

趙恆藝總結,這是一個整套的技術模塊,而他們則全將這些技術模塊轉化成產品側的解決方案。比如在車載解決方案、故事機、機器人等家居解決方案,DUI 平台都匹配不同的場景。而實現交互的整個過程,思必馳把這些鏈條都打散,使其變得更加靈活,因而客戶能更好的實現定製。 在平台上集成了百度地圖、高德地圖、騰訊音樂,酷愛音樂,大眾點評,美團等, 匹配後端的資源后,平台則可以做到用戶級的自適應。

事實上,這樣的解決方案,對思必馳來說,也並不容易。用戶都有獨一無二的解碼器、用戶空間以及其他信息,思必馳需要結合上下文,進行用戶的個性化識別,包括語言模型的設計,這對思必馳的後端資源都帶來了巨大的消耗。這些對思必馳整個語音解決方案,都是巨大的壓力。而如果按照此前的技術方案,即使伺服器擴展一百倍,也無法支撐這麼多內容。因為每個解碼器都需要重新溝通,重新構建,用戶級別的資源,也使後端很重。

趙恆藝感嘆,如果單單從技術層面來實現,實際上並不難,但是如果考慮到整體的用戶量,則不容易。因為少數用戶,與 10 億級別的用戶量,對底層技術的要求顯然不可同日而語,並不是僅僅擴展伺服器那麼簡單的事情,而如今,他們已解決這個難題,使 DUI 平台能夠支撐大量的用戶。

聲明:本文由機器之能(微信公眾號:almosthuman2017)原創出品,版權歸作者所有,轉載請查看要求,機器之能對於違規侵權者保有法律追訴權。

Leave A Reply

Your email address will not be published.