本文由機器之心編輯,「機器之心」專註生產人工智慧專業性內容,適合開發者和從業者閱讀參考。點擊右上角即刻關注。

近日,一家名為 DeepL 的創業公司發布了自己的神經翻譯工具,引起了業內關注。據稱在盲測與 BELU 分數測試中,這款全新翻譯系統的性能遠超來自谷歌、微軟和 Facebook 三家巨頭的同類產品。對於我們來說,DeepL 唯一的問題就是何時能夠支持中文了。

谷歌、微軟和 Facebook 等科技巨頭已在機器翻譯領域耕耘多年,但一家名為 DeepL 的創業公司最近推出的翻譯工具又將這一領域向前推進了一步。DeepL 與它的競爭對手相比速度相同,而且更加準確而精密。

目前,DeepL 尚不支持對中文的翻譯,但從德語、法語和英語的對翻試驗中,我們可以發現 DeepL 的翻譯器效果遠超谷歌翻譯與 Bing。

以下是 DeepL 和谷歌翻譯對同一篇德文新聞稿的英語翻譯效果:

神經翻譯系統水平遠超谷歌、微軟,德國創業公司發布翻譯器DeepL

神經翻譯系統水平遠超谷歌、微軟,德國創業公司發布翻譯器DeepL

對此,掌握多國語言的 Techcrunch 編輯 Frederic 表示:「谷歌翻譯的風格非常直接,但卻錯過了一些細節和習語(或者把這些習語翻譯錯了),而 DeepL 經常可以提供更加自然的翻譯效果,就像訓練有素的人類翻譯一樣。」

DeepL 稱,在盲測結果中,他們的翻譯器表現遠超谷歌、微軟等競爭對手,而 BLEU 測試的結果也是如此。

現在,這款翻譯器已經發布,我們也可以自行測試:https://www.deepl.com/translator。

神經翻譯系統水平遠超谷歌、微軟,德國創業公司發布翻譯器DeepL

DeepL 認為自己的翻譯系統已經達到了全球領先水平,並給出了與谷歌翻譯、微軟 Bing 在 100 句話長度上的盲測對比結果,成績由專業翻譯進行打分,DeepL 的成績遙遙領先。

另外,研究人員通常也會在數據集上對翻譯系統進行 BLEU 分數測試,DeepL 神經網路翻譯系統的分數超過了目前發布的所有系統(英-德翻譯達到 31.1 分,超過谷歌翻譯的 28.4 分;英-法翻譯 44.7 分,超過此前最佳成績 3 分)。

Linguee 的演變

DeepL 從同樣卓越的 Linguee 演變而來。Linguee 是一款出現多年的翻譯工具,儘管 Linguee 使用廣泛,但其翻譯質量無法達到谷歌翻譯的翻譯水平,畢竟後者的品牌和地位都佔據巨大優勢。Linguee 的聯合創始人 Gereon Frahling 之前在谷歌研究院工作,但於 2007 年離開,開始了新的征程。

該團隊數年來一直致力於機器翻譯,但是直到去年,他們才開始全力開發全新的系統,建設新公司,二者的名字都是 DeepL。

「我們的神經網路架構已經實現了多個顯著改善。」Gereon Frahling 表示,「通過用不同的方式安排神經元及其連接,我們的網路比目前其他神經網路更全面地映射自然語言。」

超過 10 億句翻譯結果和查詢的大型資料庫,在網頁上搜索相似片段的真實翻譯的方法,二者為新模型的訓練提供了強大的基礎。DeepL 變革性的神經架構在冰島的一台超級計算機上運行,該計算機的能力是 5.1 petaFLOPS(每秒 5100 萬億次操作,據稱在全球超級計算機排行榜上名列 23 位),能夠實現在不到一秒的時間內翻譯 100 萬單詞。「冰島可再生能源豐富,因此我們可以在這裡用非常低廉的成本訓練我們的神經網路。我們將繼續專註於高性能硬體。」CTO Jaroslaw Kutylowski 說道。

大學、研究機構和 Linguee 的競爭對手發布的研究進展表明,卷積神經網路是機器翻譯的正確道路,而非 DeepL 之前使用的循環神經網路。現在不是探討二者區別的時候,必須要說對於相關詞語的長、複雜字元串,卷積神經網路效果更好,只要你能夠控制其弱點。

例如,CNN 可以一次處理一個單詞。當句末單詞決定句首單詞的形成過程時,這成為一個問題。查找整個句子尋找句首單詞,如果網路獲取到的第一個單詞是錯誤的,就太浪費了。然後還得使用該知識重新開始,因此 DeepL 和機器學習領域的其他機構在 CNN 轉向下一個單詞或片語時,使用能夠監控此類潛在問題的「注意力機制」來解決問題。

DeepL 翻譯器目前支持 42 種語言之間的互譯,包括英語、德語、法語、西班牙語、義大利語、波蘭語、荷蘭語等。該神經網路正在訓練以掌握更多語言,如中文、日語和俄語。DeepL 還計劃在接下來幾個月內發布 API,以使 DeepL 卓越的翻譯結果能夠提升其他產品的效果,如數字助理、字典、語言學習 app 和專業的翻譯程序。

DeepL 成果目前已經可以用做翻譯工具的首選了,而這家公司還在計劃推出更多其他新產品。「DeepL 的目標不止於翻譯任務,」DeepL 首席執行官 Gereon Frahling 說道。「我們的神經網路將從理解文本開始,開啟更多可能性。」