依圖強勢進軍智能語音,聯合微軟發布語音開放云平臺,攜手華為發布軟硬件一體化的智能語音聯合解決方案。依圖語音識別算法在全球最大開源中文數據庫AISHELL-2上詞錯率僅3.71%,比原業內領先者提升約20%,大幅刷新現有紀錄。比對各家語音識別算法,當今智能語音戰場,英雄唯訊飛與依圖爾?

2018年底,智能語音市場意外殺入一匹黑馬。

素來被認為是“人臉識別獨角獸”——或者更寬泛一點說,“計算機視覺獨角獸”的依圖科技,公布了他們中文語音識別技術的最新突破,以及令人矚目的產業布局。

技術上,在全球最大的中文開源數據庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)達到3.71%[1],相比原業內領先者提升約20%,大幅刷新現有紀錄。

產業上,依圖聯合微軟推出基于Azure云服務的語音開放平臺,并攜手華為發布軟硬件一體化的“智能語音聯合解決方案”,將依圖語音識別技術提供給第三方應用開發者。

 

依圖首席創新官呂昊博士

 

“語音一直以來都是依圖關注的課題。作為對人工智能有著深入理解和推廣應用的公司,我們自然而然進入語音識別領域。”依圖首席創新官呂昊博士表示,依圖是一家“人工智能公司”。

“作為語音行業的‘新生’,我們還是有很多向‘老生’學習的地方,但我們立志推動行業創新與發展,做世界最好的中文普通話語音識別技術。”

 

智能語音競爭還未開始,依圖要做世界最好的中文語音識別

 

萬物互聯,語音為先。

語音識別是AI理解世界最重要的組成部分,也是AI能聽會說善理解的必要條件。

近年來,深度學習的爆發驅動了語音識別技術的高速發展,催生了一大批智能語音創業公司,其中不乏實力強勁的競爭者。

除了中國智能語音“一哥”科大訊飛,百度、阿里、騰訊、京東等企業紛紛推出了智能語音產品,再加上雄踞國際戰略高點的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰”硝煙還未褪去,依圖為何選擇這個時間點入局?

“我覺得競爭都還沒開始,不存在入場的問題。”依圖科技聯合創始人林晨曦在2018年1月接受新智元采訪時說。

智能語音市場看似巨頭林立,但林晨曦認為創業公司大有可為,依圖不僅要做語音和自然語言處理,還要做到像人臉識別那樣,超越人類水平。

依圖技術負責人表示,盡管一些機構宣傳其語音識別已經達到乃至超越了人類水平,但多數情況下,這些結果都來自安靜、近場等受限場景。

“機器在語音環境比較理想的情況下是可以識別某些生僻詞,或者在專有名詞等識別方面比人強。但人的魯棒性還是強于機器,人在熟人且熟悉領域上的語音識別還是明顯能夠做過算法。”

目前語音識別仍然存在很多瓶頸,例如在發音不清楚的情況下,如何結合更強的上下文語義信息給出準確的語音識別;如何在語音識別的全鏈路上,優化遠場識別的性能;特殊情況的處理,比如人稱代詞、語氣詞助詞;還有雞尾酒問題(多人同時說話下,能夠準確識別其中一人的語音)、電話場景的識別(低采樣率下的語音識別)。

此次依圖科技在語音識別技術方面的突破,不僅意味著依圖首次涉足語音識別領域便已經躋身中文語音識別第一陣營,同時也說明語音識別在技術層面還有足夠的進化空間,遠遠沒有達到“超越人類”。

依圖預計,在未來6個月到12個月,語音識別技術的算法性能將呈指數級增長,更多的場景將被解鎖,為行業應用帶來更大的價值。

 

科大訊飛和依圖屬于第一梯隊,BAT差得遠

 

作為進軍智能語音的第一步棋,依圖發布了“聽寫大會”微信小程序,它能將時長不超過60秒的語音轉寫成文字,支持普通話,并且兼容多種口音。

 

5c2eeda39249c.jpeg

“聽寫大會”微信小程序:業界也屬于首次公開透明地比對各類算法的水平差異

 

不過,“我們希望大家不要僅僅是關注在API本身,”依圖首席創新管呂昊表示:“我們希望借助這個API,讓大家去關注到整個語音識別行業的發展情況。”

呂昊說,一直以來語音識別業界都沒有公開透明的語音識別比對,通過“聽寫大會”微信小程序,用戶可以直觀感受到各家語音識別技術的真實表現,在業界也屬于首次公開透明地比對各類算法的水平差異。

 

5c2eeda3a9fb4.jpeg

訊飛依圖BAT各家算法差異巨大,訊飛依圖位列第一陣營

 

“目前語音識別業界存在兩種認知誤區,”呂昊說:“一種是極端的好,也就是各家都好沒有差異;一種是極端的差,認為都不能解決問題。”

實際情況是,“科大訊飛的語音識別能力比BAT領先很多。在場景測試中,除了依圖和科大訊飛之外,大部分廠家的算法字錯率抖動大,意味著場景的通用性差。”

依圖此次推出的中文語音識別算法,與業內原有領先者相比,不僅大幅提升了識別準確率,而且在單個算法模型上,有極為出色的多場景適用性表現。

一般認為,中文語音識別的字錯率低于3%時不會影響可讀性,而超過15%則毫無可讀性。這是語音識別的兩條紅線,在不同場景下,不同算法的表現可能會有很大差異。

在全球最大中文開源數據庫AISHELL-2[2] 的三個測試子集,以及來自第三方的近場口音測試集(Accent)、近場安靜聊天測試集(Chat)、語音節目測試集、電話測試集、遠場測試集等測試場景中,依圖均處于業界領先水平,而且字錯率幾乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL數據集中,依圖的識別準確率高達96.29%,字錯率僅為3.71%,領先第二名約20%。

這意味著依圖在語音領域做到了第一梯隊 (甚至是領先) 的水平,在多場景的適用方面,也體現出顯著優勢。

 

左有微軟,右有華為,用技術想象力撬動語音市場

 

“依圖的語音API產品和語音開放平臺剛剛上線,我們歡迎越來越多的開發者和客戶使用依圖的產品,共同改進產品性能,并探討更具突破性的應用場景。”呂昊說。

關于未來預計推出的語音產品及其功能,呂昊表示,“實際上,我們認為技術和場景是比產品和功能更關鍵的要素,推動了技術發展進步,我們才可以領略到以前看不到的更多可能性,解決很多以前想象不到的問題。今天語音識別跟人類的能力還有巨大的差距,依圖希望能夠攜手業界共同推動行業進步。”

發布會上,依圖宣布與微軟Azure云服務聯合發布語音開放平臺,將行業領先的語音識別技術能力開放給第三方應用開發者。此外,依圖還將與微軟在智能語音領域展開更深層次的合作,共建AI生態。

640-16.jpeg

2018年4月,微軟全球執行副總裁沈向洋(右)訪問依圖。依圖科技聯合創始人、CEO朱瓏(左)曾在微軟亞洲研究院(MSRA)研發人臉識別算法,導師就是沈向洋。依圖科技聯合創始人林晨曦,業務技術副總裁吳岷,研發總監周健等也都來自MSRA。圖片來源:依圖科技

 

與此同時,依圖也攜手華為聯合發布“智能語音聯合解決方案”,該方案基于依圖語音開放平臺,以及華為全棧全場景 Ascend(昇騰)系列芯片和面向數據中心側的 Atlas 300 AI加速卡,將雙方強大的技術研發能力與生態服務能力深度結合,形成軟硬件一體化的聯合解決方案,進一步幫助提升開發效率。

自2016年成為合作伙伴以來,依圖和華為已形成全方位聯動。今年3月,雙方共同發布“華為-依圖視頻云人像大數據”解決方案,布局全球城市級公共安全。10月,2018華為全聯接大會期間,依圖作為大會安保唯一AI合作伙伴,與華為聯合發布了分支視頻云聯合解決方案、智慧警務云解決方案和智慧園區解決方案,在平安城市、智慧警務、大數據應用等方面持續加深合作。

640-17.jpeg

10月9日,華為輪值董事長徐直軍(左二)、華為安平系統部總裁岳坤、華為企業BG行業Marketing與解決方案總裁喻東(左三)等一行到訪依圖。來源:依圖科技

此前,有傳言微軟Azure云服務在中國的數據中心將使用華為的昇騰芯片,這一消息尚未得到證實。但本次由依圖串接起來的微軟、華為合作鏈,不禁讓人浮想聯翩。

根據2018中國語音產業聯盟年會上周發布的《2017-2018中國智能語音產業白皮書》,全球智能語音產業規模持續增長,2014年至2018年,中國智能語音產業規模由30億元增長至159.7億元。

左有微軟,右有華為,再加上自身的技術,依圖在智能語音開局便湊齊了一手好牌。

最后要說的是依圖科技的首席創新官呂昊。呂昊今年2月加入依圖,之前是谷歌的研究科學家。根據依圖科技官方介紹,呂昊在谷歌期間曾負責孵化安卓APP啟動推薦系統,這是全球首個移動端APP啟動推薦系統,也是全球首個基于機器學習的安卓產品。他會帶領依圖與華為孵化出怎樣的智能語音聯合解決方案?

林晨曦曾表示好的人才需要對未來充滿想象力,朱瓏也在文章里寫因為看見,所以相信——現在這句話基本成了依圖的Slogan。

“99%識別率的算法和99.99%的算法,區別在于可解鎖的應用場景,對技術商業價值的想象力將回答AI的場景在哪里以及多快到來。”

“我們認為,目前語音識別仍處于初步發展的階段,依圖將始終保持在技術層面的投入,通過技術的突破來解鎖更多的可能,也歡迎合作伙伴與我們共同探索語音技術的行業應用。”呂昊說。

注釋

[1] 一般在英文語音識別中用“詞錯率”(WER),因為最小單元是詞;中文語音識別一般使用“字錯率”(CER),因為最小單元是字.

[2] AISHELL-2是AISHELL Foundation和希爾貝殼創建的開源數據庫,含有1000小時中文語音數據,由1991名來自中國不同口音區域的說話者參與錄制,經過專業語音校對人員轉寫標注,通過了嚴格質量檢驗,數據庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業生產等12個領域.

 

 

您可以復制這個鏈接分享給其他人:http://www.28tangyi.com/node/415