美國當?shù)貢r間9月13日,多通道語音分離和識別大賽(CHiME)組委會宣布,由科大訊飛領(lǐng)銜的中國技術(shù)團隊包攬了賽事全部三個項目的。
據(jù)悉,CHiME比賽重點解決的是真實、復(fù)雜場景下的語音識別,因此是語音識別領(lǐng)域高難度的比賽之一。參賽的各個語音系統(tǒng)需要克服高噪聲、混響等干擾,在咖啡廳、公交車、街道等日常生活場景中,準確地識別和處理英文語音。
團隊負責(zé)人、科大訊飛研究院副院長劉聰介紹說,科大訊飛語音系統(tǒng)在六麥克風(fēng)、雙麥克風(fēng)和單麥克風(fēng)場景這三個項目中表現(xiàn)優(yōu)異,并大幅刷新了各項目的紀錄。比如,在六麥克風(fēng)場景下,系統(tǒng)的詞錯誤率降至2.24%,相比歷史成績,錯誤率下降了逾六成。
參賽系統(tǒng)凝聚了科大訊飛研究院、中國科學(xué)技術(shù)大學(xué)杜俊教授團隊、西北工業(yè)大學(xué)陳景東教授、佐治亞理工學(xué)院李錦輝教授等國內(nèi)外專家的合作成果。大賽組委會認為,在復(fù)雜場景語音識別任務(wù)上,“該系統(tǒng)已經(jīng)給出了接近的解決方案”。
劉聰認為,更具抗噪性、實用性的語音識別技術(shù),對于促進中國制造業(yè)的轉(zhuǎn)型升級,價值巨大。“這意味著,我們可以把語音識別拓展到更多生活場景中去,而不受限于室內(nèi)、會場或語音通話等安靜環(huán)境,從而真正讓語音取代電子屏幕,成為‘萬物互聯(lián)’的入口。”
在剛剛發(fā)布的蘋果iPhone7上,其人工智能“大腦”以及智能家居平臺“HomeKit”引發(fā)業(yè)界關(guān)注。今年6月,蘋果宣布向第三方開放語音接口,被視為向人工智能語音路徑邁進的又一步。谷歌、微軟、Nuance等科技企業(yè)也在智能語音領(lǐng)域動作頻頻。
語音作為自然的人機交互方式,隨著人工智能的發(fā)展,將在未來發(fā)揮巨大的作用。中國的智能語音技術(shù)應(yīng)如何應(yīng)對競爭?
劉聰認為,不管中文還是英文,在語音技術(shù)上是相通的。“在一個英語語音識別系統(tǒng)的高難度比賽中奪冠,說明我們在核心算法上是的。”但他也指出,拋開技術(shù),在業(yè)務(wù)和產(chǎn)品層面,微軟、谷歌、蘋果等“巨頭”擁有各自不同的數(shù)據(jù)優(yōu)勢,可能會產(chǎn)生更好的用戶體驗。這是中國智能語音產(chǎn)業(yè)亟待補齊的短板。
CHiME比賽始于2011年,今年由谷歌公司承辦。它由法國計算機科學(xué)與自動化研究所、英國謝菲爾德大學(xué)、美國三菱電子研究實驗室等研究機構(gòu)所發(fā)起,旨在使學(xué)術(shù)界和工業(yè)界提出全新的語音識別解決方案,以進一步提升語音識別的實用性和普適性。
?。ㄔ瓨祟}:中國團隊包攬世界語音識別大賽三項)