鄧力：以獨特視角詮釋語音識別領(lǐng)域新技術(shù)進展

發(fā)布時間：2016年08月10日 13:23來源：智能制造網(wǎng) 編輯：人氣：61437

　　【中國智能制造網(wǎng) 訪談】微軟人工智能科學(xué)家鄧力日前接受了記者專訪，以另外的視角詮釋了語音識別領(lǐng)域的新技術(shù)進展，以及他的團隊的一些不同的工作。

　　
　　著眼于端到端建模和訓(xùn)練，鄧力介紹了輸出端和輸入端的進展，遷移學(xué)習(xí)、增強學(xué)習(xí)、非監(jiān)督學(xué)習(xí)在語音識別領(lǐng)域的應(yīng)用現(xiàn)狀和前景，并解釋了他對非監(jiān)督學(xué)習(xí)的獨特理解，重點總結(jié)了詞嵌入的利用和改善。他還展望了類腦機器智能突破現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)局限的方法。
　　
　　有感于有監(jiān)督學(xué)習(xí)的局限，鄧力目前將很大部分的精力用到了非監(jiān)督學(xué)習(xí)上，并且與微軟目前的自然語言理解、對話系統(tǒng)、聊天機器人等核心工作相結(jié)合�？春梅潜O(jiān)督學(xué)習(xí)語音識別，是由于語音識別領(lǐng)域“先驗”知識的逐漸成熟，包括輸出端非常強的語言模型和多年積累的從輸出端到輸入端映射的生成式知識。鄧力認為，將各種先驗知識整合到一個完整而能快速計算和優(yōu)化的非監(jiān)督深度學(xué)習(xí)框架，語音識別的問題將可以徹底解決。當(dāng)然，這需要新的深度非監(jiān)督學(xué)習(xí)算法和理論。
　　
　　鄧力認為，詞嵌入或音素嵌入用到語音識別領(lǐng)域，一項有意思的工作是把喬姆斯基的生成式音韻結(jié)構(gòu)整合到深度學(xué)習(xí)講的嵌入方法里。對抗式網(wǎng)絡(luò)的思路可以用來整合語音生成知識。不過，詞嵌入的本質(zhì)是利用鄰近詞的預(yù)測特性，只是所應(yīng)該用的先驗知識的一小部分。更重要的先驗知識應(yīng)該是關(guān)于輸出序列變量的更強并比現(xiàn)有詞嵌入具有更長距離的統(tǒng)計特性，以及從輸出到輸入的生成特性。
　　
　　以下為采訪實錄：
　　
　　非監(jiān)督學(xué)習(xí)語音識別將來會成功，但需要大量創(chuàng)新工作來鋪路
　　
　　記者：能否介紹當(dāng)前語音識別領(lǐng)域讓您興奮的一些進展，以及您目前所做的一些有趣的工作？
　　
　　鄧力：從整個語音識別業(yè)界來講（包括中國和美國幾家主要大公司的工作），令人興奮的進展涵蓋了輸出端和輸入端的端到端訓(xùn)練：：
　　
　　端到端建模和訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)近期繼續(xù)降低識別錯誤率，特別是成功用上CTC訓(xùn)練準則使得端到端訓(xùn)練行之有效。CTC訓(xùn)練準則忠實地代表了語音識別系統(tǒng)的訓(xùn)練目標(biāo)，比我們在DNN時代之前用的MCE、MPE、MWE、MMI更合理，盡管CTC的優(yōu)化需要不少工程技巧。我在研究院的同事在這方面做了很多工作，包括對CTC的延伸并將CTC與傳統(tǒng)的MMI序列訓(xùn)練方法相結(jié)合。
　　
　　行之有效的端到端訓(xùn)練在輸入端已經(jīng)擴張到多麥克風(fēng)陣列的語音波形。這使得抗噪音的語音識別系統(tǒng)部分也整合進入端到端學(xué)習(xí)。
　　
　　我自己目前將不少時間用在關(guān)于讓非監(jiān)督學(xué)習(xí)用到離散序列輸出（比如自然語言）的應(yīng)用，包括語音識別、機器翻譯、看圖說話，等等。為什么注重像自然語言這樣的離散序列輸出？這是因為自然語言模型包含了非常豐富的“先驗”知識，使得不需輸入輸出匹配的學(xué)習(xí)的成功機會大于其他在輸出端缺乏豐富“先驗”知識的應(yīng)用和任務(wù)。
　　
　　靠輸入輸出匹配的學(xué)習(xí)是要花高代價準備大訓(xùn)練數(shù)據(jù)的。這是目前很成功的有監(jiān)督深度學(xué)習(xí)的局限之一。相反，無需輸入輸出匹配的大數(shù)據(jù)成本要低得多，它遍地皆是，有取之不盡用之不竭的潛力。
　　
　　要有效地利用比現(xiàn)有輸入輸出相匹配的訓(xùn)練數(shù)據(jù)高出幾個數(shù)量級的無輸入輸出匹配的大數(shù)據(jù)來訓(xùn)練深度學(xué)習(xí)系統(tǒng)，有待于開創(chuàng)全新的深度非監(jiān)督學(xué)習(xí)算法和理論。一旦成功，這會給深度學(xué)習(xí)建立一個新的里程碑。比如用在語音識別，任何人們之間的對話和個人演講都可以成為非監(jiān)督學(xué)習(xí)語音識別機的語料，而我們并不需要去標(biāo)注這些自然的到處都有的語料。
　　
　　為什么我認為非監(jiān)督學(xué)習(xí)語音識別會成功?因為我們在輸出端有豐富的“先驗”知識，就是非常強的語言模型，可以是嵌入式的，也可以是非嵌入式的。同時我們也有非常豐富的從輸出端到輸入端映射的生成式的“先驗”知識。這就是語音科學(xué)家?guī)资攴e累下來的人類從概念到波形的語音motorcontrol和語音生成的知識。語音生成的motorcontrol要比機械人對手指的精細運動控制還復(fù)雜。
　　
　　我當(dāng)年在MIT、ATR和在加拿大滑鐵盧大學(xué)任教時做了很多這方面的研究。當(dāng)時用的是動態(tài)深度貝葉斯網(wǎng)絡(luò)來表達和實現(xiàn)這些知識，模型中的一部分也用上multilayerperception。我和我的學(xué)生們在1997-2003年發(fā)表了一系列論文。到微軟之后還寫了兩本關(guān)于這方面的書。記得當(dāng)年GeoffHinton教授同我就如何將這些動態(tài)語音生成知識和模型用到有監(jiān)督深度學(xué)習(xí)討論了很長時間。當(dāng)時得到的識別率結(jié)果跟丟開這些生成知識的DNN-HMM差不多，但計算上卻難以得益于用GPU訓(xùn)練，而且解碼要用很多近似，也很慢。所以我把動態(tài)語音生成模型放棄了很長時間專攻DNN，后者沒有這些弱點。見文末一些文獻，回顧了以上講的這些古老的工作。
　　
　　現(xiàn)在到了大家開始注重非監(jiān)督深度學(xué)習(xí)的時代。過去積累的研究經(jīng)驗和有計算價值的語音生成知識真是可以派上用場。將多種類（輸入輸出端統(tǒng)計特性以及它們的關(guān)聯(lián)性）的先驗知識整合到一個嶄新的非監(jiān)督深度學(xué)習(xí)框架，我相信語音識別的問題可以徹底解決。
　　
　　深度神經(jīng)網(wǎng)絡(luò)應(yīng)為主干
　　
　　記者：概括地說，除了特征提取，深度學(xué)習(xí)在語音識別領(lǐng)域主要還發(fā)揮哪些作用？
　　
　　鄧力：端到端訓(xùn)練高層動態(tài)網(wǎng)絡(luò)是有監(jiān)督深度學(xué)習(xí)在語音識別領(lǐng)域應(yīng)用的精華。特征提取只是它的自然結(jié)果之一。
　　
　　直到現(xiàn)在，單靠特征提取在非監(jiān)督深度學(xué)習(xí)上從未成功過。
　　
　　記者：您與俞棟博士合著的新書《解析深度學(xué)習(xí)-語音識別實踐》系統(tǒng)地介紹了基于DNN的語音識別技術(shù)，哪些人應(yīng)該讀這本書？他們會收獲些什么？這本書適合入門嗎？需要讀者具備什么知識基礎(chǔ)？
　　
　　鄧力：我們在序言里講到這本書的對象主要是語音處理及機器學(xué)習(xí)領(lǐng)域的在讀研究生、研究者、實踐者、工程師以及科學(xué)家的學(xué)習(xí)研究工作。但注意由于我們寫書時間緊迫，有些內(nèi)容沒有加上，包括CNN、CTC、麥克風(fēng)陣列、語音分離，等等。
　　
　　閱讀本書的知識基礎(chǔ)包括微積分、矩陣代數(shù)和基本的概率統(tǒng)計等。
　　
　　對于入門讀者，我們同年出版的英文版《深度學(xué)習(xí):方法和應(yīng)用》（由謝磊教授翻譯成中文）可能更適合。只是材料有點過時了。
　　
　　記者：您介紹了很多魯棒性的方法，有哪一種是您喜歡的嗎？
　　
　　鄧力：對speaker魯棒性的方法，我很喜歡KL-divergenceregularization，不但管用，而且方法巧妙，實現(xiàn)起來也簡單。是subspace方法中的一種。
　　
　　對抗環(huán)境噪音的魯棒性的方法，我在全力攻DNN之前很喜歡VTS的方法，也發(fā)明了整合語音-噪音相位的VTS方法，不但方法巧妙，在某些條件下也挺管用。但因為它用的是生成式的概念，幾年前很難用DNN方法來實現(xiàn)�，F(xiàn)在我們知道怎樣整合生成式模型和神經(jīng)網(wǎng)絡(luò)（見書中第6章和文末一些文獻），大家做這方面的研究可能就有成功希望了。
　　
　　記者：書中專門談到了遷移學(xué)習(xí)，舉了一些例子，如歐洲語言到中文普通話的成功遷移，那么哪些因素決定共享DNN隱層架構(gòu)在當(dāng)前語音識別領(lǐng)域的邊界和局限？遷移學(xué)習(xí)在語音識別領(lǐng)域推廣應(yīng)用的挑戰(zhàn)是什么？
　　

(來源：數(shù)據(jù)分析網(wǎng)原標(biāo)題：微軟鄧力：語音識別與非監(jiān)督深度學(xué)習(xí)、增強學(xué)習(xí)、詞嵌入、類腦智能)

[1] [2] 下一頁

上一篇：王帆講工匠精神：我們不是一個PPT上的企業(yè)

下一篇：陸奇：云計算和人工智能給微軟帶來怎樣的新機會？

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明"來源：智能制造網(wǎng)"的所有作品，版權(quán)均屬于智能制造網(wǎng)，轉(zhuǎn)載請必須注明智能制造網(wǎng)，http://towegas.com。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時，必須保留本網(wǎng)注明的作品來源，并自負版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題，請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。

熱點排行

今日推薦周排行月排行