您現(xiàn)在的位置:智能制造網(wǎng)>新聞首頁>人物故事
鄧力:以獨特視角詮釋語音識別領(lǐng)域新技術(shù)進展

著眼于端到端建模和訓(xùn)練,鄧力介紹了輸出端和輸入端的進展,遷移學(xué)習(xí)、增強學(xué)習(xí)、非監(jiān)督學(xué)習(xí)在語音識別領(lǐng)域的應(yīng)用現(xiàn)狀和前景,并解釋了他對非監(jiān)督學(xué)習(xí)的獨特理解,重點總結(jié)了詞嵌入的利用和改善。他還展望了類腦機器智能突破現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)局限的方法。
有感于有監(jiān)督學(xué)習(xí)的局限,鄧力目前將很大部分的精力用到了非監(jiān)督學(xué)習(xí)上,并且與微軟目前的自然語言理解、對話系統(tǒng)、聊天機器人等核心工作相結(jié)合??春梅潜O(jiān)督學(xué)習(xí)語音識別,是由于語音識別領(lǐng)域“先驗”知識的逐漸成熟,包括輸出端非常強的語言模型和多年積累的從輸出端到輸入端映射的生成式知識。鄧力認為,將各種先驗知識整合到一個完整而能快速計算和優(yōu)化的非監(jiān)督深度學(xué)習(xí)框架,語音識別的問題將可以徹底解決。當(dāng)然,這需要新的深度非監(jiān)督學(xué)習(xí)算法和理論。
鄧力認為,詞嵌入或音素嵌入用到語音識別領(lǐng)域,一項有意思的工作是把喬姆斯基的生成式音韻結(jié)構(gòu)整合到深度學(xué)習(xí)講的嵌入方法里。對抗式網(wǎng)絡(luò)的思路可以用來整合語音生成知識。不過,詞嵌入的本質(zhì)是利用鄰近詞的預(yù)測特性,只是所應(yīng)該用的先驗知識的一小部分。更重要的先驗知識應(yīng)該是關(guān)于輸出序列變量的更強并比現(xiàn)有詞嵌入具有更長距離的統(tǒng)計特性,以及從輸出到輸入的生成特性。
以下為采訪實錄:
非監(jiān)督學(xué)習(xí)語音識別將來會成功,但需要大量創(chuàng)新工作來鋪路
記者:能否介紹當(dāng)前語音識別領(lǐng)域讓您興奮的一些進展,以及您目前所做的一些有趣的工作?
鄧力:從整個語音識別業(yè)界來講(包括中國和美國幾家主要大公司的工作),令人興奮的進展涵蓋了輸出端和輸入端的端到端訓(xùn)練::
端到端建模和訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)近期繼續(xù)降低識別錯誤率,特別是成功用上CTC訓(xùn)練準則使得端到端訓(xùn)練行之有效。CTC訓(xùn)練準則忠實地代表了語音識別系統(tǒng)的訓(xùn)練目標(biāo),比我們在DNN時代之前用的MCE、MPE、MWE、MMI更合理,盡管CTC的優(yōu)化需要不少工程技巧。我在研究院的同事在這方面做了很多工作,包括對CTC的延伸并將CTC與傳統(tǒng)的MMI序列訓(xùn)練方法相結(jié)合。
行之有效的端到端訓(xùn)練在輸入端已經(jīng)擴張到多麥克風(fēng)陣列的語音波形。這使得抗噪音的語音識別系統(tǒng)部分也整合進入端到端學(xué)習(xí)。
我自己目前將不少時間用在關(guān)于讓非監(jiān)督學(xué)習(xí)用到離散序列輸出(比如自然語言)的應(yīng)用,包括語音識別、機器翻譯、看圖說話,等等。為什么注重像自然語言這樣的離散序列輸出?這是因為自然語言模型包含了非常豐富的“先驗”知識,使得不需輸入輸出匹配的學(xué)習(xí)的成功機會大于其他在輸出端缺乏豐富“先驗”知識的應(yīng)用和任務(wù)。
靠輸入輸出匹配的學(xué)習(xí)是要花高代價準備大訓(xùn)練數(shù)據(jù)的。這是目前很成功的有監(jiān)督深度學(xué)習(xí)的局限之一。相反,無需輸入輸出匹配的大數(shù)據(jù)成本要低得多,它遍地皆是,有取之不盡用之不竭的潛力。
要有效地利用比現(xiàn)有輸入輸出相匹配的訓(xùn)練數(shù)據(jù)高出幾個數(shù)量級的無輸入輸出匹配的大數(shù)據(jù)來訓(xùn)練深度學(xué)習(xí)系統(tǒng),有待于開創(chuàng)全新的深度非監(jiān)督學(xué)習(xí)算法和理論。一旦成功,這會給深度學(xué)習(xí)建立一個新的里程碑。比如用在語音識別,任何人們之間的對話和個人演講都可以成為非監(jiān)督學(xué)習(xí)語音識別機的語料,而我們并不需要去標(biāo)注這些自然的到處都有的語料。
為什么我認為非監(jiān)督學(xué)習(xí)語音識別會成功?因為我們在輸出端有豐富的“先驗”知識,就是非常強的語言模型,可以是嵌入式的,也可以是非嵌入式的。同時我們也有非常豐富的從輸出端到輸入端映射的生成式的“先驗”知識。這就是語音科學(xué)家?guī)资攴e累下來的人類從概念到波形的語音motorcontrol和語音生成的知識。語音生成的motorcontrol要比機械人對手指的精細運動控制還復(fù)雜。
我當(dāng)年在MIT、ATR和在加拿大滑鐵盧大學(xué)任教時做了很多這方面的研究。當(dāng)時用的是動態(tài)深度貝葉斯網(wǎng)絡(luò)來表達和實現(xiàn)這些知識,模型中的一部分也用上multilayerperception。我和我的學(xué)生們在1997-2003年發(fā)表了一系列論文。到微軟之后還寫了兩本關(guān)于這方面的書。記得當(dāng)年GeoffHinton教授同我就如何將這些動態(tài)語音生成知識和模型用到有監(jiān)督深度學(xué)習(xí)討論了很長時間。當(dāng)時得到的識別率結(jié)果跟丟開這些生成知識的DNN-HMM差不多,但計算上卻難以得益于用GPU訓(xùn)練,而且解碼要用很多近似,也很慢。所以我把動態(tài)語音生成模型放棄了很長時間專攻DNN,后者沒有這些弱點。見文末一些文獻,回顧了以上講的這些古老的工作。
現(xiàn)在到了大家開始注重非監(jiān)督深度學(xué)習(xí)的時代。過去積累的研究經(jīng)驗和有計算價值的語音生成知識真是可以派上用場。將多種類(輸入輸出端統(tǒng)計特性以及它們的關(guān)聯(lián)性)的先驗知識整合到一個嶄新的非監(jiān)督深度學(xué)習(xí)框架,我相信語音識別的問題可以徹底解決。
深度神經(jīng)網(wǎng)絡(luò)應(yīng)為主干
記者:概括地說,除了特征提取,深度學(xué)習(xí)在語音識別領(lǐng)域主要還發(fā)揮哪些作用?
鄧力:端到端訓(xùn)練高層動態(tài)網(wǎng)絡(luò)是有監(jiān)督深度學(xué)習(xí)在語音識別領(lǐng)域應(yīng)用的精華。特征提取只是它的自然結(jié)果之一。
直到現(xiàn)在,單靠特征提取在非監(jiān)督深度學(xué)習(xí)上從未成功過。
記者:您與俞棟博士合著的新書《解析深度學(xué)習(xí)-語音識別實踐》系統(tǒng)地介紹了基于DNN的語音識別技術(shù),哪些人應(yīng)該讀這本書?他們會收獲些什么?這本書適合入門嗎?需要讀者具備什么知識基礎(chǔ)?
鄧力:我們在序言里講到這本書的對象主要是語音處理及機器學(xué)習(xí)領(lǐng)域的在讀研究生、研究者、實踐者、工程師以及科學(xué)家的學(xué)習(xí)研究工作。但注意由于我們寫書時間緊迫,有些內(nèi)容沒有加上,包括CNN、CTC、麥克風(fēng)陣列、語音分離,等等。
閱讀本書的知識基礎(chǔ)包括微積分、矩陣代數(shù)和基本的概率統(tǒng)計等。
對于入門讀者,我們同年出版的英文版《深度學(xué)習(xí):方法和應(yīng)用》(由謝磊教授翻譯成中文)可能更適合。只是材料有點過時了。
記者:您介紹了很多魯棒性的方法,有哪一種是您喜歡的嗎?
鄧力:對speaker魯棒性的方法,我很喜歡KL-divergenceregularization,不但管用,而且方法巧妙,實現(xiàn)起來也簡單。是subspace方法中的一種。
對抗環(huán)境噪音的魯棒性的方法,我在全力攻DNN之前很喜歡VTS的方法,也發(fā)明了整合語音-噪音相位的VTS方法,不但方法巧妙,在某些條件下也挺管用。但因為它用的是生成式的概念,幾年前很難用DNN方法來實現(xiàn)?,F(xiàn)在我們知道怎樣整合生成式模型和神經(jīng)網(wǎng)絡(luò)(見書中第6章和文末一些文獻),大家做這方面的研究可能就有成功希望了。
記者:書中專門談到了遷移學(xué)習(xí),舉了一些例子,如歐洲語言到中文普通話的成功遷移,那么哪些因素決定共享DNN隱層架構(gòu)在當(dāng)前語音識別領(lǐng)域的邊界和局限?遷移學(xué)習(xí)在語音識別領(lǐng)域推廣應(yīng)用的挑戰(zhàn)是什么?
- 凡本網(wǎng)注明"來源:智能制造網(wǎng)"的所有作品,版權(quán)均屬于智能制造網(wǎng),轉(zhuǎn)載請必須注明智能制造網(wǎng),http://towegas.com。違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品來源,并自負版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 01無人機機巢怎么做到免維護,看這里!
無人機機巢是實現(xiàn)全自主飛行的關(guān)鍵設(shè)備,也被稱為無人機機庫[詳細]
- 02長三乙火箭成功發(fā)射通信技術(shù)試驗衛(wèi)星十
通信技術(shù)試驗衛(wèi)星十五號由航天科技集團八院抓總研制,該衛(wèi)星[詳細]
- 03日產(chǎn)發(fā)布新自動駕駛測試車,并計劃推出
人工智能的應(yīng)用顯著增強了識別、行為預(yù)測、決策及控制能力,[詳細]
- 04注資20個億!寧德時代又成立一家新公司
股東信息顯示,羅源時代由寧德時代(300750.SZ)全資持股。羅[詳細]
- 05上海發(fā)布汽車充換電設(shè)施發(fā)展扶持辦法
針對電動出租車駕駛員充換電補貼方面,自《辦法》實施之日至[詳細]
- 06英飛凌預(yù)測:2025 GaN將為電機行業(yè)帶來
2025年3月27日,深圳——2025’中國電機智造與創(chuàng)新應(yīng)用暨電[詳細]
- 07AI重塑生活!AWE 2025五大核心亮點揭曉
中國家電及消費電子博覽會AWE2025以“AI科技、AI生活“為主[詳細]
- 08零跑汽車2024年營收321.6億,創(chuàng)始人朱
歸結(jié)零跑近兩年快速發(fā)展的原因,零跑汽車創(chuàng)始人、董事長兼CE[詳細]
- 012025年政府工作報告指引下的6G發(fā)展圖景
6G即第六代移動通信技術(shù),支持更高的傳輸速率、極低的延遲,[詳細]
- 02智元發(fā)布全國首個通用具身基座模型ViLL
在測試中,模型展現(xiàn)出跨場景任務(wù)遷移能力——面對“整理雜亂[詳細]
- 03小鵬L3級Iron人形機器人計劃于明年啟動規(guī)模化量產(chǎn)
何小鵬日前透露,小鵬汽車自主研發(fā)的L3級Iron人形機器人已在[詳細]
- 04DeepSeek出現(xiàn)后,大廠們反而加大算力基礎(chǔ)設(shè)施投資
DeepSeek的出現(xiàn)打破了全球人工智能行業(yè)里“拼算力煉模型“的[詳細]
- 05阿里QwQ-32B API接口服務(wù)上線國家超算互聯(lián)網(wǎng)
QwQ-32B是阿里Qwen團隊最新發(fā)布的推理模型,基于Qwen2.5-32B[詳細]
- 06何小鵬稱分體式飛行汽車“陸地航母”2026年量產(chǎn)
小鵬的“陸地航母”可謂是目前全球最具科幻感的汽車之一,而[詳細]
- 07歐盟擬放寬汽車碳排放規(guī)則,給行業(yè)三年
意大利工業(yè)部長AdolfoUrso表示,這拯救了歐洲汽車行業(yè),不過[詳細]
- 08【解碼CITE2025】全球數(shù)字化變局中的“
第十三屆中國電子信息博覽會數(shù)字產(chǎn)業(yè)展區(qū)全景展現(xiàn)了新一代信[詳細]
- 01世界首臺!我國700兆瓦循環(huán)流化床鍋爐
由東方電氣集團所屬東方鍋爐自主研發(fā)制造的世界首臺700兆瓦[詳細]
- 022025年全國兩會熱點前瞻——人工智能+
2025年全國兩會期間,“人工智能+”有望繼續(xù)成為熱點話題![詳細]
- 03AI智能體Manus橫空出世!中國AI實現(xiàn)自
為了驗證Manus的性能,科研人員進行了GAIA基準測試。這一測[詳細]
- 04ABB機器人與上電科達成中國機器人CR認
2月25日,ABB機器人與上海電器科學(xué)研究所(集團)有限公司在[詳細]
- 05業(yè)務(wù)規(guī)模穩(wěn)健增長 偉創(chuàng)電氣2024年度凈
偉創(chuàng)電氣堅持聚焦主營業(yè)務(wù)發(fā)展戰(zhàn)略,持續(xù)深耕現(xiàn)有產(chǎn)品市場,[詳細]
- 062025聽兩會|雷軍為加快推進自動駕駛量產(chǎn)“發(fā)聲”
根據(jù)相關(guān)預(yù)測,2025年,我國自動駕駛市場規(guī)模將突破4500億元[詳細]
- 07Intel突傳好消息!NVIDIA、博通正試產(chǎn)1
NVIDIA和博通正在對Intel的18A制程技術(shù)進行測試,如果一切順[詳細]
- 08聚焦AI,科技大佬們的兩會建議案都說了啥?
今年全國兩會,雷軍、周鴻祎、劉慶峰、李東生等多位互聯(lián)網(wǎng)科[詳細]