近年來,以超大規(guī)模模型、海量訓練數(shù)據(jù)、自監(jiān)督學習準則為特點的無監(jiān)督預訓練模型備受關注。具有高通用性的無監(jiān)督預訓練大模型,結合知識和海量數(shù)據(jù)進行融合學習,通過提取原始數(shù)據(jù)的深層表征,實現(xiàn)對于下游任務的通用支撐。
不用重復“造輪子”,預訓練大模型強大的泛化能力和優(yōu)秀的模型效果,讓AI模型從開發(fā)、部署再到應用有“規(guī)”可循,成為實現(xiàn)通用AI技術落地的有效途徑之一,也讓人看到了AI工業(yè)化、規(guī)?;涞氐氖锕狻?br />
對AI大規(guī)模落地部署應用的期待中,有不少來自各行各業(yè)的中小企業(yè),它們也是推進AI走向實用的中堅力量。對于它們而言,無監(jiān)督預訓練大模型的訓練和部署代價過于高昂,例如NLP領域預訓練模型ChatGPT參數(shù)量高達1750億,使得這項熱門技術的產(chǎn)業(yè)推廣應用困難重重。
目前,預訓練模型從比拼參數(shù)和數(shù)據(jù)量級的“秀肌肉”階段已逐漸進入冷靜期,與行業(yè)結合的輕量化模型應運而生。在2022年全球1024開發(fā)者節(jié)上,科大訊飛正式發(fā)布了工業(yè)級預訓練模型,其中包含語音及多模態(tài)兩個輕量級預訓練模型,覆蓋不同領域場景、支持多個任務,在參數(shù)量上遠遠小于業(yè)界公開模型,但在效果上卻在業(yè)界表現(xiàn)優(yōu)異,為預訓練模型工業(yè)化場景應用交出了一份全新的答卷。
輕、快、強:直擊預訓練模型行業(yè)應用痛點
以智能語音技術在行業(yè)實際應用為例,存在著面臨構建多語種、多方言語音系統(tǒng)的數(shù)據(jù)瓶頸,在高噪環(huán)境語音識別、跨信道聲紋識別等跨領域場景下的性能損失明顯,以及語音合成缺乏對于不同聲音屬性維度和用戶期望音色的靈活定制能力等問題;這些技術問題限制了行業(yè)應用的深層拓展,而預訓練大模型作為共性關鍵技術的突破,恰是行業(yè)所需。
在此觀察基礎上,科大訊飛研究院所研發(fā)的工業(yè)級中文語音預訓練模型和工業(yè)級多模態(tài)預訓練模型,聚焦“輕、快、強”三個方面,直擊行業(yè)應用痛點:
·輕:語音預訓練模型小于100M,多模態(tài)預訓練模型則小于300M,適配云、端等不同場景和不同設備的工業(yè)化落地需求;
·快:訓練數(shù)據(jù)覆蓋近場、遠場、干凈、噪聲等不同場景,教育、車載、政法等不同領域,在實際應用階段能夠快速適配落地;
·強:語音預訓練模型支持語音識別、聲紋識別、情感識別等不同任務,多模態(tài)預訓練模型支持多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等不同任務,效果在AISHELL2、Voxceleb、LRS3、DFEW、MISP等權威開源數(shù)據(jù)上均達到SOTA效果。
融合創(chuàng)新:多模態(tài)等技術為訊飛工業(yè)級預訓練模型“添彩”
以行業(yè)應用落地為關鍵導向,兼顧實用性與效果,訊飛此次發(fā)布的工業(yè)級預訓練模型在技術層面融入了多模態(tài)等方向的最新成果,也是“輕、快、強”的有力保障。
以多模態(tài)預訓練模型為例,為了構建一套適用于更多下游任務的多模態(tài)統(tǒng)一預訓練框架,訊飛研究院從常規(guī)的局部唇形信息拓展到了全局面部信息,實現(xiàn)了對表情、話術、身份等表達的面部關聯(lián)信息的充分利用,從情感、內容、身份屬性等層面強化視頻和語音支路的信息互補和信息增強,從而匹配更多的下游任務使用場景。
例如訊飛研究院充分利用人臉身份特征與聲音身份特征之間的關系,通過一致性約束進行身份信息的強化補充,從而在復雜場景下通過多模態(tài)間的信息融合實現(xiàn)更加魯棒的聲紋識別。
同時,為了充分發(fā)揮訊飛在有監(jiān)督層面的技術積累和數(shù)據(jù)優(yōu)勢,訊飛研究院利用了有監(jiān)督模型構建了情感碼本和內容碼本,并對無監(jiān)督數(shù)據(jù)提取的高層次特征表達匹配產(chǎn)生指導標簽,加快模型的訓練收斂,最終實現(xiàn)訓練代價下降80%情況下效果依然穩(wěn)定提升的優(yōu)異成績。
在多模態(tài)場景下游任務遷移中,因為實際使用場景數(shù)據(jù)難以獲取,有標注訓練數(shù)據(jù)一般只能控制在幾千小時的范圍內,在這種情況下,多模態(tài)預訓練的優(yōu)勢更加顯著,多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等任務上,訊飛預訓練框架效果平均相對提升了32%。
實力“說話”:訊飛工業(yè)級預訓練模型應用落地開花
目前,訊飛工業(yè)級預訓練模型已在多個技術方向實現(xiàn)了行業(yè)落地應用,并取得了實打實的好成績。
在全場景語音識別方面,面向重口音、高噪聲、多人對話等全場景語音識別應用,基于訊飛多模態(tài)預訓練框架實現(xiàn)了包括多模態(tài)VAD、多模態(tài)增強和多模態(tài)識別的功能,在噪聲場景較有監(jiān)督方案效果提升了30%-70%,目前已在車載領域落地,在多點噪聲干擾、同向人聲干擾等復雜場景依然能夠提供良好的交互體驗。
同時,基于訊飛語音預訓練框架的多語種、方言語音識別能力,也已經(jīng)落地翻譯機、錄音筆等,架起了語言溝通無障礙的橋梁。以阿姆哈拉、希伯來、普什圖、塔吉克四個語種為例,和XLS-R預訓練模型相比,訊飛的預訓練模型在預訓練數(shù)據(jù)需求更少、模型參數(shù)量更低的情況下,取得了更好的推廣效果。
在細粒度語音情感識別方面,面向不同類別情感定義的情感識別,基于訊飛多模態(tài)預訓練的情感識別系統(tǒng),4種情感類別加權平均召回率相對提升15%,目前也已在客服、車載、智慧大屏等場景落地。
在高可控語音合成方面,1分鐘個性化合成任務實現(xiàn)合成自然度3.9MOS分,相似度3.7MOS分,自然度接近一般普通人說話的4.0分。實現(xiàn)合成語音在音色、韻律、口音3個屬性方向上可連續(xù)調節(jié),屬性調節(jié)方向主觀感知準確性達到66%,合成自然度3.6MOS,在訊飛智慧家庭、訊飛電視語音助手、智能車載交互等場景提供更多的用戶選擇。
人工智能技術的演進和為行業(yè)智能化帶來的革新,離不開企業(yè)和開發(fā)者的共同參與投入。訊飛研究院渴望與更多伙伴攜手,基于工業(yè)級預訓練模型加速AI產(chǎn)業(yè)化應用落地的步伐,讓AI真正能“潤物細無聲”地浸入各行各業(yè),共享智能化春風下的美景。