科大訊飛首發(fā)工業(yè)級中文預訓練模型

2022-12-30 09:30:40來源：科大訊飛關鍵詞：工業(yè)級中文預訓練模型中文預訓練模型閱讀量：22852

導讀：預訓練大模型強大的泛化能力和優(yōu)秀的模型效果，讓AI模型從開發(fā)、部署再到應用有“規(guī)”可循，成為實現(xiàn)通用AI技術落地的有效途徑之一，也讓人看到了AI工業(yè)化、規(guī)?；涞氐氖锕?。

　　近年來，以超大規(guī)模模型、海量訓練數(shù)據(jù)、自監(jiān)督學習準則為特點的無監(jiān)督預訓練模型備受關注。具有高通用性的無監(jiān)督預訓練大模型，結合知識和海量數(shù)據(jù)進行融合學習，通過提取原始數(shù)據(jù)的深層表征，實現(xiàn)對于下游任務的通用支撐。

　　不用重復“造輪子”，預訓練大模型強大的泛化能力和優(yōu)秀的模型效果，讓AI模型從開發(fā)、部署再到應用有“規(guī)”可循，成為實現(xiàn)通用AI技術落地的有效途徑之一，也讓人看到了AI工業(yè)化、規(guī)?；涞氐氖锕狻?br />

　　對AI大規(guī)模落地部署應用的期待中，有不少來自各行各業(yè)的中小企業(yè)，它們也是推進AI走向實用的中堅力量。對于它們而言，無監(jiān)督預訓練大模型的訓練和部署代價過于高昂，例如NLP領域預訓練模型ChatGPT參數(shù)量高達1750億，使得這項熱門技術的產(chǎn)業(yè)推廣應用困難重重。

　　目前，預訓練模型從比拼參數(shù)和數(shù)據(jù)量級的“秀肌肉”階段已逐漸進入冷靜期，與行業(yè)結合的輕量化模型應運而生。在2022年全球1024開發(fā)者節(jié)上，科大訊飛正式發(fā)布了工業(yè)級預訓練模型，其中包含語音及多模態(tài)兩個輕量級預訓練模型，覆蓋不同領域場景、支持多個任務，在參數(shù)量上遠遠小于業(yè)界公開模型，但在效果上卻在業(yè)界表現(xiàn)優(yōu)異，為預訓練模型工業(yè)化場景應用交出了一份全新的答卷。

　　輕、快、強：直擊預訓練模型行業(yè)應用痛點

　　以智能語音技術在行業(yè)實際應用為例，存在著面臨構建多語種、多方言語音系統(tǒng)的數(shù)據(jù)瓶頸，在高噪環(huán)境語音識別、跨信道聲紋識別等跨領域場景下的性能損失明顯，以及語音合成缺乏對于不同聲音屬性維度和用戶期望音色的靈活定制能力等問題；這些技術問題限制了行業(yè)應用的深層拓展，而預訓練大模型作為共性關鍵技術的突破，恰是行業(yè)所需。

　　在此觀察基礎上，科大訊飛研究院所研發(fā)的工業(yè)級中文語音預訓練模型和工業(yè)級多模態(tài)預訓練模型，聚焦“輕、快、強”三個方面，直擊行業(yè)應用痛點：

　　·輕：語音預訓練模型小于100M，多模態(tài)預訓練模型則小于300M，適配云、端等不同場景和不同設備的工業(yè)化落地需求；

　　·快：訓練數(shù)據(jù)覆蓋近場、遠場、干凈、噪聲等不同場景，教育、車載、政法等不同領域，在實際應用階段能夠快速適配落地；

　　·強：語音預訓練模型支持語音識別、聲紋識別、情感識別等不同任務，多模態(tài)預訓練模型支持多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等不同任務，效果在AISHELL2、Voxceleb、LRS3、DFEW、MISP等權威開源數(shù)據(jù)上均達到SOTA效果。

　　融合創(chuàng)新：多模態(tài)等技術為訊飛工業(yè)級預訓練模型“添彩”

　　以行業(yè)應用落地為關鍵導向，兼顧實用性與效果，訊飛此次發(fā)布的工業(yè)級預訓練模型在技術層面融入了多模態(tài)等方向的最新成果，也是“輕、快、強”的有力保障。

　　以多模態(tài)預訓練模型為例，為了構建一套適用于更多下游任務的多模態(tài)統(tǒng)一預訓練框架，訊飛研究院從常規(guī)的局部唇形信息拓展到了全局面部信息，實現(xiàn)了對表情、話術、身份等表達的面部關聯(lián)信息的充分利用，從情感、內容、身份屬性等層面強化視頻和語音支路的信息互補和信息增強，從而匹配更多的下游任務使用場景。

　　例如訊飛研究院充分利用人臉身份特征與聲音身份特征之間的關系，通過一致性約束進行身份信息的強化補充，從而在復雜場景下通過多模態(tài)間的信息融合實現(xiàn)更加魯棒的聲紋識別。

　　同時，為了充分發(fā)揮訊飛在有監(jiān)督層面的技術積累和數(shù)據(jù)優(yōu)勢，訊飛研究院利用了有監(jiān)督模型構建了情感碼本和內容碼本，并對無監(jiān)督數(shù)據(jù)提取的高層次特征表達匹配產(chǎn)生指導標簽，加快模型的訓練收斂，最終實現(xiàn)訓練代價下降80%情況下效果依然穩(wěn)定提升的優(yōu)異成績。

　　在多模態(tài)場景下游任務遷移中，因為實際使用場景數(shù)據(jù)難以獲取，有標注訓練數(shù)據(jù)一般只能控制在幾千小時的范圍內，在這種情況下，多模態(tài)預訓練的優(yōu)勢更加顯著，多模態(tài)語音識別、多模態(tài)情感識別、多模態(tài)聲紋識別等任務上，訊飛預訓練框架效果平均相對提升了32%。

　　實力“說話”：訊飛工業(yè)級預訓練模型應用落地開花

　　目前，訊飛工業(yè)級預訓練模型已在多個技術方向實現(xiàn)了行業(yè)落地應用，并取得了實打實的好成績。

　　在全場景語音識別方面，面向重口音、高噪聲、多人對話等全場景語音識別應用，基于訊飛多模態(tài)預訓練框架實現(xiàn)了包括多模態(tài)VAD、多模態(tài)增強和多模態(tài)識別的功能，在噪聲場景較有監(jiān)督方案效果提升了30%-70%，目前已在車載領域落地，在多點噪聲干擾、同向人聲干擾等復雜場景依然能夠提供良好的交互體驗。

　　同時，基于訊飛語音預訓練框架的多語種、方言語音識別能力，也已經(jīng)落地翻譯機、錄音筆等，架起了語言溝通無障礙的橋梁。以阿姆哈拉、希伯來、普什圖、塔吉克四個語種為例，和XLS-R預訓練模型相比，訊飛的預訓練模型在預訓練數(shù)據(jù)需求更少、模型參數(shù)量更低的情況下，取得了更好的推廣效果。

　　在細粒度語音情感識別方面，面向不同類別情感定義的情感識別，基于訊飛多模態(tài)預訓練的情感識別系統(tǒng)，4種情感類別加權平均召回率相對提升15%，目前也已在客服、車載、智慧大屏等場景落地。

　　在高可控語音合成方面，1分鐘個性化合成任務實現(xiàn)合成自然度3.9MOS分，相似度3.7MOS分，自然度接近一般普通人說話的4.0分。實現(xiàn)合成語音在音色、韻律、口音3個屬性方向上可連續(xù)調節(jié)，屬性調節(jié)方向主觀感知準確性達到66%，合成自然度3.6MOS，在訊飛智慧家庭、訊飛電視語音助手、智能車載交互等場景提供更多的用戶選擇。

　　人工智能技術的演進和為行業(yè)智能化帶來的革新，離不開企業(yè)和開發(fā)者的共同參與投入。訊飛研究院渴望與更多伙伴攜手，基于工業(yè)級預訓練模型加速AI產(chǎn)業(yè)化應用落地的步伐，讓AI真正能“潤物細無聲”地浸入各行各業(yè)，共享智能化春風下的美景。

上一篇：嵐圖汽車在挪威開啟交付，2023年將再入四國

下一篇：SK Energy與多家公司聯(lián)盟將一站式氫燃料電動汽車充電站商業(yè)化

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關。

版權與免責聲明：

凡本站注明“來源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡有限公司-智能制造網(wǎng)合法擁有版權或有權使用的作品，未經(jīng)本站授權不得轉載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的，應在授權范圍內使用，并注明“來源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關法律責任。

本站轉載并注明自其它來源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負責，不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時，必須保留本站注明的作品第一來源，并自負版權等法律責任。如擅自篡改為“稿件來源：智能制造網(wǎng)”，本站將依法追究責任。

鑒于本站稿件來源廣泛、數(shù)量較多，如涉及作品內容、版權等問題，請與本站聯(lián)系并提供相關證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯過行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

今日焦點/FOCUS 更多

熱門話題/TOPICS更多

人形機器人奏響“狂歡曲”

高難度！深圳眾擎實現(xiàn)全球首例人形機器人前空翻

宇樹科技王興興：預計年底H1機器人跑速達10米/秒超博爾特

“智能經(jīng)濟”駛入發(fā)展“快車道”

AI智能體Manus橫空出世！中國AI實現(xiàn)自主執(zhí)行能力跨越式突破

數(shù)轉智改，安全先行！“以模制?！弊o航企業(yè)數(shù)智升級

精彩直播/VIDEO更多

回放

【與智造同行】走進華為AI＋制造行業(yè)峰會2025——如何讓智能制造走深走實？華為給你答案！

: 數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟分論壇

推薦產(chǎn)品/PRODUCT 更多

國產(chǎn)兆芯商務主板
兆芯KX-7000 M-ATX主板,支持4個根DDR5,支持4個PCIE插槽,支持3個立式SATA,集特智能
品牌
集特智能
日本FUJI富士環(huán)形鼓風機消音棉
富士鼓風機,日本富士鼓風機,富士環(huán)形鼓風機,高壓富士鼓風機,富士漩渦風機
品牌
Fujifilm/富士
艾默生GE IC695 PLC模塊
模擬電流輸入模塊。
品牌
GE
產(chǎn)品手冊美國VICKERS威格士液壓控制閥
DGMX2-5-PA-FW-B-30現(xiàn)貨,美國威格士液壓閥,vickers控制閥,美國威格士溢流閥安裝,威格士控制閥操作指導
品牌
威格士/VICKERS
汽車系列設備線耐刮磨試驗機
耐刮磨試驗機,耐刮磨測試機,耐刮磨設備,耐刮磨檢測設備
品牌
湖北高天
噴涂除塵濾芯集塵器
移動式吸塵器,工業(yè)吸塵器,粉塵吸塵機,粉塵吸塵器,干濕兩用吸塵器
品牌
其他品牌

国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

科大訊飛首發(fā)工業(yè)級中文預訓練模型

熱門評論

全部評論