国产强伦姧在线观看无码,中文字幕99久久亚洲精品,国产精品乱码在线观看,色桃花亚洲天堂视频久久,日韩精品无码观看视频免费

      您現(xiàn)在的位置:智能制造網(wǎng)>技術中心>基于ARM的MPEG4視頻*

      直播推薦

      更多>

      企業(yè)動態(tài)

      更多>

      推薦展會

      更多>

      基于ARM的MPEG4視頻*

      2008年01月31日 09:52:13人氣:785來源:浙江啟揚智能科技有限公司

        
      1  引  言

      本文旨在研究基于ARM微處理器的MPEG-4視頻解碼技術,主要應用在手持移動設備中。利用嵌入式系統(tǒng)實現(xiàn)MPEG-4視頻解碼,處理器的選擇是關鍵。在嵌入式系統(tǒng)中常用的RISC處理器是ARM核,主要是因為它具有體積小,功耗低,成本低,性價比高的特點,這對于移動應用領域非常重要。ARM7系列微處理器為低功耗的32位RISC處理器,于對價位和功耗要求較高的消費類應用。本*定位于低分辨率和低幀率的應用場合,因此選擇在ARM7TDMI核上實現(xiàn)解碼功能。要實現(xiàn)更高幀率和分辨率的解碼,可將軟件直接應用在更的處理器上。

      2  MPEG-4視頻解碼算法的優(yōu)化與實現(xiàn)

      MPEG-4標準可以劃分為一套子標準,標準的每一部分都有各自的應用場合。MPEG-4 SVP就是一種特殊的、簡單的MPEG-4實現(xiàn),SVP代表Simple Visual Profile。這部分是專門針對手持式產(chǎn)品中無線視頻傳輸應用場合而制定的。由于本*應用在手持移動設備視頻解碼的場合,因此選用MPEG-4 SVP作為解碼算法。

      本文選用ARM7TDMI作為核心處理器進行MPEG-4視頻*的開發(fā)。在實際開發(fā)過程中,針對ARM7TDMI的結(jié)構和MPEG-4的算法特點,做了大量優(yōu)化工作,保證了解碼的精度,大幅度提高了解碼的速度。*的具體功能如表1所列。

      表1  基于ARM7TDMI的MPEG-4視頻*功能表

      2.1 *算法

      解碼過程實際上就是從視頻編碼碼流中恢復出VOP數(shù)據(jù)的過程。圖1描述了一個視頻解碼過程。*主要包含兩部分: 運動解碼和紋理解碼。I幀中只含有紋理信息,因此只須解碼紋理信息即可恢復I幀。而P幀中不僅包含紋理信息,還包含運動信息,所以須解碼運動信息,獲得運動矢量并進行運動補償。另外,還須進行紋理解碼獲得殘差值,將這兩部分組合起來才能重建P幀。

      圖1  MPEG4 SVP的解碼過程

      *的實現(xiàn)主要是提供一個簡單的接口函數(shù),供解碼時調(diào)用。該接口函數(shù)根據(jù)解碼的不同需要和不同階段提供了5個入口。5個接口函數(shù)中: 4個供初始化、預處理及后續(xù)處理時調(diào)用;剩余1個是幀解碼的實現(xiàn)函數(shù)。圖2為幀解碼主程序的流程圖。

      圖2  幀解碼主程序的流程圖。

      解碼過程的計算主要集中在如下幾個模塊:IDCT、運動補償MC、逆量化、逆掃描、逆預測以及變長解碼VLD。表2給出了優(yōu)化前解碼過程的特征信息。

      從表2中可以看出,上述運算模塊在解碼過程中占有很大比例。對以上各模塊進行優(yōu)化的效果將直接反映在*的實時效率上。

      表2  優(yōu)化前解碼過程的特征信息

      2.2 ARM平臺下算法的優(yōu)化

      ARM結(jié)構是基于RISC原理的,指令集和相關的解碼機制都比CISC要簡單得多。它能地輸出指令,快速送出實時中斷響應;它還進行了管道設置,處理和存儲系統(tǒng)的所有部分可以持續(xù)地運轉(zhuǎn)。在典型的情況下,當一條指令被執(zhí)行時,其后續(xù)指令正在被解碼;而第三條指令便從存儲器中取出。ARM7TDMI并不具有指令或數(shù)據(jù)的高速緩存,主要被用于控制核心,而非數(shù)據(jù)處理。但通過對其特性的靈活運用,可以使其非常容易地應用于視頻解碼過程。對MPEG4視頻*的算法優(yōu)化主要從以下幾方面入手:

      (1) 算法的優(yōu)化
      這里是指C語言轉(zhuǎn)化算法以簡化計算量, 用*算法實現(xiàn)解碼中的各模塊。

      ① IDCT算法的選擇
      IDCT運行次數(shù)多,運算量很大,其變換的快慢直接影響解碼的速度。本文采用一種稱為AAN的快速算法。其一維8點的DCT變換通過16點DFT來實現(xiàn),而16點DFT又可通過FFT實現(xiàn);二維8×8的DCT運算僅需80次乘法和464次加法操作,大大減小了這部分的運算量。用AAN算法實現(xiàn)IDCT運算時,實際上是用IDFT取代IDCT,所以首先要得到DFT系數(shù)。方法是逆量化后直接將DCT系數(shù)分別乘以尺度因子,也就是說將尺度變換與逆量化結(jié)合。

      ② 除法運算的消除
      一個除法操作須花費60~120個周期進行處理,而一個乘法操作zui多需要4個周期。在除法可以被乘法代替而不喪失準確性的計算中,這樣做是非常有好處的。在反向DC系數(shù)預測過程中,DC系數(shù)重構后,立即對其進行逆量化,從而消除除法運算。

      ③ 存儲訪問的減少
      在任何實現(xiàn)中盡可能減少存儲訪問都是非常有價值的。由于ARM7TDMI內(nèi)沒有緩存,每次訪問都是對外部存儲器進行的,所以這樣做尤為重要。通過在任何可能的地方結(jié)合解碼過程,訪問的次數(shù)即可減少。I幀中反向DC系數(shù)預測與DC系數(shù)逆量化的結(jié)合、逆掃描與變長解碼的結(jié)合,以及逆量化與IDCT的結(jié)合,P幀中變長解碼、逆掃描與反量化的結(jié)合,對于每個非零系數(shù)只需一次讀入和一次存儲。同時,像素重建也在IDCT之后立即進行。這樣對每個系數(shù)來說,又減少了一次讀入和存儲。

      (2) 根據(jù)ARM7TDMI芯片結(jié)構的優(yōu)化
      這里的優(yōu)化主要體現(xiàn)在節(jié)約寄存器資源。任何一種芯片的寄存器資源都是有限的,ARM7TDMI的通用寄存器總數(shù)為31個,對于小規(guī)模應用程序是足夠了,但在MPEG4解碼過程中往往會用到較多的寄存器,所以仍須節(jié)儉。方法如下: 其一,在可能的情況下盡量少用寄存器,比如可對一個寄存器多次使用。其二,根據(jù)具體情況選擇*的變量類型,在局部變量中,使用int類型效率zui高;而對于全局變量,使用short類型,則可減小Flash的使用量。

      (3) 匯編/結(jié)構層的優(yōu)化
      盡管編譯器可以產(chǎn)生匯編代碼,但為了使代碼效率更高,根據(jù)ARM7TDMI的特性對模塊IDCT、IQ、VLD、DC/AC預測和MC進行手工匯編編碼。下面詳細闡述不同的優(yōu)化方法及其所使用的模塊。

      ① 內(nèi)部循環(huán)的解開
      循環(huán)的解開其實也是為了增強程序中的并行處理能力。對于解循環(huán),不能在解開的循環(huán)中保留線性過程,即指令在執(zhí)行過程中的結(jié)果不能作為后續(xù)指令的輸入數(shù)據(jù);否則也就失去了并行處理能力,解循環(huán)也就失去了意義。
      ② 乘法和除法盡量用移位運算來完成
      對于2的冪次乘法或除法使用移位將會提高不少效率,一條除法指令使用的周期數(shù)遠遠多于移位指令。
      ③ 盡可能將循環(huán)內(nèi)部的負荷放到循環(huán)外面
      這點很重要,因為許多循環(huán)內(nèi)部包括一條或幾條運算語句,這些語句將被重復運算,因此如果事先設定一個變量,然后賦上那幾條運算語句的值,并替換到循環(huán)外部,則會極大地節(jié)省芯片資源,特別是對于循環(huán)中含有除法運算的情況。在逆量化循環(huán)運算中,存在著大量冗余計算,原因在于逆量化運算中參數(shù)的重復計算,而對于每幀解碼VOP,這些參數(shù)是*的。因此,可將這些參數(shù)的計算放到逆量化循環(huán)外面,則每幀只須計算一次。這樣即可節(jié)約大量的指令周期。
      ④ 功能參數(shù)的優(yōu)化數(shù)量
      在ARM編譯的過程中,子程序的參數(shù)是通過寄存器R0~R3來傳遞的。如果所傳遞的參數(shù)多于4個,那么超出的參數(shù)將被壓入棧內(nèi);當它們在函數(shù)中被*次訪問時,便會從棧中彈出。通過把參數(shù)的數(shù)量減少到4個或者少于4個,則可直接使用,而無需任何的調(diào)入,因為這些值都可從寄存器中獲得。
      ⑤ 利用LDM和STM減少存儲器的訪問
      批量加載/存儲指令可以實現(xiàn)在一組寄存器和一塊連續(xù)的內(nèi)存單元之間傳輸數(shù)據(jù)。LDM為加載多個寄存器;STM為存儲多個寄存器。這種特性非常有用,因為與單字加載/存儲相比,它在執(zhí)行周期上花費更少。因此它在IDCT中得到了有效的利用,用于同一時刻取出一行的所有系數(shù)。同樣在運動補償過程中,一組數(shù)據(jù)字在指令的一次執(zhí)行中獲得,并且暫時存儲在多個寄存器中以便日后使用。
      ⑥ 指令的有條件執(zhí)行
      有條件執(zhí)行的特性被ARM7TDMI的所有算法和數(shù)據(jù)移位指令支持。這是一項可選的特性。它在指令被執(zhí)行時設置標記。有條件執(zhí)行通常用于循環(huán)退出條件和飽和條件,可以節(jié)省退出循環(huán)中的一個指令CMP。對于循環(huán)次數(shù)很多的情況,即使是一個指令的減少也有很大的好處。在變長解碼中就很好地利用了這種特性。
      ⑦ 一種用于運動補償?shù)挠行?yōu)化方法
      解碼過程中處理的像素是8位。如果運動補償是在字節(jié)或像素的基礎上執(zhí)行,那么字節(jié)加載和存儲將被使用,它是存儲器訪問中代價zui高的操作。因為ARM7TDMI是32位微處理器,存儲器可以按字讀取數(shù)據(jù),因此設計出一種有效的運動補償方法,即在字數(shù)據(jù)的基礎上進行操作。利用這種方法,便可以用一種非常有效的方式同時對4像素進行運動補償。 
       下面以水平方向的半像素補償為例,講述補償?shù)倪^程。補償?shù)脑砣鐖D3所示。

      首先讀入一個字到寄存器中,從低到高的數(shù)據(jù)依次對應的是像素0、像素1、像素2和像素3;然后將讀碼流指針增加1字節(jié),再讀取下一個字到另一寄存器中,從低到高的數(shù)據(jù)依次對應的為像素1、像素2、像素3和像素4。示意圖如圖4所示。

            圖3  半像素內(nèi)插示意圖                          圖4  4像素補償原理示意圖

      半像素補償可由x=(A+B+1-rounding_control)/2來實現(xiàn)。式中: A和B為參考幀中兩個相鄰的像素數(shù)據(jù);rounding_control可取0或1。

      按照補償公式對上述兩個寄存器進行相加移位操作,但是對應像素兩兩相加時可能會產(chǎn)生進位。為了解決這個問題,須設置保護位,具體方法如下:

      將上述兩個寄存器中的任意一個(如寄存器1)與0xFEFEFEFF相“與”,則寄存器1中像素1、2、3的zui低位被清0,即將后一字節(jié)的zui低位設置為前一字節(jié)的保護位。而對于第3字節(jié),因為寄存器本身帶有進位狀態(tài)標志,所以無需另外設置。

      •如果rounding_control為0,則將寄存器2與0x01010101相加,然后再和0xFEFEFEFF相“與”,設置進位保護位;如果rounding_control為1,則直接將寄存器2和0xFEFEFEFF相“與”。
      •將以上兩步的結(jié)果相加,判斷進位狀態(tài)標志。若有進位,則將相加結(jié)果的zui高位,即寄存器的第31位置1,zui后右移1位。所得結(jié)果即補償后的4個像素值。
      在同時對4像素進行補償?shù)倪^程中,只有當相鄰兩像素的zui高位都為1時,才會有進位產(chǎn)生。使用這種補償方法其實犧牲了部分精度,但這里只是使所影響的像素值增加了1,所以影響并不大,而且可以使補償速度大大提升。同時對4像素進行補償?shù)倪^程中,寄存器加載需要3個周期,存儲需要2個周期,共有兩次加載和一次存儲操作,中間的加法和移位操作需要6個指令周期,共需14個周期。如果對上面4個像素分別進行補償,則需5次加載操作和4次存儲操作,共23個周期,另外中間計算還需12個周期,所以共需35個周期??梢?,犧牲部分精度換取補償速度是很值得的。

      對于垂直方向和水平垂直方向的半像素補償,其原理與水平方向相同。

      3  實驗結(jié)果與數(shù)據(jù)分析

      通過優(yōu)化,MPEG4的解碼性能有了較大的提升。在ADS1.2環(huán)境下分別對各模塊進行C算法優(yōu)化和ARM代碼優(yōu)化,結(jié)果如表3所列。按調(diào)用一次模塊函數(shù)所需周期數(shù)進行統(tǒng)計。

      表3  仿真器上各模塊單獨統(tǒng)計(使用QCIF格式圖像news)

      這些模塊是解碼過程中經(jīng)常會調(diào)用的函數(shù),因此,這些函數(shù)的優(yōu)化將使解碼速度有明顯的提高。

      表4比較了不同序列的15幀QCIF格式視頻解碼優(yōu)化前后所需的帶寬。這些圖像具有不同的復雜度,因而結(jié)果也不一樣。

      表4  對不同序列的優(yōu)化結(jié)果(15fps QCIF格式)

      注: ① 為標準視頻測試序列。

      解碼速度基本取決于圖像畫面的運動情況和顏色是否豐富。從上面的數(shù)據(jù)可以看出對于不同的序列,其解碼速度也不同。news、salesman和miss_am之所以很快,是因為圖像背景靜止,只有肩部和頭部有運動,所以P幀的編碼數(shù)據(jù)量較少,解碼速度較高。另外,如果圖像很簡單(單調(diào)),其能量集中到DC系數(shù)(直流分量)上,交流系數(shù)會出現(xiàn)多個零,因此變長解碼速度就會較高,從而節(jié)約了解碼時間。

      從仿真速度分析,通過本文所總結(jié)的ARM7TDMI上視頻解碼的優(yōu)化方法,可以使MPEG4視頻解碼節(jié)約大量的數(shù)據(jù)處理時間。由實驗結(jié)果可見,本視頻*能較好地滿足低分辨率、低幀率場合實時解碼的要求。

      4  MPEG4視頻解碼的嵌入式系統(tǒng)實現(xiàn)

      實現(xiàn)本*的主要硬件平臺是Easy ARM2200,如圖5所示。它是一款功能強大的32位ARM單片機開發(fā)板,采用了Philips公司的ARM7TDMIS核,以及總線開放的單片機LPC2210,具有JTAG調(diào)試功能。

      圖5  Easy ARM2200開發(fā)板

      開發(fā)板上除了提供鍵盤、LED和RS232等一些常用功能部件外,還具有4Mb SRAM、16Mb FLASH、IDE硬盤接口、CF存儲卡接口、以太網(wǎng)接口和Modem接口等。

      本文選擇在μClinux操作系統(tǒng)上調(diào)試MPEG4解碼程序。調(diào)試過程分為以下幾個步驟:
      •建立μClinux開發(fā)環(huán)境;
      •在μClinux下開發(fā)應用程序;
      •添加應用程序到目標系統(tǒng)并調(diào)試。

      圖6 為一個基于μClinux的嵌入式系統(tǒng)典型框架結(jié)構圖。

      圖6  基于μClinux嵌入式系統(tǒng)框圖

      (1) 建立μClinux開發(fā)環(huán)境

      為了實現(xiàn)基于μClinux的應用系統(tǒng)的開發(fā),建立或擁有一個完備的μClinux開發(fā)環(huán)境是十分必要的。建立μClinux開發(fā)環(huán)境主要包括以下3個步驟:
      •建立交叉編譯器;
      •編譯μClinux內(nèi)核;
      •加載內(nèi)核。

      在完成上述所有工作后,一個嵌入式應用開發(fā)平臺就已經(jīng)搭建好了。在這個平臺之上,可以根據(jù)不同需要開發(fā)嵌入式應用。

      (2) 在μClinux下開發(fā)應用程序

      基于μClinux系統(tǒng)的應用程序的開發(fā),通常是在標準Linux平臺上用交叉編譯工具armelfgcc來完成的。ADS和armelfgcc都是ARM公司提供的軟件開發(fā)工具,它們都支持ARM指令集,但部分偽指令集不同。因此為了將在ADS1.2環(huán)境下優(yōu)化好的源代碼移植到armelfgcc環(huán)境下,就需要對源代碼的偽指令作修改, 然后用armelfgcc編譯源文件,以生成可在目標板上運行的可執(zhí)行程序。

      (3) 添加應用程序到目標系統(tǒng)并調(diào)試

      要在硬件板上調(diào)試,就必須首先把應用軟件的可執(zhí)行程序添加到目標系統(tǒng)中。有多種途徑可以達到這一目的。本文使用的是網(wǎng)絡方法,通過以太網(wǎng)接口從網(wǎng)絡添加用戶程序到目標系統(tǒng)中運行。

      完成上述工作后,MPEG4解碼程序就可以在μClinux系統(tǒng)上運行了,解碼結(jié)果數(shù)據(jù)流通過以太網(wǎng)動態(tài)傳輸?shù)絇C機上。對幾個典型QCIF格式圖像解碼的幀率如表5所列。

      表5  在μClinux操作系統(tǒng)中MPEG4視頻解碼的幀率

      觀察發(fā)現(xiàn)與前面的軟件仿真結(jié)果是一致的。對于序列news、miss_am和salesman這些運動動作不太大的圖像,解碼幀率明顯較高;而對于foreman、carphone和trevor這些運動動作較大的圖像,解碼幀率就較低。

      實驗結(jié)果表明,本系統(tǒng)可以實現(xiàn)低幀率、低分辨率的嵌入式MPEG4視頻實時解碼。

      5  結(jié)束語

      本文重點研究了基于ARM開發(fā)平臺對MPEG4實時解碼的算法優(yōu)化及其硬件實現(xiàn)。主要完成了以下幾方面工作: 針對ARM7TDMI的體系結(jié)構,對解碼的關鍵部分進行了算法優(yōu)化和代碼優(yōu)化,從而極大地提高了解碼速度;針對具體的硬件平臺——基于ARM7TDMI的Eeay ARM2200開發(fā)板,建立了μClinux開發(fā)環(huán)境,在其上開發(fā)應用程序,添加到目標系統(tǒng)中并調(diào)試,zui后完成了15fps的MPEG4視頻解碼嵌入式系統(tǒng)的實時實現(xiàn)。

      隨著人們對視覺媒體的要求越來越高,基于嵌入式系統(tǒng)視頻解碼技術將具有越來越廣闊的前景。

      全年征稿/資訊合作 聯(lián)系郵箱:1271141964@qq.com

      免責聲明

      • 凡本網(wǎng)注明"來源:智能制造網(wǎng)"的所有作品,版權均屬于智能制造網(wǎng),轉(zhuǎn)載請必須注明智能制造網(wǎng),http://towegas.com。違反者本網(wǎng)將追究相關法律責任。
      • 企業(yè)發(fā)布的公司新聞、技術文章、資料下載等內(nèi)容,如涉及侵權、違規(guī)遭投訴的,一律由發(fā)布企業(yè)自行承擔責任,本網(wǎng)有權刪除內(nèi)容并追溯責任。
      • 本網(wǎng)轉(zhuǎn)載并注明自其它來源的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點或證實其內(nèi)容的真實性,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品來源,并自負版權等法律責任。
      • 如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

      <
      更多 >

      工控網(wǎng)機器人儀器儀表物聯(lián)網(wǎng)3D打印工業(yè)軟件金屬加工機械包裝機械印刷機械農(nóng)業(yè)機械食品加工設備制藥設備倉儲物流環(huán)保設備造紙機械工程機械紡織機械化工設備電子加工設備水泥設備海洋水利裝備礦冶設備新能源設備服裝機械印染機械制鞋機械玻璃機械陶瓷設備橡塑設備船舶設備電子元器件電氣設備


      我要投稿
      • 投稿請發(fā)送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
      • 聯(lián)系電話0571-89719789
      工業(yè)4.0時代智能制造領域“互聯(lián)網(wǎng)+”服務平臺
      智能制造網(wǎng)APP

      功能豐富 實時交流

      智能制造網(wǎng)小程序

      訂閱獲取更多服務

      微信公眾號

      關注我們

      抖音

      智能制造網(wǎng)

      抖音號:gkzhan

      打開抖音 搜索頁掃一掃

      視頻號

      智能制造網(wǎng)

      公眾號:智能制造網(wǎng)

      打開微信掃碼關注視頻號

      快手

      智能制造網(wǎng)

      快手ID:gkzhan2006

      打開快手 掃一掃關注
      意見反饋
      關閉
      企業(yè)未開通此功能
      詳詢客服 : 0571-87858618