CTIMES- 影音世代關鍵技術－MPEG4 :專業多媒體應用軟體

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

【文章精選】鍺：綠色回收與半導體科技的新未來

【東西講座】11/29 智慧製造與資訊安全

【東西講座】11/22 新一代雙臂協作機器人：多元應用與創新商業模式

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

影音世代關鍵技術－MPEG4

【作者：李昶慶】 2002年03月05日星期二

瀏覽人次：【4361】

MPEG-4是由MPEG組織發展的標準。這個組織已經成功地提出了MPEG-1和MPEG-2標準。MPEG-4的產生是經由國際間數百位學者和工程師努力的成果。這項標準於1998年十月提出，並且在1999年年初成為世界公認的標準。MPEG-4 2.0版本於1999年年底定案，最後於2000年成為世界標準。不過還有許多地方仍在擴充當中。

MPEG-4的建立，在三個領域中被充分的運用：數位電視、互動式影像（影像合成）及互動式媒體（網際網路），MPEG-4提供了標準化技術，讓這三個領域的廠商可以迅速地開發出新的產品。

MPEG-4 DMIF和系統介紹

DMIF是媒體傳送整合框架（Delivery Multimedia Integration Framework）的縮寫，這是一種新的媒體傳輸協定，架構在現有的傳輸方式上。DMIF和FTP不同的是，FTP傳送的要求是檔案，而DMIF傳送的要求是資料流的位置。DMIF不僅僅只有框架而已，他還包含了傳輸協定，而其中的轉換介面稱之為DAI（DMIF-Application Interface）。DAI會將DMIF資料轉換成可以傳輸的資料。

DMIF包含了三個主要的技術：互動式網路技術，例如網際網路；網路廣播技術，例如有線電視；磁碟技術，例如光碟讀取。所以架構在DMIF之上的應用程式可以不必考慮傳輸模式。在這個架構之下DMIF定義了一個網路傳輸介面DNI（DMIF-Network Interface），這個介面主要定義了DMIF間（本地DMIF和遠端DMIF）資料交換模式。由(圖一)中我們可以瞭解，DNI只定義了傳輸介面並未指定實體的傳輸模式，所以遠端的DMIF可能和近端的DMIF位於同一個主機上。

《圖一　網路傳輸介面DNI》

DMIF可以允許一個場景同時經由許多個不同的DMIF傳送，同一個DMIF應用程式可以經由不同的傳輸模式來取得所需要的資料。多重傳輸技術可以讓一個應用程式經由不同的傳輸方式（例如廣播網路和本機磁碟）取得所需的資料。

DMIF 計算模式

當一個應用程式向一個作用中的伺服器發出需求時，他必須使用DAI來建立一個服務程序。DMIF便會與對應的位置聯繫，並且建立一個網路傳輸管道。

《圖二　DMIF 計算模式》

如(圖二)所示，起始的應用程式向近端的DMIF發出需求，近端的DMIF便會和遠端的DMIF建立起連線，接著遠端的DMIF便會偵測所對應的應用程式，並將需求傳給這一個應用程式，如此一來兩個應用程式間便建立起一個資料傳輸的通道。近端DMIF會因為不同的需求而連接不同的遠端DMIF。

先進同步模型（Advanced Synchronization Model）

這種彈性時間模組可以讓MPEG-4正確的將不同的物件組合成所需的場景，例如文字、聲音和影像。在不同的資料流中都包含著時間標記，解碼器便可以藉由時間標記來達成時間同步的密標。這項技術最立即的應用在於新興的網路傳播媒介。

描述性語法（Syntax Description）

MPEG-4使用描述性語法來描述資料流中的媒體物件及場景資料。

二元式場景描述（BIFS， Binary Format for Scene description）

在MPEG4中定義了不同的媒體物件，所以其必須能夠將這些物件合成所需的場景。合成場景所需的資訊經由編碼之後，隨著媒體物件傳送到接收端。MPEG所發展出的這一套語法稱之為BIFS。

媒體物件組成場景的方式： MPEG-4場景具有階級式架構，如(圖三)所示。這個結構並不是固定不變的，可依照需求增加或移除分支。

《圖三　MPEG-4場景具有階級式架構》

互動式介面（User interaction）

MPEG-4可以允許播放時接收使用者互動訊息。互動方式主要可分成兩類：伺服器端操控或接收器端操控。

物件內容資訊（OCI, Object Content Information）

MPEG-4允許媒體物件附加額外的資訊，例如材質資訊可以隨著媒體物件傳送而不是包含於其中。

MPEG-4 視訊技術介紹

視覺物件可以是自然或合成的。首先必須定義原始的自然物件，接著是合成物件。

MPEG-4影像技術之應用

MPEG-4影像技術包含了許多現有的技術。新的低頻寬傳輸技術可以使用在頻寬受限的無線傳輸設備上，例如無線影像電話。也許亦可以使用於低頻寬的監視系統上。在高頻寬的環境之下，可以傳輸具有高品質的影像，可以滿足不同的需求。最後可能在於較低的頻寬下達到MPEG-2的影像品質。

最主要的應用是在於互動式網路影像。這部分應用已經被證實是可行的，但應用程式還未能夠完全應用MPEG-4的物件導向特質。二元和灰階形狀編碼工具可以隨心所欲的合成所需要的影像，如此一來，以網路為基礎的展示或廣告便能夠具有豐富的互動影像。接著便可以借用一些衡量工具來瞭解使用者的使用習慣，讓使用者可以更順暢的瀏覽網頁。

MPEG-4編碼技術已經被使用於掌上型攝影機。因為儲存的影片可以很容易地轉換到網路應用上，所以使用這種技術的機器越來越普遍，也有使用MPEG-4編碼技術來儲存靜態畫面。另外一個應用領域是在電玩的市場上，在多人線上3D遊戲中可以加上實際影像。

MPEG-4影像編碼技術具有的彈性化吸引越來越多的程式使用這項技術。

自然材質及影像

在自然材質、畫面和影像上，MPEG-4視覺標準的核心技術提供更有效率的儲存、傳輸和運用。利用這些工具解碼時，所得到的基本組成稱之為影像物件（video objects）。例如一個演講者的影像物件（不包含背景），再加上聲音視覺物件（audio-visual object, AVO）便產生了一個場景。而傳統中的方形物件成為一個特殊案例。

為了能夠讓這一種技術發揚光大不受限於某些特殊的應用，所以MPEG4提供了許多演算法則可以應用於不同的條件之下：

● 高效率的畫面和影像壓縮

● 高效率的影像材質壓縮

● 高效率隱含的2-D多邊形壓縮

● 高效率動態幾何圖形壓縮

● 隨機存取所有型別之視覺化物件

● 畫面和影像操作功能之延伸

● 以畫面及影像內容為基礎之編碼方式

● 以材質、畫面及影像內容為基礎之畫面縮放技術

● 空間、時間及品質之縮放技術

● 於易發生錯誤之環境下的容錯技術

可變大小影像物件之編碼技術

MPEG-4擁有許多可伸縮的編碼機制：空間伸縮、時間伸縮和晤見基礎之空間伸縮。空間伸縮支援材質品質改變，物件基礎之空間伸縮提供以物件為基礎之形狀改變，如此便可以實現非常具有彈性之影像伸縮，並且可以減少雜訊、增加解析度及影像準確性等等。

強健的容錯能力

MPEG最新發展的技術稱之為新預測技術（NEWPRED， new prediciton），提供及時編碼應用上更快的錯誤修正技術。編碼器可以依照網路現況來提供合適的編碼方式。這項技術亦提供較高的壓縮效率，並且已經被使用於較易發生錯誤之環境下。

● 無線網路上之爆發性錯誤（Burst Error）

● 網際網路上之封包遺失（Packet Loss）

減少因緩衝區不足所造成之延遲

另外一個新技術稱之為動態解析度轉換（Dynamic Resolution Conversion, DRC），這項技術可以讓傳輸更為穩定，不致因為傳輸緩衝資料不足造成延遲。亦可避免大量的影像遺失，在畫面急速改變的場景下編碼器仍可正常地運作。

材質及靜態畫面的編碼方式

在MPEG-4 2.0版本中為材質及靜態畫面編碼提供了三項新工具：

● 微波貼圖：影像可以被分割成非常微小的獨立畫面，這些畫面可以單獨被編碼或解碼，所以可以應用較少的記憶體來完成編碼/解碼的工作，而解碼器之隨機存取的速度也會大量的提升。

● 可伸縮之形狀編碼技術：將各種形狀的影像及材質編碼成可伸縮之樣式。解碼器便可以依照所需，將物件解碼成所需的大小（解析度）。

● 容錯工具：新的容錯技術可以讓影像在行動通訊或網際網路傳輸中具有較高的容錯能力。

多視角物件之編碼方式

MPEG-4 1.0版本中在影像物件層中增加一個α通道，用於描述三種物件型態。這三種形態是：二元化形狀、固定形狀和灰階外形。所以MPEG-4無法有效地支援多視角影像物件。在2.0版本中又定義了多重α通道，用於傳輸輔助性物件。其中灰階物件不僅用於透明影像物件，還有其他普遍性的應用：

● 透明物體

● 多視角物件之不同外形

● 物體深度

● 紅外線或其他次要材質

所有α通道資訊皆可經由形狀編碼工具進行編碼。此種技術的應用範例如下：這項技術的基本概念在於應用最少的畫素來進行編碼的工作。由於一個多視角的物件在不同的視角下，所看到的區域必定會有重疊的狀況產生，所以對於這個物件進行編碼時，便針對完整的表面進行一次最高解析度的編碼，而不同視角所看到的形狀便可以經由原始物件投影形成。編碼器可以利用一至兩個輔助通道來儲存不同視角所看到的物件外形。

被保留下來當作編碼物件的特定視角稱之為AOI（area of interest）。所有的AOI都是MPEG-4中的一個影像物件，編碼時亦儲存了許多相關的資訊。為了避免AOI組成新物件時產生接縫問題，在兩個AOI物件邊緣必須事先做好平滑化處理。

不同視角所做的影像重建會遇到表面材質投影補償問題，此時便可以將材質資訊儲存於輔助通道中經由MPEG-4影像流傳輸。不同的AOI經由投影過之後再組成所需的物件。這個程序可以經由雙平行攝影系統或是多重攝影機同一焦點系統來完成。

自然影像之重現

MPEG-4影像編碼演算法則可以讓視覺物件以任意形狀重現，它支援所謂的內容導向機制，也支援MPEG-1和MPEG-2所提供的機制，包含了標準的方形影像壓縮機制、傳輸速率、可變之空間、時間及品質等等。

在非常低的傳輸速率之下（VLBV：very low bit0rate video），MPEG-4亦提供解決方案：

對於及時多媒體通訊應用上，以傳統方形區塊影像編碼方式編碼使用高編碼效率、高容錯能力、低等待時間、低複雜度之方式。

具有隨機存取、快速前進及快速後退機能。

MPEG-4影像編碼基本原理

《圖四　基本的編碼結構導入外形編碼和動態補償》

基本的編碼結構導入外形編碼和動態補償(圖四)。MPEG-4所使用的內容導向編碼方式具有一項重要的優點，在某些場景之下使用正確的動態預測工具，可以大幅度的提高壓縮效率。MPEG-4使用了許多動態預測技術來增進壓縮效率及提高物件重現之彈性：

● 標準之8x8或16x16像素塊狀物件動態分析及補償。

● 以靜態畫面為基礎之全域動態補償。可能是由一張靜態的畫面配上動態的背景。在一連串的畫面中只定義了八個變數，用來描述鏡頭的移動，而藉此重現整個畫面。

(圖五)展現了MPEG-4影像使用靜態全景畫面的概念。這裡假設網球選手可以從背景獨立出來，而背景可以事先取出進行編碼。所以背景只需在一開始時傳送一次，當鏡頭轉換時，只要改變某些參數便可以顯現正確的畫面。接著接收器便可以將動態之前景畫面和背景畫面組合起來成為所需的畫面。

《圖五　MPEG-4影像使用靜態全景畫面的概念》

可變大小影樣物件之編碼技術

MPEG-4具有可變空間、時間影像物件之編碼技術。此項技術可以支援傳統塊狀或任意外形之影像物件。這項技術只有應用於解碼器這一端，可以經由以下程序來達到所需的目標：

● 降低解碼器之複雜度降低來降低畫面品質

● 降低畫面解析度

● 降低時間解析度

● 在同樣的空間、時間解析度下降低品質

這種機制主要應用於影像在不同的網路傳輸時，並不是所有的接收器都能夠顯示完整的影像解析度或品質。當接收器的處理能力或螢幕解析度受到限制時就會產生這種狀況。

在靜態畫面的傳輸上，MPEG4提供了11種程度的空間變化，以及以位元為基礎之品質變化。

MPEG-4 聲音技術介紹

MPEG-4對於聲音物件的編碼技術同時支援自然音效（人聲或音樂）及合成音效。而合成音效可經由文字轉換成語音，或者經由聲音編碼展現出殘響及空間性。

自然音效

MPEG-4對於自然音效編碼傳輸率範圍可由2 kbit/s 到64 kbit/s。當變動傳輸率編碼技術使用之後，平均傳輸率可達到1.2kbit/s。在較高傳輸率的環境之下，MPEG-4提供了AAC（Advanced Audio Coding）編碼方式。MPEG-4因此為解碼器定義了一套資料流語法，在足夠的頻寬之下，必須能夠達到最完美的聲音品質同時並提供額外的控制選項。一般的資料架構中整合了語音和一般音效兩種編碼技術：

語音編碼技術應用於2～24kbit/s的範圍

其中使用了兩種編碼技術，在2～4kbit/s範圍使用了HVXC（Harmonic Vector excitation Coding），在4～24kbit/s使用CELP（Code Excited Linear Predictive）。使用上有以下幾種模式可以選擇：2～4kbit/s使用HVXC，低頻寬的狀態下可使用6、8.3和12kbit/s的CELP，高頻寬的狀態下可使用18kbit/s的CELP。實際在傳輸上可以應用可變傳輸率方式。

一般的聲音編碼支援的頻寬必須高於6kbit/s

所使用的技術有TwinVQ和AAC兩種。一般來說，最低的取樣頻率是8kHz。

實際的應用上，MPEG4可以合併以上技術加以應用，例如在低頻上使用CELP技術，而在高頻上使用AAC技術。另外MPEG4解碼器也支援其他MPEG標準的編碼技術，例如MPEG-2 AAC技術。

2.0版本增強的地方

MPEG-4 2.0版本增強的地方包括：

● 增加容錯能力

● 低延遲的聲音編碼技術

● 更細微的傳輸率動態調整間格

● 參數化聲音編碼技術

● CELP靜音壓縮

● HVXC錯誤回復

● 不同環境的空間性

● 回傳通道

● 聲音資料傳輸結構

合成音效

MPEG-4的解碼器可經由不同的輸入合成出所需的音效。文字資料可經由文字語音（TTS, Text-To-Speech）解碼器轉換，再和一般的音效進行合成。合成音樂能夠在非常低的傳輸速率下仍然保持資料的正確性。使用的技術如下：

TTS：

使用的頻寬介於200bit/s到1.2kbit/s間，可經由文字及語調參數產生清晰的合成語音。並且可以經由參數的設定來和臉部動畫或文字顯示同步。MPEG-4為TTS解碼器提供一個TTS標準化介面（TTSI, Text To Speech Interface），但並不包括TTS語音合成標準。

樂譜式驅動合成：

結構化聲音工具將輸入的資料轉成聲音輸出。這種方式經由一種稱之為SAOL(Structured Audio Orchestra Language)的特殊語法來進行合成。這種語法在資料的控制上就好比利用各種不同的樂器組成一個樂團。實際上，每個樂器就好比是網路上的一個微小訊號，用來模擬一個特殊的聲音。這些聲音可以預先儲存於軟體或硬體上，之後再加以組合運用。解碼器接收到「樂譜」之後，就可以在不同的時間點載入不同的「樂器」來產生所需的音效。這種樂譜式描述語法稱之為SASL（Structured Audio Score Language）。經由仔細的聲音控制，可以合成出簡單的音效，例如腳步聲或關門聲，也可以合成複雜的自然聲音，例如下雨聲或現代音樂。

結論

MPEG-4在通訊運用上將有廣大的發展前景。未來透過MPEG-4技術的推廣，許多應用將可獲得實現。例如：無線影像電話，網際網路之影音播放，高品質的視訊會議...等。雖然目前應用上還不是非常的普遍，但我們可以看到有越來越多的影音產品應用到這一項技術，例如：利用光碟儲存具有DVD畫質的影片。所以在這網際網路和無線通訊發達的年代，MPEG-4是一項令人期待的新技術。

(本文作者任職於揚智科技公司)

‧	AI高齡照護技術前瞻以科技力解決社會難題
‧	3D IC 設計入門：探尋半導體先進封裝的未來
‧	SiC MOSFET：意法半導體克服產業挑戰的顛覆性技術
‧	意法半導體的邊緣AI永續發展策略：超越MEMS迎接真正挑戰
‧	CAD/CAM軟體無縫加值協作

comments powered by Disqus

相關討論