MPEG2是當今最為流行的AV壓縮標準,可用於視頻、音頻和數位資訊儲存。完整的MPEG2標準可滿足STB等廣播應用和DVD或D-VHS、VCD等多媒體應用。MPEG2並非對MPEG2編碼器進行標準化,而是為經過MPEG2編碼的位元流提供了一種標準化格式,亦即它只規範編碼後的標準格式,不規範MPEG2編碼器內部的規格。另一方面,它也為MPEG2解碼器提供了一個標準模式,規範MPEG2解碼器的規格。
MPEG2標準的音頻部份大致基於MPEG1標準,因此二者相容性很強。這一點使得現有的MPEG1設備可對MPEG2信號中,相容於MPEG1的部份信號進行解碼;而MPEG2設備也可將MPEG1信號解碼,從而實現前向相容(forward compatible)。
表一 MPEG2標準的壓縮分層
MPEG2層 |
壓縮比 |
目標速率 |
容許速率 |
理想延遲 |
理論最小延遲 |
1 |
1:4 |
192Kbps |
32-448Kbps |
<50ms |
19ms |
2 |
1:6 |
128Kbps |
32-384Kbps |
100ms |
35ms |
3 |
1:10 |
64Kbps |
32-320Kbps |
150ms |
58ms |
壓縮分層
MPEG2和MPEG1音頻壓縮可分為三層;層數越高,壓縮的程度、所需CPU處理能力以及聲音品質也相對增加,而傳輸所需的頻寬則相應減少,如(表一)。因此,第一層的壓縮率最低、所需CPU處理能力最低、延遲也最少。由於壓縮率最低同時聲音品質最差,因此它所需的傳輸頻寬最大。而第三層的聲音品質最佳,壓縮率可達1:10,處理時間也幾乎是第一層的三倍。(表一)可清楚說明。
之所以將壓縮分為三個層,一部份是基於需要,一部份則是歷史原因。
首先,它取決於所壓縮的信號將用於哪種應用中。例如,當我們主要希望能再現高品質的聲音,其次才關注處理能力/成本,那麼應選擇第三層。而如果主要考慮的是處理能力和成本,則可選擇第一層或第二層。不過,如果選用的不是第三層,則聲音在重現時會有所欠缺,因此,用戶必須權衡考慮,選擇適合於其特殊應用的那一層。
其次,壓縮層的概念是逐漸發展而來的。第三層規範比第一、二層定得晚。當第三層規範開始流行時,採用第一、二層規範的設備已十分普及,消費者也非常熟悉了。因此,必須讓消費者能自由地選擇適合自己應用的那一層規範。這與黑白電視和彩色電視的情況有些類似。彩色電視便可對黑白電視的信號進行解碼。
《圖一 Photobank Jukebox應用示意圖》 |
|
MPEG2音頻壓縮及編碼
三層規範的音頻壓縮及編碼過程簡述如後:首先,輸入的音頻信號到達濾波器組,它採用快速傅利葉變換(FFT),將時域採樣轉換成同樣數目的頻域採樣。輸出是一系列頻寬相等的子帶。心理聲學模式過程計算每一子帶的信號掩蔽比(SMR),以便決定每一子帶可用於編碼的信號位元數。在信號位元或噪音分配過程中,通過濾波器組的輸出及SMR資訊來決定每個子帶可承受的量化噪音。量化噪音越高,這一子帶所分配的信號位元數就越低。在位元流格式化模組中,子帶頻率採樣與分配給該層的信號位元及一些其它資訊相結合,形成一個音頻訊框,這個訊框包括一個信號頭和其它資訊段。
MPEG2音頻增強功能
與MPEG1相比,MPEG2在以下方面有所改善:
1.半採樣率
在MPEG2中,僅需使用MPEG1中一半的採樣率便可保持極佳的聲音品質。這一點對評論頻道、多語頻道及多媒體等應用尤其有益,這些頻道的頻率範圍為20Hz到20kHz,但極少使用。
2.多頻道擴展
MPEG2支援5個音頻信道,共同實現一種“環繞”立體聲效果,以便獲得更為逼真的立體聲。這5個信道分別是左信道(L)、右信道(R)、中央信道(C)、左後環繞信道(Ls)和右後環繞信道(Rs)。這種情況下,在前面佈置3個高音音箱,在後面佈置2個,因此也可稱為3/2立體聲。
MPEG2音頻編解碼晶片
MPEG2音頻編碼可以單獨或與MPEG2視頻編碼一起在硬體上實現。在後一種情況下需要增加多路再使用器或多路輸出選擇器,以進行相應的編碼或解碼;也可以採用一個編解碼器來完成兩個功能。通常MPEG2音頻編碼是通過DSP來實現的,這種方案成本更低而且更為靈活。MPEG2音頻編解碼器晶片電路方塊圖如(圖一)所示。
許多電子設備廠商生產的MP3播放器中都有這一系統,並帶有MPEG2音頻第三層解碼器。一些MP3播放器可儲存約1~2小時的音樂,這種情況下通常儲存在記憶棒或快閃記憶體中。帶有硬碟的播放器則可儲存更多資訊。
如果要同時實現MPEG2音頻和視頻編碼,則兩種數據流的多路再使用是一個關鍵問題。可以在同一塊晶片上進行音頻和視頻信號編碼,也可以採用另一塊晶片。這一過程是由ITU 13818-3標準控制,可選擇使用程式流(program stream)或傳輸流(transport stream)。在多路再使用的情況下,MPEG2音頻和視頻信號共用頻寬。除了音頻和視頻信號外,數據流中還攜帶了有關兩種信號的合成資訊。這種情況下,總位元率(也稱為系統位元率)是音頻和視頻信號位元率以及數據頭和位元組填充的總和。
顯然,視頻部份佔用了大部份頻寬,當系統位元率高時,音頻信號的位元率比視頻信號或多路再使用數據流的位元率低。這種情況下,由於頻寬十分豐富,因此用戶可對音頻流的各種參數進行設置以獲得最佳的聲音品質。但是,如果位元率較低,情況就不一樣了。如果音頻部份稍稍浪費一些頻寬,視頻部份的頻寬便會不夠用。最後解析出來的視頻品質便會嚴重受損。在這種情況下應小心設置MPEG2音頻參數。如將“音頻PES調節”關閉,音頻位元率也應該降低到192kbps或甚至128kbps。這些設置對改善MPEG2資訊流解析品質十分有效。
結語
由於多媒體應用方興未艾,整合音頻和視頻的MPEG2技術雖然有一段歷史,但是它仍然是各種多媒體應用系統的主角,短期內,無任何新技術可取代它。國內有許多業者(大多集中在中和市遠雄工業區和新竹市科學園區)長期耕耘影音應用領域,但是,能真正掌握MEPG2技術者寥寥無幾,主要是因為MEPG2晶片技術長期被國外大廠把持,要突破的門檻很高之故。
最近有一種號稱「五合一」能同時儲存數位相機、MP3、手機、PDA、攝錄影機的音頻、視頻資訊之新產品,稱作Photobank Jukebox,如(圖二),它的儲存量是20GB。此產品的市場需求量非常大,雖然有一定的技術門檻,但是值得國內業者努力開發。