多格式MP3播放機剖析

│新東西市集│東西講座│影音頻道│出版中心│智動化專區│

元件次系統自動控制

最新動態

產業快訊

整合創新X智造未來TIMTOS 2025 聚焦AI新商機

汽配及移動科技產業，參展熱烈報名中!

CTIMES / 文章 /

多格式MP3播放機剖析

【作者：誠君】 2001年01月01日星期一

瀏覽人次：【4166】

最近人們對MP3編碼歌曲和播放機的興趣，說明了音樂公司的業務模式正在快速發展和變革，其變革的動力是日益普及的網際網路和電子商務。MP3和其他音頻壓縮格式，例如ACC、EPAC、WMA、Qdesign和AC3以及數位版權管理，都是用來保證音樂內容提供者的權益，並保護其音樂曲目不被盜版。

我們注意到MP3是基於MPEG1的Layer3音頻標準(MPEG 1 Layer 3)；AAC為先進音頻編碼標準(Advance Audio Coding，為MPEG2音頻標準的一部份)；QDMC為Qdesign的音樂編解碼標準(Qdesign's Music CODEC)；EPAC為Lucent的增強知覺音頻編碼(Enhanced Perceptual Audio Coder)；WMA為微軟的Windows媒體音頻標準(Windows Media Audio)。

本文包括兩部份。第一部份介紹了目前市場上幾種主要的音頻壓縮技術。第二部份描述了播放機的硬體，並討論安全數位音樂倡導者聯盟(SDMI)所提出的數位版權管理(DRM)建議。

解碼器基礎

目前市面上流行許多人類聽覺系統編碼演算法，它們達到了10至12倍壓縮比，並保有CD的音質。這些編碼器採用了知覺編碼、頻域編碼、窗口切換和動態位元分配四種關鍵技術來消除原始音頻數據冗餘和無關的內容。

知覺編碼

知覺編碼是藉由消除與人類聽覺系統的無關數據來完成壓縮。人的耳朵可看成是一種濾波器，其頻寬從50Hz到5kHz。在此頻寬內的聽覺系統會表現出某些屏蔽特性，這種特性可用於數據壓縮。當有一個強聲音信號(屏蔽者)時，而同時又出現相對較弱的信號(被屏蔽者)，並且兩者在頻域上很接近時，人耳將聽不到後者。

如果兩者只是在相近的不同頻寬內，這種屏蔽效應將大大減弱。

根據經驗可以得出一個屏蔽臨界值。振幅值在臨界值以下的信號將聽不到，所以可以去除而不會影響聲音品質。即使沒有任何強信號屏蔽，小於靜音臨界值的聲音也將無法聽到，換句話說，這些聲音也可以去除。我們同樣注意到低頻範圍的屏蔽臨界值比高頻的斜率更大，也就是說，高頻信號比低頻信號更容易屏蔽。

另一種屏蔽現象為"時域屏蔽"，這種現象為當一個強信號出現的前後時刻，也出現一個較弱的信號時，後者也會被屏蔽。然而，前向屏蔽(被屏蔽者在前)的有效時間範圍要遠小於後向屏蔽(屏蔽者在前)的範圍。還有另外一種方法稱為"噪音整形屏蔽"，是將噪音編碼再移到對音質影響最小的頻率範圍(圖一)。

《圖一　一個基本感知編碼解碼器》

頻域編碼

一種有效的消除冗餘數據的方法是，將通常有很強相關性的時域數據變換到各元素幾乎不相關的頻域內。經常採用頻率變換，產生一組相互幾乎無關的頻譜元素，來去除數據的冗餘內容。這樣做的好處是，將所得到的數據結構用來設計壓縮演算法比較便利，因為人類對聲音的感知與其頻率有關。根據所需的頻率解析度，可以採用變換編碼或子帶(subband)編碼。

變換編碼的頻譜解析度比較高，而子帶編碼的頻譜解析度通常較低。它們還可以結合成一個混合濾波器，在不同頻率處有不同的解析度，這樣既簡單又靈活。最簡單的子帶編碼系統包括一組M型帶通濾波器(分析濾波器)將輸入信號分隔成M個子帶，這些子帶可以相互重疊，也可以不相互重疊。

每個濾波器的輸出為10M，結果取樣數等於輸入取樣數。進一步對輸出結果進行處理，即可得到必要的壓縮。在接收器(解碼器)中，藉由填充零值來增大每個子帶的取樣率，直到它等於原信號取樣率。然後再藉由合成濾波器來產生最終的重建輸出。

變換編碼係將一段採樣值被線性變換成一組幾乎互不相關的數據，稱為變換系數。常見的變換有離散傅立葉變換(DFT)和離散餘弦變換(DCT)。這些系數再根據人類心理聲學模型來量化和壓縮。

這類變換通常都有分塊邊界效應(有限長度對濾波器反應的限制)，所以一般用"修正DCT(MDCT)"來計算它。MDCT採用50%重疊的連續分析塊，如果不加量化的話就沒有分塊邊界效應。如果有量化，由於子帶重疊導致濾波器脈衝反應的加倍，所以邊界效應也不明顯。MDCT還有一個比DCT更高的變換編碼增益和通帶反應更好的基本序列，我們可以用混合方案在效率和解析度之間達到良好的折衷。

窗口切換

頻域編碼的一個顯著的現象是前向回波(pre-echoes)。例如，一段靜止之後聲音幅度的突然增大(attack)會導致量化誤差增大。在變換編碼和子帶編碼中，頻域變換作業的整個分塊都會有這個錯誤，這就導致回到時域之後，會出現聲音前向回波。消除它的一種方法是將誤差限制在一個較小的時間段內。

這樣把聲音的其它部份與前向回波分開，還能產生可屏蔽整個或部份前向回波的前向屏蔽效應。將誤差限制在一個較小的時間段內，意味著採用更小的分塊來進行頻域變換。這種方法的缺點是需要更多的位元數處理同樣的數據，因為隨著編碼段數量的增加，需要更多的邊帶資訊。我們需要調節窗口大小在位元數和前向回波之間取得均衡。當信號穩定時需要更大的分塊，信號有大幅突變而不穩時，就應該取較小的分塊。

動態位元分配

所有編碼器的最終品質，大部份是決定於位元在各個子帶或系數之間的分配。為有效地分配位元，必須不停地分析輸入信號，並根據我們對人類聽覺系統知識所建立的某些模型進行位元分配。要將位元分配到人類聽覺最有效的區域，在人耳不敏感的區域就不用分配或只分配很少的編碼位元。

因為信號總是在不停變化的，人的聽覺系統在不同的條件下，對信號的反應也不同。這樣，我們就需要動態位元分配技術。得到好的位元分配的前提是：精確的人類感知聲音模型。

典型的編碼過程為：首先根據輸入信號的特徵將數據分割成數據塊。然後藉由變換編碼(DCT/MDCT)或子帶編碼或混合編碼，將時域數據塊變換到頻域。接下來量化數據(每個量化器所需的位元數，取決於所用的人類聽覺系統模型)，然後進行某種型式的熵編碼，來消除符號冗餘。數據流通常與數據頭和各種邊帶及輔助資訊同時進行，形成最終的數據流。解碼過程為編碼的逆向過程，但要簡單得多，因為無須對人類心理聲學模型進行分析。將聲頻數據從位元流提取出來，並藉由熵解碼、去量化和頻域到時域的變換，最後輸出。

以上四種技術構成了市場上絕大多數編碼器的基礎(MP3、AAC、Qdesign、WMA和Dolby Digital)。這些編碼的區別在於它們的使用方法。例如不同編碼器有不同的心理聲學模型、位元分配、噪音整型和窗口切換技術。它們可能還包括一些改進的技術，例如利用立體聲回放信道間冗餘度的聯合立體編碼技術。

數位版權管理(DRM)

當前音樂發行產業主要被Sony、BMG、EMI、Universal和Time Warner五大巨頭所壟斷。數位音頻播放機能否成功占有市場的一個關鍵因素是，能否買到音樂源。所以，音樂內容提供商就必須保證有一個安全的、沒有盜版的數位音樂源供應管道。這正是安全數位音樂倡導者聯盟(SDMI)發展的一種主要驅動力。

SDMI是由全世界的錄音產品、消費性電子產品和資訊技術產業所組成的一個論壇，目的是研究開發受到保護的數位音樂發行技術規範。換句話說，它將提高保護藝術家作品的可行性，以促進新的音樂相關貿易與技術發展。既要保護又要有限度的開放，是大多數內容提供商最關心的話題。

一個典型的音樂供應管道包含的控制點為(圖二)：

《圖二　含有控制點的音樂發佈系統》

1.源(可以是壓縮也可是未壓縮的)

2.主機(如一台PC)

3.可攜式播放機和儲存媒體。音頻流從音樂源出發，藉由主機傳送(如有必要可以壓縮)到播放機或最終到儲存媒體，媒體可以安裝在終端機上，也可以是單機式(standalone)的。DRM保證了數據在這些控制點之間傳送的安全性和合法性。

DRM方案中有三個重要的概念：

1.加密：加密是將一組數據進行擾碼(scramble)的技術，這樣除非知道擾碼過程的密匙(secrete key)，否則無法還原數據。在DRM方案中廣泛採用加密技術，以保證各個控制點之間音樂源和重要數據不洩露。

通常一個下載過程中有多個密匙，每兩個控制點之間通訊都有一個單獨的密匙。下載過程結束後，一般要將這些密匙毀掉，以防止被駭客竊取。理想的DRM方案不僅應將被竊取的機會減至最小，而且應保證一旦密匙失竊，損失的範圍最小，即只限於該過程、設備或媒介(media)。

2.加浮水印(water-print)：當前加浮水印是指在現有音樂源資訊內嵌入聽不見的數據資訊，包括版權方面資訊，例如國際標準記錄碼、用戶ID、使用守則和其它特許權的追蹤資訊。可以用DRM軟體來防止對這些資訊的非法拷貝和壓縮。

3.連接(binding)連接是將歌曲與一個或多個設備或媒介聯繫在一起。基本意思是限制允許"播放媒介歌曲的設備數量"。例如：在某特定媒介上的一首歌，只能在被用戶授權的幾台播放機上播放。任何其它未被授權的播放機就無法播放。這樣不僅避免了非法拷貝，而且減少非法侵入所造成的損害。

有了這三個基本工具，當在不同控制點之間傳送數據時，DRM軟體就可以防止非法侵入(藉由加密)，非法拷貝(藉由浮水印和連接)。

前景展望

固態音頻播放機能否取代CD播放機而成為主流，主要是取決於技術、商業和用戶等多種因素，從業界對新的發行模式的接受程度、數位音樂源的可獲得性、用戶對新的購買模式的接受能力，到儲存媒介的價格和新版本的保護限制等。其它可攜式播放設備，例如PDA、手機和網際網路瀏灠器都整合了數位音響播放功能。

另一些壓縮音頻播放機如CD和MD，它們儲存的是壓縮數據流而不是PCM數據流。但有一點可以肯定，那就是數位化音樂播放前景廣闊，它即使不能以可攜式播放機的型式獲得成功，也將以其它型式被市場接受。

‧	MP3音效品質設計考量
‧	剖析MEMS技術之消費性應用
‧	低成本的MP3播放機系統整合技術
‧	MP3 Player技術市場發展趨勢
‧	一個擁有加密系統的P2P傳輸軟體 – MUTE

comments powered by Disqus

相關討論