隨著網際網路基礎架構的建設更加完善、除了透過網路傳輸資料的傳統服務(如:Email、FTP、WWW、Gopher)之外,在網路上瀏覽多媒體內容的需求也開始激增,例如閱讀電子書、收聽MP3音樂、圖片欣賞、觀賞廣告片段、收看實況轉播節目等等。
所謂多媒體,就是將聲音、影像、動畫、文字、以及視訊等不同媒體,利用電腦技術將其數位化,並以結構化方式結合、呈現。由於網路傳輸的速率有限,且由眾多使用者共同分享使用,多媒體內容必須先經過壓縮、編碼處理來減少資料量。目前國際上已有一些針對各種媒體所定的編解碼標準,包括視訊、音訊、影像及多媒體通訊協定等,都是根據其應用層面所制定。
在網路上傳遞多媒體內容的主流技術就稱為多媒體串流 (Multimedia streaming) 技術,其傳輸特點是,預先下載少許資料後即可於下載的同時進行播放動作,對容量龐大的影音資料傳輸有極大的適用性。它也可以避免多媒體內容以檔案的形式傳播所造成的版權問題,也方便使用者不必下載整個檔案,解決了多媒體內容佔用額外儲存空間及下載時間等問題。因而促成了隨選視訊 (Video-on-Demand, VoD) 與網路電視廣播 (Net TV) 等應用的普及。
然而,串流技術常會受到網路頻寬變動(Bandwidth variation)、傳輸延遲急劇變化(delay jitter)及封包遺失(packet loss)等問題的影響,而大幅降低收看或收聽的品質,國內外有許多研究人員針對這個問題提出各種解決方法,分別從多媒體內容壓縮、編、解碼與網路傳輸的服務品質(Quality of Service, QoS)兩方面來考量。
網路多媒體傳輸之系統架構
網路多媒體傳輸系統包含四個基本的組成部分:多媒體內容、串流伺服器、網路媒介及使用端設備,如圖一所示。其基本運作流程為:使用者利用使用端設備向串流伺服器發出要求,串流伺服器依要求選取適當的多媒體內容,並透過網路傳遞給使用端設備,再由使用端設備進行解壓縮之後播放出來。多媒體內容可以被事先壓縮或即時壓縮,以隨選視訊服務為例,其多媒體內容為事先壓縮編碼,而網路實況轉播服務的內容則為即時壓縮編碼。
封包傳輸
多媒體內容被串流伺服器傳送前,須先做適當的切割,並包裝成為RTP (Real-time Transmission Protocol) 封包 (Packet),接著利用UDP (User Datagram Protocol) 與IP (Internet Protocol) 傳輸協定依序傳送到網路上。封包傳輸時可能因網路壅塞而遺失,或受到延遲,封包遺失及封包延遲時間過長皆會影響多媒體內容播放的品質,因此多媒體串流系統中含有應用層服務品質控制 (Application-layer QoS control) 機制,來避免或減輕品質下降。
服務品質控制
應用層服務品質控制機制包含壅塞控制 (Congestion control) 與錯誤控制 (Error control)。壅塞控制能防止封包遺失及減少延遲時間;錯誤控制則可減輕因封包遺失所造成的品質下降問題。當封包到達使用端設備時,會先在解碼前經過應用層,將其中的各個媒體分離出來,分別傳給對應的媒體解碼器進行解碼,隨後即播放多媒體資料,播放時則必須考慮到各個媒體之間的時序同步,例如視訊的內容需要和聲音同步。
網路多媒體傳輸之相關標準與發展現況
視訊編/解碼的國際標準
視訊壓縮是一種信號處理技術,將視訊中冗餘及不可區分的部分除去,其處理過程可稱為「視訊編碼」,反向則稱為「視訊解碼」。制定視訊編解碼國際標準的組織有ITU-T (International Telecommunication Union Telecommunication Standardization Sector) 及ISO (International Organization for Standardization/International Electrotechnical Commission),針對不同的應用和需求制定各種視訊編解碼標準。
MPEG工作小組
ISO/IEC的Moving Picture Experts Group (MPEG) 工作小組制定了一系列標準應用在不同場合,如MPEG-1應用在VCD產品、MPEG-2應用在數位電視(Digital TV)的機上盒(Set-Top-Box)與DVD產品,MPEG-4則鎖定在網路多媒體與互動式多媒體相關應用,加入許多新觀念和技術,例如圖二所表達的物件導向式編碼及處理(例如個別物件之存取、操作及判別等);提供編碼工具的觀念,來支援不同功能;增加錯誤修補功能,來因應傳輸錯誤所造成的資料損毀,並允許虛擬物件和真實影像物件的混合編碼(Synthetic & Natural Hybrid Coding; SNHC)。上述這些新技術使MPEG-4能達成高效率的壓縮,同時增加內容導向的互動式操作功能。值得一提的是MPEG-x 並不單只做視訊編碼的標準,也規範了音訊以及同步化的處理。
H.261與H.263
另一方面,ITU-T的專家也制定了一系列標準。其中H.261是針對在ISDN上應用的視訊會議系統標準,又被稱為「p×64 codec (p = 1~30)」,因為其傳輸速率為ISDN中B通道的整數倍,而一個B通道有64kb/s的容量。H.263/H.263+/ H.263++ 則是針對極低位元率(<64kbps)所發展的視訊編解碼(very low bitrate video coding)標準,讓視訊訊號可以在傳統的電話網路及無線網路上傳送。基本上,H.263的架構與H.261很相似,但因為視訊編解碼技術的進步,H.263應用了半像素(half-pel)運動估測技術及四種新的編碼選項,使其比H.261的效能高出許多,以相同的壓縮比用於<64kbps ,可提昇3~4dB之畫面品質。
H.264
由ITU-T VCEG與ISO/IEC MPEG共同組成的Joint Video Team (JVT)所制定的視訊壓縮標準H.264在2003年5月完成最後的國際標準草案,它又名為MPEG-4 AVC。H.264/AVC的主要目標在發展一套高效能、具有網路親和性(Network-friendly)及抗誤性(error resilience)能力的視訊壓縮技術,以提供從行動電話到高畫質電視(HDTV) 的廣泛應用。H.264/AVC主要能大幅改進速率-失真效率(rate-distortion efficiency),相較於MPEG-2、H.263+ (Annexes DFIJT)或MPEG-4 Advanced Simple Profile,在相似的視訊壓縮品質下可節省約50%以上的位元率(bit-rate)。圖三為數種視訊壓縮標準之速率-失真效率的比較。
《圖三 壓縮標準之效能比較 (Foreman測試序列)》 |
|
語音、音訊編解碼國際標準
語音編解碼技術以PCM (Pulse Code Modulation)為濫觴,用於傳統電話網路,它是以簡單的取樣(sampling)與量化(quantization) 將類比語音轉換成數位資料,最常見的位元率為每秒64仟位元。由於它的簡單,所以被廣泛地採用。CCITT(International Telephone and Telegraph Consultative Committee)將其制訂為標準,稱為CCITT G.711。從64 Kbps PCM開始,各種語音編解碼技術不斷推陳出新,發展趨勢是往更低的位元率推進,如ITU-T所制定的一系列標準 G.721、G.723、G.726、G.727、G.728、G.729等等,便分別使用不同的編解碼技術,來產生不同的位元率的數位語音資料。
視訊與語音資料多為並存
因應影音通訊所需,視訊與語音、音訊通常是並存的,這也影響到許多標準的設計考量。較具代表性的是ISO/IEC所制定的MPEG-1、MPEG-2、MPEG-4,及ITU-T所制定的H.320、H.324、H323等標準,包含視訊標準並搭配各自的語音或音訊標準。MPEG-1規範了三層的音訊編解碼標準,相關產品如MP3。隨後制定的MPEG-2音訊標準與MPEG-1相容,並新增取樣率的選擇、位元率的選擇、新的位元分配表。而後在西元1995年,MPEG工作小組投入制訂MPEG-4,帶動音訊編解碼技術的蓬勃發展。而美國杜比公司則發展出AC-1、AC-2、AC-3 等音訊編解碼技術,其中AC-3更成為美國國家標準,用於DVD的應用上。表一是目前主要商用音訊編碼標準的比較。
表一 Comparison of Commercially Available Audio Coding Systems |
|
Bit Rates |
品質 |
複雜度 |
主要應用 |
年代 |
MPEG-1 Layer 1 |
32- 448 kbps total |
Transparent @ 192 kbps/channel, as per (ISO 1991c) |
Low decoder/encoder |
DCC |
1991 |
MPEG-1 Layer 2 |
32- 384 kbps total |
Transparent @ 128 kbps/channel, as per (ITU 1994) |
Low decoder |
DAB, CD-I DVD |
1991 |
MPEG-1 Layer 3 |
32- 320 kbps total |
Transparent @ 96 kbps/channel, as per (ITU 1994) |
low decoder |
ISDN, satellite radio systems, internet audio |
1993 |
Dolby AC-2 |
128-192 kbps total |
Transparent @ 128 kbps/channel, as per (ITU 1994) |
low encoder/decoder |
Point to point, cable |
1989 |
Dolby AC-3 |
32- 640 kbps/channel |
Transparent @ 384 kbps/5.1
channel, as per (ITU 1995) |
low decoder |
Point to multipoint, HDTV,
cable, SD-DVD |
1991 |
SONY ATRAC |
140 kbps /channel |
|
low encoder/decoder |
MD |
1992 |
AT&T PAC MPEG-AAC(NBC) |
64 kbps/ channel |
Transparent |
low decoder |
|
1997 |
影像編/解碼國際標準
PCX、TGA、TIFF、GIF、JPEG及VQ都是常見的影像壓縮格式。PCX、TIFF及TGA 是非常傳統而著名的影像儲存格式,GIF 及JPEG 則是目前網路應用上最廣泛的影像壓縮格式。其中JPEG (Joint Photographic Experts Group) 是ISO和ITU-T共同建立的數位影像壓縮標準,JPEG 2000則是目前最新的國際標準,主要用於靜態影像壓縮。
JPEG最受歡迎
JPEG將影像資料中較不重要的部份去除,僅保留重要的資訊,以達到高壓縮率的目的。雖然影像會有失真,但JPEG提供參數來控制失真比例。一般而言,當壓縮率 (即壓縮過後所減少的資料量除以原有資料量) 在5% ~15% 之間時,影像依然能維持適當品質,這是一般無失真壓縮法所做不到的。JPEG 的壓縮率高,但影像品質為人所接受,因此成為目前最受歡迎的壓縮方法之一。它能應用於壓縮全彩或是8 位元的灰階影像,凡是照片或是色彩連續的影像都非常適合利用JPEG 來壓縮。
JPEG-2000前景佳
相較於JPEG,JPEG-2000應用小波(wavelet)編碼技術, 除了在壓縮效率上顯著進步,也增加不少新功能,例如感興趣區域編碼(region-of-interest coding)、多重解析度呈現、較強之抗誤性(error resilience)、內嵌式位元流(embedded bitstream)、隨機碼流存取及處理(random codestream access and processing)等。
圖四為JPEG-2000和JPEG以兩種不同編碼位元率所做的畫質比較。目前JPEG-2000的成本仍遠較JPEG為高,在高位元率的應用上,畫質的改善也沒有十分顯著,因此數位相機產品仍以JPEG壓縮技術為主。但JPEG-2000所壓縮的影像在網路傳送的特性遠較JPEG為優,在未來可望取代JPEG在網路影像傳輸之地位。
《圖四 JPEG和JPEG-2000壓縮效能比較》 |
|
(a) JPEG 0.125 bits/pixel
(b) JPEG-2000 0.125 bits/pixel
(c) JPEG 0.25 bits/pixel
(d) JPEG-2000 0.25 bits/pixel
多媒體通訊協定與標準
多媒體內容在網路上傳輸所採用的通訊協定大致為:網路層協定 (IP)、傳輸協定 (包含UDP、TCP、RTP和RTCP)及會談期間控制協定 (包含RTSP和SIP)。IP (Internet Protocol) 協定提供基本的網路服務,例如定址服務。傳輸協定提供串流應用的傳送端與接收端之間的網路傳輸功能,其中UDP和TCP屬於傳輸層協定,而RTP和RTCP屬於較上層的協定。會談期間控制協定規範了在會談期間控制多媒體資料傳遞的訊息的格式。
目前網路上最為普及的傳輸協定為TCP/IP,使用TCP傳輸資料時,若網路實體層都處正常狀態,將可保證封包順序正確、封包不遺失,並使用AIMD機制調節傳送速率動作,提高傳輸正確率。這些特性對電子郵件傳輸、網頁瀏覽或檔案傳輸的應用都顯得十分重要,然而對即時的多媒體串流資料而言,卻可能為了確保品質而犧牲了播放的流暢性。
如圖五所示,多媒體通訊通常架構在UDP/IP上的應用層協定-RTP,多媒體資料經由RTP層分割,並包裝成為RTP封包,內含有序號、時序與同步資訊。RTP封包在經過UDP和IP層後,被封裝成IP封包,經由網路傳送至目的地,接收方則以相反的流程解碼出多媒體資料,再由解碼器進行解壓縮。而負責控制訊息的RTCP和RTSP封包則是在TCP層封裝,然後送到IP層。
RTP的用途
RTP (Real-time Transport Protocol) 是用來提供即時應用的網際網路傳輸協定,其主要工作是在封包傳送前加上序號(sequence number)與時間戳記(time stamp),以提供客戶端緩衝器重組封包順序以及偵測封包遺失使用。RTP雖為即時傳輸協定,但並不保證傳輸品質。若為達到品質控管,勢必要有一個回饋機制。
傳遞控制訊息的協定
為達品質控管,RTCP (Real-Time Control Protocol)隨著RTP的運作,統計封包接收狀況,將之回饋給通訊的傳送方與接收方,以調整傳送速率或改變位元流資料,來達到QoS控制的目的。
另一個傳送控制訊息的協定為RTSP (Real-Time Session Protocol),為Netscape與Real Network兩家公司所引入的標準,其協定類似HTTP運作機制,主要用來與伺服器交換訊息,例如指定開始播放某個串流資料、改變節目播放點、或是提供類似VCR的多媒體播放控制命令,如停止、暫停或回復播放、快速前播放及快速逆播放等控制命令。
SIP(Session Initiation Protocol)的功能類似RTSP協定,也能建立或終止會談(session)。特別的是,SIP能夠支援使用者的行動性需求,藉由代理機制將訊息重新導向到使用者目前的位置。
交談式多媒體通訊標準
ITU-T也針對交談式多媒體通訊應用(例如視訊電話及視訊會議),分別訂定了H.324及H.323通訊協定標準,H.324應用於電路交換網路,如傳統電話及ISDN網路,H.323則應用於封包交換網路,如IP-based網路。
H.323為IP網路電話(voice over IP; VOIP)的通用國際標準之一,其通訊協定堆疊如圖六所示,包含可供選用之視訊編碼標準(H.261及H.263)、音訊編碼標準(G.711、G.722、G.723.1、G.728及G.729) 、數據通訊標準(T.12x)及其他傳輸控制、管理協定(H.225、H.245、RAS、RTCP)。其中影音視訊的傳輸架構於UDP/IP,而數據傳數及控制資訊則經由TCP/IP進行通訊。
網路多媒體內容檢索與傳輸
MPEG-7
除了上述的網路通訊協定外,ISO/IEC MPEG也制定兩個國際標準來支援網路多媒體的應用,一個是MPEG-7,另一個是MPEG-21。MPEG-7正式名稱為 "Multimedia Content Description Interface",它是用某種程度的資訊意義來描述多媒體內容資料,讓多媒體內容的描述資料能夠被裝置或被電腦程式讀取。MPEG-7提供完整的視、音訊Description Tools集合,使用這些Description Tools來建立對多媒體內容的描述,能讓應用程式更有效率地存取多媒體內容。
MPEG-21
MPEG-21正式名稱為 "Multimedia Framework",其目的是建立一個具規範且開放的多媒體傳輸平台,讓所有的多媒體播放裝置都能透過此平台接收多媒體資料,使用者可以利用各種裝置、透過各種網路環境去取得多媒體內容,而不需要知道多媒體資料的壓縮方式及使用的網路環境。同樣地,多媒體內容提供者或服務業者也不會受限於使用者的裝置及網路環境,針對多種不同壓縮方法來提供多媒體內容。
多媒體影音的多元未來
多媒體資料透過網際網路傳輸到家庭用戶的市場需求性已逐漸浮現,以視訊點播系統(Video On Demand; VOD)為例,目前已有數個商業產品問世,像是Microsoft 的 NetShow、Progressive Network 公司的 RealVideo、VDOnet 公司的VDOLive、及伊利諾大學 spin-off 的 Vosaic 等,但仍有許多改善的空間。至於多媒體串流則有三大串流軟體公司提供軟體,包括Real Network的Real Player、Apple的Quciktime Player與Microsoft的Media Player。
電腦多媒體可望逐漸取代傳統媒體,成為資訊傳達和人際溝通的新觀念與新作法,許多相關的技術應用如虛擬實境(Virtual Reality)、遠距教學(Distance Learning) 、隨選視訊(VOD;Video On Demand),公開討論區(Internet Chatting),電子佈告欄(BBS)、電子視訊會議(Video Conference)、影像電話(Video Telephone) 、多媒體短訊(Multimedia Short Message)等等,都是建構網際網路全球資訊網的重要溝通方式,不僅讓資訊的呈現方式更為活潑,也讓網路多媒體的服務無所不在。
(作者李育瑞現為中正大學資工系博士生,林嘉文現職中正大學資工系助理教授)