多媒體資料庫在早期的研究以影像資料庫(Image Database)為主,主要的研究方向則是以影像處理與圖形識別技術,如切割(Segmentation)、特徵抽取(Feature Extraction)等來設計影像資料庫的索引,並進而應用圖形識別的辨識(Matching)技術來作為近似存取(Fuzzy Query)的方法。
近來多媒體資料庫已經越來越多樣化,因此應用的方向也從影像擴充到視訊、聲音的索引與查詢。視訊資料與影像資料的差別,主要在於多了一個維度(Dimension):時間軸。換句話說,除了要分析視訊中每張影像的空間關係外,另外還需要將影像的連續性構成時間軸來進行分析。
此外,由於視訊的複雜程度高,如何建立關鍵的索引與提供適合的查詢方式,例如結合語意或自然語言等方式,仍是目前學術界有興趣研究的領域。
行動與網路的多媒體應用
由於硬體技術的突破與通訊網路技術日益成熟,多媒體已在網路上廣為應用。在網路的實體傳輸介質上分為有線網路通訊及無線網路通訊兩種;一般而言,當我們做多媒體資訊檢索時在有線通訊環境之下,對於網路頻寬及定位的需求較不需考量,我們僅需要考慮使用何種輸入方式做為檢索的Key,例如用文字敘述或是利用影像Sample輸入。資料檢索回傳時如果是影音串流資訊時,只要考慮如何維持好的QoS(Quality of Services)及何種輸出設備(輸入顯示器影響多媒體的大小品質)即可。
在無線網路通訊環境中,除了資訊傳遞方法外,網路的頻寬、定位的技術和傳輸通訊協定的設計都會影響到實際的應用。本篇文章主要是以困難度較高的行動網路做為主要的說明。
多媒體檢索的方法
一般多媒體的檢索方法分為兩種:(1)影像的內涵為基礎檢索;(2)視訊的內涵為基礎檢索等兩方面。這兩種方法的共同特色是要找到『特徵』,有了特徵方能進行辨識,進而進行檢索。
以影像的內涵為基礎檢索
影像的內容檢索多以低階(Low – Level)影像特徵組成特徵向量(Feature Vector)以作為索引,如顏色(Color)、紋理(Texture)和形狀(Shape)等。有許多系統則同時採用多種特徵,如IBM的Flickner提出QBIC(Query By Image Content)系統,即是利用色彩、形狀和紋理等來當作特徵。VisualSEEk在抽取的特徵的同時也儲存其在影像中的位置,因此可以允許使用者以Localized Feature Query來查詢。
由上可知在影像內涵在基礎的檢索方法上,分為建立索引與查詢兩部分。建立索引有許多的影像處理方法可以研究並採用,如使用Query by Example方式來作查詢時,使用者能夠以資訊檢索(Information Retrieval)中的Query Refinement概念,來幫助增加查詢的正確率(Precision Rate)。
(圖一)為針對影像進行內涵為基礎之處理時的架構圖。建立影像資料庫時,將抽取影像特徵當作特徵向量,並儲存為索引,在進行存取時也必須抽取同樣的影像特徵向量。影像特徵包括有顏色、紋理、形狀和濾波器(Filter)值等。
在查詢影像時,需輸入至少一張影像,並將每張查詢影像的特徵向量抽取出來,做自動群聚分析。在得到共同的重要特徵後,再與影像索引資料中的索引,進行Pattern Matching以找出最近似的一些影像,並回傳查詢結果。當找到的結果不夠精確時,使用者可以再從結果中挑選正確的影像出來,並加入查詢影像的集合中,再重新群聚分析以進行查詢。
以視訊內涵為基礎檢索
對於視訊進行內涵為基礎的檢索,可分為三部分,分別是1. 視訊分割(Video Segmentation),又稱為視訊剖析(Video Parsing)、2. 建立索引(Indexing),3.查詢檢索(Query and Retrieval)。
在進行索引建立之前,必須先將視訊切割為最小單位,此最小單位稱之為視訊片段(Shot),而此切割的過程則稱之為視訊切割(Video Segmentation)。視訊切割的方法多以偵測連續影像之間的變化程度(Scene Change)為主,計可分為壓縮影像偵測、未壓縮影像偵測,以及模型化偵測法。
根據兩張連續影像的Histogram來計算其變化程度也是常見的方法,但是計算連續影像之間的變化程度,則有許多的距離函數(Distance Function),其中以2 Test 的效果為最佳。由於Histogram難以解決場景變化時的連續特效,如淡入淡出(fade in/fade out)或漸隱(dissolve)等,因此也有人提出Motion – based演算法。
由於視訊是具有三維空間的資料,因此在切割後以及加索引/查詢之前,也需要建立視訊的內容模型(Content Modeling)。Decleir & Hacid以人工的方式對有意義的片段組進行加註,並提出一個規則式的查詢語法。Shitbata & Kim將切割後的視訊,以描述文字來建立每個視訊片段的向量表示式(Vector Expression),並藉由該向量表示式來將連續的視訊片段重組為階層式的結構(Hierarchical Structure),以構成一個階層式的視訊內容模型。
而由於在視訊切割後,若運用影像處理/圖形識別方法作物件識別(Object Recognition),則會需要去表達物件本身的時間、空間資訊,以及物件與物件之間的關係,以利建立索引並加強查詢語言的能力。因此Khatib el. al.就以知識表達法(Knowledge Representation)的觀點,來討論許多建立在視訊中的時間、空間表達(Spatial – Temporal Model)方法。
視訊索引的建立則與影像類似,多半都是以低階的影像特徵來作為索引,但是由於視訊有太多的影像,所以會先從每個視訊片段的多張影像裡,決定出一張關鍵影像(Key Frame),再根據關鍵影像的影像特徵來進行索引的建立。而建立索引的方法則可以參考前面影像建立索引的相關方法。
由於查詢的方法與加索引的方法有密切的關連,因此隨著加索引的方法不同,各有不一樣的查詢介面。不過視訊的檢索/查詢仍可以分為兩類,第一類是利用圖形介面或資料庫的查詢語言直接輸入查詢值,如顏色、紋理等影像特徵值,再從資料庫以近似度來做比對查詢;第二類是用Query By Example的方法,使用者先提供影像,根據提供影像分析得來的特徵,來進入資料庫找尋特徵相近的關鍵影像。除了這兩類外,也有自行提出自訂的語法來達到查詢的目的。
而在處理視訊操作上則分為視訊切割、內容模型、以辨認來查詢(Query by Recognition)等三個部分。研究的重點在於針對廣播新聞(Broadcast News)類的視訊或行動中同質性類別物品,如行動中的汽車、飛機等,依據其特性建立切割、模型、以及辨認的方法。因此是一個以Semantics做為視訊內涵之基礎的研究方式,搭配專家系統及類神經網路來學習,可增加其準確度及可信度。
(圖二)為針對視訊進行內涵為基礎處理時的架構圖,如廣播新聞的視訊切割是使用Histogram方式來偵測Scene Change,因為廣播新聞視訊在畫面(Frame)之間的編輯效果(Edit Effect)較少,而淡入淡出、漸隱等情況也不常見,但是廣播新聞裡的一個有意義的視訊片段,是包含了好幾個Scene Changes,因此必須在經過Histogram做Scene Change的動作之後,再做重組的動作。而在得到視訊片段後,針對每個片段以區域(Region)的方式來偵測物件(Object)的存在。
一個物件可以橫跨數個畫面,並位於不同畫面的不同位置裡,因此將針對每個物件來建立索引,而每個物件被抽取的特徵包含有時間關係、空間關係、顏色、紋理和形狀等。同理,在行動中的同質性類別物品的處理方式中,因其在物品上相同處較不同處為多,取其相異之處的特徵、形狀歸類等來建立索引。
在建立了索引資料之後,使用者查詢的方式有兩種:一種是用瀏覽的方式,一種則是用Sketch – Based的方式。使用者輸入的Sketch會被轉換成內部的特徵,如時間、空間、顏色、紋理和形狀等,與索引資料進行近似比對,然後得到結果。而近似比對則會以神經網路作為比對的演算法,並配合專家系統的使用來達到較精準的搜尋結果。
行動網路通訊協定及關鍵技術
在通訊協定上,為因應行動式環境的應用系統開發,許多國際大廠所組成的WAP Forum組織便開始持續規劃無線應用協定(Wireless Application Protocol;WAP),期望能藉由WAP的訂定,加速行動式環境上應用系統的開發與研究,目前WAP的最新規格版本為2.0版。
WAP是針對如PDA、Handheld PC、資訊家電(Information Appliance)等Thin Client而提出的無線應用傳輸協定,可以與GSM/CDMA等行動通訊協定或是Bluetooth/Home RF等區域無線網路協定搭配,成為在這些底層協定連接各種通訊規格並建立應用系統的重要協定。在WAP 2.0版本內,將WAP協定與網際網路的通訊協定作了整合,並把TCP與HTTP協定作了適當的改良,使TCP與HTTP協定更適合傳輸於無線網路。改良後的TCP協定被稱為Wireless Profiled TCP(WP – TCP);而改良後的HTTP協定稱為Wireless Proifled HTTP(WP – HTTP),這些改變讓WAP對於多媒體的傳輸有了更好的規範。
至於位置相關的關鍵技術,主要可分為兩個核心研究:一個是定位技術(Positioning),另一個則是範圍搜尋(Proximity Search)。
定位技術的目的在於得到使用者的位置資訊,其中又可以分為主動定位(Active Positioning)與被動定位(Passive Positioning)。主動定位是指使用者的位置透過裝置自動偵測而取得;被動定位則是指位置資訊透過使用者自己提供而得。主動式定位技術又可以分為以下兩類:
- ●Digital Cellular Standards:Subscriber的定位解析度是以基地台涵蓋範圍(Cell Size)為最小單位,而每個基地台所涵蓋的範圍會隨著地區的考慮而有不同的佈建密度,以GSM為例,範圍在2百公尺至30公里左右。
- ●GPS(Global Positioning System):藉由24顆美國衛星以及各種不同的差分(Differential)技術,目前可以定位的精確度在2 – 200公尺左右,適用於定位監控(Position Surveillance)、緊急救助(Emergence Rescue)、車輛導航(Car Navigation)等。此外,根據GPS資訊可以計算移動的方向與速度,進而預測應該提供的資訊與服務。
範圍查詢的一個極端範例,就是傳統的全文檢索,或是搜尋引擎,而這類搜尋技術,可歸類為精準搜尋(Exact Search)。換句話說,使用者下達查詢資料的指令時,系統只從資料庫內抓取比對完全相同的資料出來,但卻無法抓取近似的資料,如此一來,便不能適用於黃頁的查詢應用。
範圍搜尋主要是針對具有地理概念的資訊,並進行概括範圍的查詢,因此並不侷限於二維的地理資訊而已。舉例來說,以本文要進行的黃頁查詢,其為純粹的文字資訊,並無二維維度可言,但是在查詢時,查詢者想要查的資訊可能會像是「輔仁大學附近的餐館」、「新竹科學園區附近的主機板廠商」等。
因此在做範圍搜尋時,需要先確定是單點定位/範圍定位,並確定被查詢的內容與做索引的方式,是精確的幾何座標點(Point – Based)或是區域式(Regional)。
底下即是一個行動環境的通訊系統架構,其架構如(圖三)所示:
(圖三)的多媒體資料庫必須儲存在位置資訊裡,也就是每張影像或視訊會有一個Metadata欄位標明其所屬的位置。而多媒體行動單元,可為高階的筆記型電腦、PDA,甚至是手機,並透過傳輸介面外接GPS獲得定位資訊後,再經過行動網路、Mobile Gateway、Internet傳送到行動多媒體伺服器,以進行地點相關之比對匹配。地點相關比對匹配的方法則如(圖四)所示:
行動多媒體檢索發展的瓶頸
以往行動網路在多媒體應用的瓶頸有二,分別是行動單元(Mobile Unit)設備和通訊網路的頻寬問題
行動單元(Mobile Unit)設備
行動單元(Mobile Unit)設備雖具有極佳的移動能力,但其計算能力較弱,因此在多媒體的應用上一直都有侷限;然而近來由於硬體技術的日益進步,許多的PDA、掌上型電腦都具有多媒體的顯示能力,並內建或外接數位相機、數位錄音機、固定網路電話,或行動電話等設備,因此可以成為極佳的多媒體行動單元(Multimedia Mobile Unit)。
業界產品中除了這些已有的PDA之外,行動電話手機也已經有大螢幕或彩色等功能的手機出現。甚至在行動單元上加裝類似投影設備,並將資訊打到大的螢幕或空白的牆壁,這些都可解決多媒體資訊顯示問題。
另外,近來資訊家電(Information Appliance)的蓬勃發展,再加上SOC(System On a Chip)整合性單晶片的出現,以及高階LCD量產技術的突破,電腦的定義已不再侷限於固定的桌上型電腦,而是具有比筆記型電腦更輕薄、短小的高階計算能力的電腦會出現在家庭、辦公室、公眾場所,或個人身上等許多移動式的場所中。
通訊網路的頻寬問題
因為多媒體中的影像、視訊或聲音等資料容量頗大,因此都需要較大的頻寬才能符合傳輸的需求。目前有線網路的頻寬已經大幅改進,網際網路的頻寬也已經進入10 Gigabit的世代;而區域網路,如專線、Cable、光纖等都逐漸朝100/1000 Mbps以上的速度在建制,因此有線網路的頻寬已經足夠。
至於無線通訊網路,隨著第三代行動通訊以及衛星通訊的技術日益成熟,台灣已經開放第三代行動通訊執照,預計未來一年內將會有業者提供頻寬高達2 Mbps以上的無線行動通訊系統,屆時無線網路的頻寬也將足敷使用。目前 IEEE 802.16a定義在70Mbps的傳輸速率,而IEEE 802.16e更針對行動裝置提昇傳輸速率至15Mbps。至於2002年12月成立的IEEE 802.20行動寬頻無線存取小組(Mobile Broadband Wireless Access,MBWA),預計將會提供更高的傳輸頻寬給行動裝置。
總結
目前多媒體檢索主要的問題在於查詢龐大的多媒體資料時,由於行動單位為Thin Client,其記憶容量有限,無法儲存大量的多媒體資料,所以必須透過行動網路向Server查詢多媒體資料庫。但是行動單元也有著螢幕小、輸入不易等特性。使用者的檢索方法若是沒有效率,那麼將會因為搜尋所得到的結果過多,而造成查詢繁瑣、頻寬擁塞,進而造成不易使用的嚴重問題。
因此,在未來行動網路寬頻的世界中,要如何提供有效的多媒體檢索,是一個迫切研究的課題。目前透過Semantics的方式我們可以讓查詢更加人性化;而透過UMA(Universal Multimedia Access)的理論,我們可以依照 Client 端目前網路的頻寬、運算的能力、輸出設備的解析度大小,或色階等,提供出一個適合的資訊檢索的結果。未來在Any time、Any where得到多媒體檢索後的資訊將是非常方便的。
<作者潘東名為輔仁大學資訊中心講師,王元凱為輔仁大學電子工程系 副教授>
|
|
IBM Almaden研究中心推出了QBIC系統。該系統開創了影片資訊查詢的全新領域,如圖片可以按照顏色,灰度,紋理和位置進行查詢。查詢的要求將以圖形方式表達,如從顏色表中選取顏色,或從例圖中選擇圖像的紋理。查詢的結果可以按照相關序列指導子序列的查詢來進行,而這種方法能夠讓使用者更為快速和簡便地對視覺化資訊來進行篩選和確定。相關介紹請見「多媒體資訊檢索系統Mires」一文。 |
|
隨著多媒體計算技術的迅速發展、網路傳輸速度的提高,以及新的有效的影像/視訊壓縮技術的不斷出現,人們通過網路實現全球多媒體資訊的共用成為可能,然而現有的技術還不能有效地滿足人們對海量多媒體資訊的需求,基於內容的多媒體資訊檢索便應運而生。你可在「資訊檢索的革命–基於內容的多媒體資訊檢索」一文中得到進一步的介紹。 |
|
多媒體檢索包括基於描述的多媒體檢索和基於內容的多媒體檢索。基於描述的多媒體檢索就是用一個關鍵字來描述所要查找的圖片或是音樂,比如可以用“classroom”這個詞來查找教室的圖片。基於內容的多媒體檢索就是用一些視覺特徵來查找多媒體資訊,這些視覺特徵包括顏色、形狀、紋理等。在「搜索引擎主要檢索服務」一文為你做了相關的評析。 |
|
|
|