近年来多媒体技术不断进步,电影、电视、电子影像等传播媒体快速发展,科技的进步使得各种影音资料大量的被数位化。要如何储存如此大量新增的数位影音资料,以及如何保存过去所累积的影像与声音文化资产,使其能被再生使用,是我们面临的重要课题。
影音资料库的架构
影音资料库建立的流程大致包括影片取得、数位撷取、资料库建置、加值使用,分别说明如下:
- (1)影片取得:影音素材取得之来源,包括数位与类比影音,例如:35mm影片、16mm影片、Betacam录影带、Digital Betacam录影带等。
- (2)数位撷取:将影音资料建档、压缩并转换成数位格式。
- (3)资料库建置:建立数位影音收藏环境,建立片库管理系统以管理影片之后设资料(metadata)与视讯、音讯资料。
- (4)加值使用:包括影音随选播放、影片剪辑、影音资料重新再制等工作。
- 影音资料库建立流程如图一所示:
关联式资料库
资料库技术被广泛的用来储存与管理大量资料,目前的资料库管理系统(DBMS)都具备优异的管理文字性资料能力,并能提供有效率之资料操作(如新增、修改、删除、查询等)。在各种资料库产品中,关联式资料库已成为市场的主流,其技术已经发展的非常成熟,而资料操作之语法(SQL)更早已被标准化,各家资料库发展厂商也都以关联式资料库为基础,进而发展其它的应用。
在多媒体资料与影音资料之储存方面,多数的关联式资料库管理系统提供了一种二进位大型物件(Binary Large OBject,BLOB)的资料类型,这种资料型态可以储存二进位资料,以应付影音资料所需的大量储存空间。 BLOB资料型态无法支援修改及查询之操作,资料之汇入汇出也必须透过程式来进行转换与存取。
另一种常见的影音资料库设计方式,是不改变原本影音资料之储存格式,而将影音原始档案直接储存于档案目录中,其目录结构则以影音档名为依据或使用特定之杂凑(hashing)演算法决定。而影音之metadata资料与影音档案所放置之位置,则储存于资料库系统之中。此种设计的优点是不需考虑资料库管理系统是否支援多媒体影音之储存方式,资料之读取与写入可以直接进行,不需要透过特殊程式之转换;其缺点是影音数位物件与影音相关之metadata之间的关联性,需透过额外的记录与串连。
影音资料库检索技术
具备方便有效的检索能力,是影音数位博物馆能否普及的重要关键之一。目前影音资料库检索,大致可分为metadata检索、全文检索、语音检索三种方式,分述如下:
Metadata检索
根据影音metadata文字内容,区分为不同属性之资料项目,如人物、主题、时间、地点等分类,查询者可根据事先定义好的资料分类项目,输入欲查询之关键词以进行影音资料检索。此种检索方式必需由人工先将影片内容之描述以文字输入影音资料库。若影音资料储存于关联式资料库,可透过其所提供的资料查询功能进行检索,在系统实作上较易达成。对于查询者而言,必需对资料分类项目有部份了解方可进行检索。
全文检索
全文检索与metadata检索方式相似,必需由人工先将影片内容之描述以文字记录。主要的差别是使用全文检索时,不需依照资料分类进行检索,查询者可输入任意的关键词进行整个影音文字资料检索。全文检索在系统实作上,需要搭配全文检索的搜寻引擎(search engine)。对于查询者而言,不需了解影音资料内容之分类方式即可进行,并可找出最多的相关资料。
语音检索
过去,影音资料必须仰赖专人建立文字索引,方能利用文字资讯检索技术提供使用者查询检索。然而,建立影片的内容描述必需耗费大量的人力与时间,且影片索引点往往仅包括人、主题、时间、地点等资讯或是少量的关键词,并不是基于完整的内容,使得检索的效果大打折扣。近年来,随着语音辨认技术逐渐成熟,整合语音辨认与资讯检索之语音检索技术愈来愈受到重视。
语音检索系统之建立流程需先把影片中之声音部份抽离出来,并将杂讯去除,然后进行语音辨识工作。语音辨识会经过声学模型(acoustic model)、词典(lexicon)、语言模型(language model)处理后,将辨识结果储存于语音资料库中。使用者可以使用语音输入或使用文字输入的方式,将欲检索的关键词输入;语音检索系统会将关键词转换成对应的音节,于语音资料库中进行比对,进而将比对结果传回。
语音检索相较于文字资料检索的优点在于,使用语音检索时不需由人工先建立影片内容之描述文字,且可对整个影片之完整内容进行检索,不仅止于少量的关键词文字;但其缺点是使用语音检索之精确率不如文字检索,若是影片中的声音带有大量的干扰噪音时,其辨识结果则更不理想。
影音分镜侦测技术
如何准确的达成自动分镜侦测(shot change detection)一直是影音注解工作人员最希望能自动化解决的工作。一般研究者将一个分镜(shot)视为一个基本的影片片段,因此在一个多小时的影片中,就可能包含了上百个分镜。若以人工的方式去找出这些分镜的变换处(边界),必需花上数倍于影片长的时间才能完成。传统上分镜侦测的方法就是以人工看完一整部影片,再把它分成很多的分镜,接着做后续的索引、注解、储存等工作,耗费大量的时间与人力。因此,提供影音工作人员一套自动化影音分镜侦测工具是非常有用的。
要对一部数位化影片作分析,首先要将影片拆解成一个个的分镜单位,也就是由同一部摄影机在连续时间中所拍摄出来的连续画面(frames)。若能自动地找出这些影片中每个分镜的起始位置时间,并以关键画面(key frame)代表这个分镜,使得影片记录人员,只要看这些关键画面的时间点及内容,即可很快地完成影片索引记录的动作,如此将可大幅缩短工作时间与人力需求。
常见的两种分镜变化为:突然式分镜变化(abrupt shot change)与渐进式分镜变化(gradual transition)。渐进式分镜变化包含溶解(dissolve)、淡入淡出(fade in/out)、wipe、mosaic、shift等。突然式分镜变化发生在两张画面之间,可明显看出影片中镜头的切换。渐进式分镜变化是指前一段影片片段逐渐消失,同时后面一段影片也逐渐出现,此种分镜变化会经历好几张画面。
目前分镜侦测有使用直方图(histogram)、像素比对(pair-wise pixel comparison)、以区块(block)为基础之比对法等。直方图被认为在时间与正确率上能取得较佳的平衡,被广泛研究与发展。像素比对法之计算复杂度较高,对镜头与物体移动敏感。区块比对法则是利用局部特征比对,以减少物体移动所造成的影响。在已压缩影音方面,则有利用MPEG特性进行分镜侦测的作法,如使用MPEG中的巨方块(macroblock),针对MPEG中的I(Intra)、B(Bi-directional)画面(frame)进行突然式分镜变化侦测。
影音metadata设计
Metadata可称为诠释资料或后设资料,metadata之设计将影响系统资料内容之完整性与未来跨系统资料交换之便利性,因此在建置系统之前必需要仔细考虑metadata的设计。
metadata之种类可分为一般性与学科导向性,一般性的metadata如通用之都伯林核心集(Dublin Core),其内容采用十五个固定的通用栏位来对应储存各种资料。学科导向性metadata则是依不同领域之资料特性选择适合该领域的metadata标准,如博物馆采用的CDWA、档案馆采用的EAD等。采用一般性metadata的优点是系统设计简单,容易与其他系统进行资料交换与对应,而缺点是无法精细的区分资料属性,对资料内容的记载也不如学科导向性metadata内容的仔细与多样性。
常见的metadata标准
影音系统之metadata标准,常见的有ECHO(European CHronicles On-line)、MPEG-7(Moving Picture Experts Group 7)、SMEF-DM(Standard Media Exchange Framework Data Model)等。欧盟(European Community)赞助支持的ECHO计画设计的metadata标准是以国际图书馆学会联盟(International Federation of Library Associations and Institutes,IFLA)的书目记录功能需求模式(Functional Requirements for Bibliographic Records Model,FRBR Model)为基础进行应用与修正,是数位影音领域中重要的metadata标准之一。
ECHO标准
ECHO标准将影音资料分成四种层次:Work(AV Document)、Expression (Version, Video, Audio, Transcript)、Manifestation(Media)和Item(Storage),其关系如图二所示:
最上层的Work作品层次,是指AV Document影音文件 - 电影、录影带、录音带等。 Expression内容版本层次,可再细分为Version层次- 实体版本、数位版本等、Video影像层次、Audio声音层次、Transcript文稿层次﹔Manifestation实体样本层次(Media为媒体之基本资料)﹔Item单件作品层次(作品Storage储存的相关资料)。
影音资料库之发展
目前国外所发展的影音资料库或影音数位典藏系统,较著名的如:美国卡内基美隆大学(Carnegie Mellon University,CMU)之数位电子影像图书馆(Informedia Digital Video Library)。美国University of North Carolina, Chapel Hill(UNC)所发展的Open Video Digital Library(OVDL)。
我国较著名之影音资料库则有国立台北艺术大学与中央研究院合作之「台湾社会人文电子影音数位博物馆计画」。这些计画都发展了影音数位典藏系统,并整合影音内容处理技术,如语音辨识与检索、影片分镜侦测、影片关键画面撷取(image)等。目前影音内容处理技术尚未完全成熟,许多相关的研究也积极的进行中,此方面的研究仍然有很大的进步空间等待着人们去突破。
影音资料发行
由于网际网路快速成长,网路存取速度也越来越快,人们取得资料的途径更加方便。然而影音资料的容量庞大,如何让浏览者能使用较少的网路频宽、较短的等待时间即可播放影音资料,是影音资料发行时重要的考量。目前串流(streaming)影音技术提供了较佳的解决方案,市场上较著名之产品如:Microsoft Windows Media Server之WMV与ASF之档案格式,RealNetworks Helix Server之RM档案格式、Apple QuickTime Streaming Server等。采用串流影音的好处包括:
- (1)即时播放:不需等待影音资料全部下载完成即可播放。
- (2)节省空间:不需将影音档案下载至使用电脑之中,不占电脑储存空间。
- (3)资料不易被复制:由于资料不会被储存于电脑之中,影音资料不易被浏览者取得、传播。
- (4)即时广播:在网路上之即时广播(如现场直播节目),可由串流技术达成。
除了采用串流技术外,牺牲部份的影音品质以减低位元率(bit rate)的需求,将影音资料压缩的更小,也是目前运用的方法之一。目前发展影音资料格式之厂商,多数实做了MPEG-4之压缩标准来减少影音之容量,然而各家厂商各自实作MPEG-4之压缩格式都有部份差异,使得档案格式间并不能完全相容,这也是影音资料发行时前,需考虑的一个重要因素。
此外,使用者可藉由网路下载、浏览多媒体影音资料,也意味着使用者可以容易的复制与传播散布。对影音资料做智慧财产权的保护,目前较常被提及的包含数位浮水印技术(watermark)与数位内容版权管理技术(Digital Rights Management,DRM)。
版权保护与数位浮水印技术
数位浮水印技术的概念是把一些拥有者的资讯加到原始的影音资料中,当使用者下载或使用时,此资讯仍然会被保留,一旦发生版权争议时,著作人或拥有者便能借着浮水印来证明该资料确实为其所有,可以做为有力的举证。
数位内容版权管理技术(DRM)是一种新兴的资料保护技术,主要目的在限制未被授权者无法列印、储存、重制、传输或修改其著作内容。在作法上可将著作内容以加入显性(visible)或隐性(invisible)浮水印技术保护,并将资料锁码(加密编码)保护。通常使用者必需安装特定播放软体或外挂(plug-in)软体才能开启经加密编码的资料。目前DRM机制并没有一定的标准,各家厂商也各自发展其架构,大体上的发展在存取控制(access control)、使用控制(usage control)、使用记录(usage metering)、整合保护(integrity protection )等方面进行,相关技术仍在不断的实验与进行中。
结语
影音资料库之设计、建置与应用,与传统的文字式资料库有很大的不同。巨量的资料容量、复杂的资料处理程序、多媒体资讯技术整合等,其所需的资讯技术与软硬体资源,较文字式资料库系统复杂许多,而相关的影音处理技术仍尚未完全发展成熟,使得发展影音资料库需要投入大量的人力、时间、软硬体资源。影音资料的大量使用已是未来的趋势,影音资料库之建置将快速成长。目前在此领域上仍有许多的研究空间与无限的商机,正等待研究者与资讯经营者去探索与经营,相信未来影音资料库将会有剧烈的竞争与发展。 (作者为中央研究院资讯科学所研究助理)