使用者利用Web瀏覽器就可以連線到所有的應用程式和服務,而不必再拘泥於使用者的界面。但以網際網路為中心為運算架構,主要會出現兩個缺點,分別是缺乏移動性(因為使用者仍需依賴物理網路去存取訊息),及只能使用單一設備(因為電腦是唯一的存取設備)
語音應用程式概述
目前的電話和PDA 都擁有強大的計算功能,而與這些設備相關的各種技術,如互連結、相互作業等,實現了普及運算(Pervasive Computing)的構想。IBM 的前任CEO – Louis Gerstner將普及運算定義為:十億人用一萬億個連線設備,與百萬個電子商務進行互動。而電話(無線和有線)和 PDA是大多數使用者都擁有的設備。儘管這些設備的網路和瀏覽器技術不同,但是將網際網路內容擴充到這些設備中是必要的,因為這些設備非常地普及。
語音應用程式是普及運算願景一個重要的部分,因為在眾多的應用程式中,輸入或輸出都是透過電話或行動設備,而不是以GUI來進行。也因為有這麼多人使用電話或行動設備,所以企業可以使用語音應用程式來擁有這個廣大的用戶群。
語音應用程式通常有兩類,第一類應用程式是將這些應用程式作為呼叫系統,從Web的設施中檢索訊息。此類應用程式的範例包括一些語音入口網站︰它們提供天氣預報、股票報價、交通訊息、電影清單,及客戶服務訊息等。
第二類是使用這些語音應用程式呼叫到系統,對Web的資料庫進行特定交易。此類應用程式的範例包括了一些語音入口的網站,並用於員工福利、員工考勤卡管理、財務交易、旅遊預定、行程安排、電子關係管理(ERM)、銷售自動化,及訂單管理等。
隨著語音識別準確度和VoiceXML規範標準化程度的提高,語音應用程式一定會受到消費者的青睞,因為這些語音應用程式簡單、便捷和普及。
表一 傳統Web應用程式與語音應用程式作業流程的比較表 |
Web
應用程式 |
語音應用程式 |
使用者透過
URL 存取頁面 |
使用者透過撥電話號碼存取應用程式 |
Web
瀏覽器向
Web 伺服器發出對某個
HTML 頁面的
HTTP 請求 |
語音瀏覽器向外部
Web 伺服器發出對某個
VoiceXML 文件的
HTTP 請求 |
Web
瀏覽器呈現
HTML
以建立可視網頁,該頁面回應鍵盤和滑鼠輸入 |
語音瀏覽器可以透過語音或按鍵輸入,將VoiceXML
表現為對話和提示 |
那麼VoiceXML是什麼呢?它是以XML為基礎的標籤語言,用於開發分散式語音應用程式。VoiceXML也是W3C和VoiceXML論壇所採用的業界標準,它容許開發人員使用熟悉的標籤語言和伺服器端邏輯,來提供電話和其它移動設備可存取的應用程式,其特性包含語音識別、合成語音輸出、錄製口述輸入、輸出預先錄製的音訊、對話流程控制,及呼叫轉移等。
使用者與語音應用程式所進行的互動如(圖一)所示︰
VoiceXML使用者介面(VUI)
VUI是語音應用程式的關鍵部分,使用者必須和它進行互動,以執行應用程式所支援的工作。從高層面來說,VoiceXML所開發的應用程式是給使用者所用的語音應用程式。不過從基本面來說,VUI的作用如下:
- * 向使用者提供該應用程式所運作的思維模式,及所提供的功能訊息。
- * 收集語音或透過電話鍵盤,產生出雙音多頻(DTMF)的聲音形式輸入法。
- * 輸出合成的語音或事先錄製的音訊。
- * 支援使用者完成工作流程。
- * 支援使用者或系統錯誤的回復。
因為VUI能傳送的訊息不像高頻寬多媒體的GUI那樣多,所以它們的能力還是有限。VUI是「隱形」的,因為它們只存在於使用者的思想中,且VUI還是單模式界面,而聲音是其唯一的輸入/輸出媒介,但這樣的單模式界面並不像多模式的GUI界面那樣有效地通信。因此,語音應用程並不適合下列的情形︰
- * 使用者的環境非常複雜。
- * 需要提供大量的資料,並用於檢視或比較。
- * 輸出內容很大,且視覺上很複雜。
- * 使用其它輸入設備(如鍵盤或滑鼠)會更容易完成的工作
語音應用程式適用於下列的情形︰
- * 聲音是為便捷的輸入方式,如駕駛車輛時。
- * 使用者透過自助服務以節省時間和金錢,並提高生產率。
- * 企業語音系統或呼叫中心的服務。
- * 使用者有生理障礙時。
支援使用者輸入的VUI元件包括︰
- * 說話方式︰符合主動語態中的單字或片語。
- * DTMF按鍵︰提供一次輸入給應用程式
- * 被導向到VUI的其它語音︰可以錄製語音,以備今後透過相同或另一個應用程式來進行播放。
支援使用者輸出的VUI元件包括︰
- * 提示︰將音訊訊息提供給使用者,提示他們需要輸入指令給應用程式。
- * 讓提示或其它地方擁有數字化錄音的播放。
- * TTS(語音合成)︰來自純文字語音內容的合成。
- * 提示中的選單︰向使用者提供選項清單。
- * 表單︰VUI的後功能,為應用程式收集訊息
VUI和GUI之間的區別
對某些習慣GUI或以字元為界面的人來說,VUI可能是個新概念。這裡列出了VUI和其它類型UI之間的主要區別︰
- * VUI是隱形的,只存在於思想中,因此必須盡可能設計成對使用者的記憶力和認知過程最小的要求;這也是VUI和GUI之間最主要的區別。
- * VUI是單模式界面,其中聲音媒介是唯一的輸入/輸出模式。這樣的單模式界面,並不像其它UI能夠傳遞大量的訊息,或有效地與使用者通信。
- * VUI需要有最小分支的簡單工作流程,讓使用者在操作時,不會感到無趣。
- * 使用者環境在語音應用程式的執行和效能中起了關鍵作用,VUI在用於這樣的環境時,會同時與使用者的其它行為「競爭」,如一邊在行走或駕駛時,一邊使用著語音應用程式。因此,它們應該具有更強的容錯能力,及更良好的錯誤處理特性。相比之下,電腦就只能適用於和GUI進行互動,並以使用者的步調駕馭UI中的工作流程;當使用者進行工作流程時,其環境對GUI的執行通常沒有影響。
- * 目前VUI元素並未和GUI元素(例如「Home」、「Back」、「Refresh」等有任何的關聯,而是用其它方法來處理具有GUI特性的相關應用程式。
GUI
元件或特性 |
VUI
對應物 |
Back
按鈕 |
聲音指令,例如「Go
Back」,讓使用者一次後退一步 |
Home
按鈕 |
聲音指令,例如「Go
Home」,讓使用者到達已知的開始點(例如應用程式中的主選單或開始點) |
螢幕布局、色彩、圖像和樣式 |
錄製的音訊、TTS
聲音、聲音類別和聲調 |
跳出選單或視窗,指示錯誤訊息或錯誤恢復 |
音調、TTS
或錄製的音訊,指示錯誤訊息和恢復 |
Help連結或線上環境的即時幫助 |
將分層的Help訊息作為聲音訊息 |
連結到其它Web
網頁 |
像混合式驅動(mixed
initiative)語態這樣的已程式化功能,讓使用者跳到語音應用程式中的其它應用程式和模組中 |
表單輸入、選擇清單和單選按鈕 |
帶有欄位和變數的VoiceXML
表單,為表單元素擷取欄位輸入 |
其它使用者回饋的「處理中」指示 |
用於表達系統正在執行的音訊沙漏聲調、音樂或聲音訊息 |
VUI 使用者特性
在概念化和開發語音應用程式之前,研究並記錄下語音應用程式所針對的用戶群的\特性,是非常重要的一點。任何語音應用程式的目標使用者,與 PC/GUI 導向的使用者或多或少有些相同,但是VUI使用者的有些特性是需要特別去注意。
人們通常不會用電腦去存取語音應用程式,而是利用電話或手機。雖然有一些平台使用VoIP和SIP來支援以電腦為基礎的電話,但是這樣的用戶端非常地少。此外,而將有關語音應用程式的知識(能做什麼和不能做什麼,以及它們的顯著特性)教給使用者,也是非常地重要。
舉例來說,使用者不該認為人與人對話方式,不能應用在語音應用程式上等。而已經習慣了瀏覽器的網際網路使用者將會發現,他們不再需要後退、重新整理、超連結和欄位表單等概念。綜合上述的論點來看,剛接觸語音應用程式的使用者應該清楚了解語音應用程式的特性與有效性。
語音應用程式安全性
在佈署語音應用程式之前,我們必須分別考慮Web基礎設施(語音應用程式所在的地方,或產生語音應用程式的地方)的安全性,以及平台/電話基礎設施的安全性。若使用者打算遵循內部模型來託管其語音應用程式主機,就必須要仔細地評估每個元件。而打算用閘道模型來佈署的使用者,則應該對語音應用程式閘道供應商作詳細地審查。精通佈署和管理安全網站的使用者將會發現,使用可信度高的語音應用程式閘道供應商是有利的,因為它可以提供強大的服務協定(Special Libraries Association,SLA)。
在討論主要的安全性考慮事項之前,讀者必須注意到電話遠不及網際網路瀏覽器在用戶端的安全。不過在電話上裝一個竊聽器,遠比破壞網際網路的安全階層(Secure Sockets Layer,SSL)要容易得多,但具有諷刺意味的是,企業經營者大多會認為,透過電話將敏的消息即時提供給代理商來進行安全交易,會比使用網際網路來得更為安全。以下為安全性的幾個主要考慮事項:
物理安全性
與語音應用程式互動的任何硬體、軟體、日誌資料和其它元件所在的資料庫,都應該有嚴格的物理安全性,以避免被其它使用者進行未授權的存取。而為了預防災難的發生,應建立多個資料中心,以確保資料庫的可靠性和延展性。
使用者安全性
對關鍵系統的存取,必須嚴格地控制每位有權限的使用者,並給予每人應有的最低權限。
網路安全性
語音應用程式產品應使用業界標準的最佳網路安全性守則(如隔離不可路由的網路、防火牆、主機安全性、SSL和IP過濾器等),以防駭客會闖入、偷竊和攻擊其資料庫。
語音應用程式平台安全性
因為VoiceXML引擎是語音應用程式平台的核心,所以必須十分注意平台本身的內部安全性問題。這個平台應該確保隔離在同一台或不同機器上,進行的呼叫者的Session作業。當所有應用程式狀態(包括 cookie 和已錄製的音訊檔案)超出了作用範圍,並且不再需要時,其平台應使用有效的垃圾收集程式來清除它們。
使用者原則
語音應用程式可以用來收集使用者的大量個人訊息。正如網站一樣,公司應該合法地遵循有關收集、儲存、使用和散布客戶訊息的授權的隱私原則。
語音生物測定學
語音生物測定學是一種驗證說話者的技術,該技術超出了語音範疇,並嘗試使用說話者聲音獨特的生物測定學特性來辨別說話者。
它是用來對使用者作認證之最不具「入侵性」和最自然的技術,而且比單獨使用個人ID(PIN)和密碼驗證更為安全。語音認證是使用如音位頻率變更測量技術,來比對呼叫者的聲波紋與先前所記錄的聲波紋。在不久的將來,語音測定技術將會在安全和個人化的語音商務(V – Commerce)方面扮演重要的角色。例如Nuance和SpeechWorks 等廠商已推出與語音應用程式整合的語音驗證產品。
語音生物測定學的工作原理是,將使用者的語音特性數字化,並產生儲存的模型語音印跡(如同範本一般),每次當使用者試圖存取安全資料時,電腦就會拿它出來進行參照。生物測定學技術將每個讀出的詞,簡化成每個段落,如子詞一樣的音節、音位、三音子(triphone)或相似的聲音單元,並由幾個主要頻率(稱為共振峰)組成。每個段落都有三或四個主要的音調,可以用數字的形式來捕獲它們,並在表或聲譜上繪圖。這種音調表會產生說話者的獨特語音印跡。
語音印跡會被儲存為數字表,而詫每段中的每個主要頻率,都會以二進位項表示。且因為所有的表項不是1就是0,所以可以從下到上將每一列作為長型二進位程式碼來讀取。當某人說出他/她的密碼時,會抽取一個或多個程式碼詞,並把它與此人的儲存模型作比較。
當使用者試圖對受保護資料作擷取的動作時,電腦會先將其語音模式與其之前儲存的語音模型,以及存在資料庫中的所有其它語音印跡,進行比較的動作。由於人類的一些聲音特性是相同的,所以從要認證的範本中,除去一些公共的元素。當除去所有與其它人符合的元素之後,這時系統只會剩下使用者聲音的獨特特性,而這些獨特特性也是確定成功認證的唯一特性。
結語
VoiceXML是一個強大的標籤語言,它會以Web為基礎來為交談式語音應用程式和資料庫內容作傳遞訊息的動作,並以音訊作為輸入(語音或按鍵音)/輸出(機器語音或錄音)的形式。不過要將VoiceXML應用到生活上,必須要解決幾項難題,如使用者的認知、網路安全性的認證等。假如這些難題都被解除了,那麼今後的網路平台都不再只靠手動,用語音也可以輕鬆地操作。
<本文資料由台灣IBM提供,由程裕翔整理,作者為美商電腦公司獨立軟體顧問,更多資料請參考IBM Taiwan開發者網站:http://www2.tw.ibm.com/developerWorks/>
|
|
為了有效整合網站的資訊,目前研究學者將『關鍵詞自動總機系統』進一步發展出語音入口網站技術(VoiceXML Voice
Portal)。此技術的應用就是方便使用者以口頭的方式來獲得網站的資訊,就好比如Yahoo入口網站一樣,利用單一入口提供線上目錄的查詢,所不同的是前者是透過語音輸入,後者是用文字輸入。相關介紹請見「新一代人機介面
– 語音辨識技術」一文。 |
|
不本篇文章是讓讀者了解到,通過VoiceXML語言可以建立XML的聽覺世界。並把VoiceXML文檔建立在語音應用上,以及提供了一個展現VoiceXML特徵和不同於HTML或XHTML的基本概念。你可在「你好,聲音世界」一文中得到進一步的介紹。 |
|
2004 年3 月底,W3C公佈了VoiceXML
2.0,並增加了新的語音識別語法格式,使用戶能夠用聲音回應螢幕的提示。通過聲音流覽器解釋VoiceXML
2.0腳本,電腦既能聽懂用戶的口頭要求,又能說出用戶所需的資訊。在「VoiceXML讓你與電腦交談」一文為你做了相關的評析。 |
|
|
|