語音辨識是將語音即時的轉換成文字,而這音源是源自麥克風或是其它的音訊來源,將其音訊傳送到伺服器運算處理或是本地運算辨識。而當將音訊傳送到伺服器時,可得到回傳的辨識結果,例如文字或是解析音訊的意圖;例如“台北市的天氣“等等。而當應用程式回應使用者時,此時需要將文字轉換成語音。
在將語音串流進入辨識前,需要做雜音抑制處理,如果這部分沒有處理好,會降低系統的辨識率;例如在安靜的環境下,辨識率是很高的,而在雜音較多的地方,是不是也能確實做到語音辨識呢?
如何的保持聲音的品質呢?將噪音消除,可以透過降噪的處理方式,如下圖:
在降噪的技術裡有Feedback ANC及Feed-Forward ANC等等,而這噪音的調校又會跟本身的機構、麥克風的位置、方向是息息相關,缺一不可。
當正確取得聲音串流時,後續就是選擇語音的辨識伺服器,以Google所提供的平台為例,它提供了一系列的Cloud Speech API,讓使用者可以輕鬆的應用語音辨識的控制。
而將聲音串流錄製並傳送到伺服器及進行本地的語音回應輸出、控制;這時你需要一個強而有力的控制平台,想當然爾,大多數會選擇Linux 平台,可以快速的取得相關的資源並連結網路,所以在挑選Linux 開發平台時,最重要的要確認平台是否有持續支援Linux main line,這是一個非常重要的指標,以確保你的Linux 平台是可以持續的支援新的Linux 版本。
Microchip 的產品 SAMA5D2 系列提供Linux 開發平台及及豐富週邊控制模組,讓你可以快速的建立產品應用。而為了縮短使用者的開發時間,也提供SoM的開發平台,這可以大大的降低使用者的開發時間及硬體的設計難度。
未來全球語音辨識市場將會變得更加多樣化,同時軟體準確度上會有大幅提升。
在醫療領域的應用:
不僅是簡單的通過智慧手錶追蹤運動情況和心率,還有直接根據人的身體狀況匹配相應的服務如合適的餐廳或食物等,當然這些大多是基於穿戴式設備的。另外他們還考慮到更多場景,諸如緊急語音求助,醫患對話存檔,呼叫中心的對話聽寫等。由於醫療領域詞彙庫專業性強演變性弱,只要建立完整的數據庫,就可以做到對疾病名稱、藥品名稱相對精確的識別。
在智慧車載的應用:
行車安全問題上一直聚焦了很多目光,去年有人曾經設計出一個車載屏幕,可以利用多指的簡單手勢解決司機操作觸控螢幕過度分散注意力的問題。通過將車載平台與手機連接,可以幫用戶實現語音控制GPS導航,訊息收發,電話接打,社群網路更新等等。
歡迎造訪 http://www.microchip.com/design-centers/32-bit-mpus 瀏覽更多相關技術資料!
作者 徐文達為 Microchip 工程師