語音辨識是將語音即時的轉換成文字,而這音源是源自麥克風或是其它的音訊來源,將其音訊傳送到伺服器運算處理或是本地運算辨識。而當將音訊傳送到伺服器時,可得到回傳的辨識結果,例如文字或是解析音訊的意圖;例如“台北市的天氣“等等。而當應用程式回應使用者時,此時需要將文字轉換成語音。
在將語音串流進入辨識前,需要做雜音抑制處理,如果這部分沒有處理好,會降低系統的辨識率;例如在安靜的環境下,辨識率是很高的,而在雜音較多的地方,是不是也能確實做到語音辨識呢?......
在將語音串流進入辨識前,需要做雜音抑制處理,如果這部分沒有處理好,會降低系統的辨識率;例如在安靜的環境下,辨識率是很高的,而在雜音較多的地方,是不是也能確實做到語音辨識呢?