語音辨識的再精進｜BIIC Lab - NTHU | 人本訊號運算研究室

HOME

Finished Projects

語音辨識的再精進

APR

2022

Mar

2023

計畫介紹

過往與玉山的合作已為本行建立了語音辨識的基礎，但實務上辨識的正確率尚有提升的空間，因此我們分析了語音辨識的各個步驟，歸納出了三個可進一步精進且較適合產學合作的題目，說明如下：

多語系交錯問題（code switching）
建立語言模型為語音辨識的一個重要步驟，因本行應用語音辨識的情境很多，例如辨識一般演講，就時常會出現中英文混雜的語句。但是語言模型主要是靠統計文字資料的前後詞所計算出的機率來建立，可是收集到的文字資料大多數為單一語系，與真人在一般說話時可能會多種語言交錯不同，這就容易造成模型在辨識時，會有較高機率輸出與前面文字語系相同的文字，在不同語言文字切換的時候就容易辨識錯誤。
頻寬擴展問題（bandwidth expansion）
語音資料依照採樣頻率會有不同的音訊品質，電話的採樣頻率通常為8K（即每秒有八千個採樣點）、網路通話為16K、一般錄音為44K以上。語音辨識模型也會依照訓練資料的品質不同而有適合不同採樣率的模型，但是由於行內有辨識電話的需求，也有辨識一般錄音的需求，讓較高採樣率辨識低採率的音訊就會降低正確率，反之需要先把高採樣率的音訊降低品質才能辨識，音訊細節因而減少，也導致正確率不彰。透過頻寬擴展的技術，可以讓低品質的音訊先還原成具有高品質音訊細節的聲音，然後一致採用較高採樣率的模型做辨識。
通道估計（channel estimation）
聲音從麥克風輸入後會經過一系列的訊號轉換才會到接收端，在過程中可能會遭遇一系列的訊號扭曲（稱為通道效應），這情況尤其在以類比訊號為主的電話系統上影響較大，語音辨識的效果也會因此受影響，目前僅能透過收集該通道上的聲音資料來做訓練，但訓練出來的模型基本上僅適用於該通道，很難改善在其他通道上的影響。因此，希望能尋求通道估計的方法，能用少量的資料便能還原被扭曲的訊號。

PARTNER

PROJECTS