同時學習音素模型及無標註聲學組型之HMM狀態之語者調適

電機資訊學院: 電機工程學研究所指導教授: 李琳山魏誠寬Wei, Cheng-KuanCheng-KuanWei2017-03-062018-07-062017-03-062018-07-062015http://ntur.lib.ntu.edu.tw//handle/246246/276272在語音辨識中，以深層類神經網路 (deep neural network, DNN) 來建構聲學模型 (acoustic model, AM) 的作法已成為主流。但在訓練深層類神經網路時，學習率的調整常是必須且最花時間的步驟。本論文以英文的評效語料 (benchmark corpus) 詳細測試兩種隨著訓練過程中錯誤表面 (error surface) 的變化自動調適學習率的方法：調適次梯度法 (adaptive subgradient method, AdaGrad) 及其結合滑動窗後的改進版本 (AdaDelta)。實驗結果顯示這兩種方法確能減少對學習率的倚賴並加速訓練，其中又以調適次梯度法更為適合快速實驗的情境。另一方面，在個人化語音辨識的情境下，今日個人化的語料已經相當的豐富，但其中大都沒有人工標註的文字轉寫，所以本文也探討了在深層類神經網路的聲學模型架構中，利用將人工標註的音素及以非監督式 (unsupervised) 方式自動產生的聲學組型共用類神經網路的隱藏層的方法，以非監督式聲學組型的隱藏式馬可夫模型 (Hidden Markov Model, HMM) 狀態作為另一組訓練目標，協助我們利用大量沒有文字轉寫的語料來進行語者調適 (speaker adaptation) 。在參照 Facebook 個人動態 (status) 錄製成的中英雙語 (bilingual) 語料的實驗中，我們證實這個方法是有效的，尤其在含文字轉寫的語料量越少時，幫助越明顯。此外，我們也實作了一套透過圖形處理器 (graphics processing unit, GPU) 加速，並實作任意有向無環圖結構及遞迴式的深層類神經網路函數庫及工具。4052747 bytesapplication/pdf論文公開時間: 2015/8/16論文使用權限: 同意有償授權(權利金給回饋學校)非監督式聲學組型多目標學習類神經網路聲學模型語者調適個人化語音辨識unsupervised acoustic tokenmulti-task learningneural network-based acoustic modelspeech adaptationpersonalized speech recognition同時學習音素模型及無標註聲學組型之HMM狀態之語者調適Speaker Adaptation by Joint Learning the HMM states of Phoneme Models and Acoustic Tokens Discovered without Annotationsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/276272/1/ntu-104-R02921036-1.pdf