DC 欄位 | 值 | 語言 |
dc.contributor | 電機資訊學院: 電信工程學研究所 | zh: |
dc.contributor | 指導教授: 李琳山 | zh |
dc.contributor.author | 周伯威 | zh |
dc.contributor.author | Chou, Po-Wei | en |
dc.creator | 周伯威 | zh |
dc.creator | Chou, Po-Wei | en |
dc.date | 2015 | - |
dc.date.accessioned | 2017-03-06T02:58:33Z | - |
dc.date.accessioned | 2018-07-05T04:28:53Z | - |
dc.date.available | 2017-03-06T02:58:33Z | - |
dc.date.available | 2018-07-05T04:28:53Z | - |
dc.date.issued | 2015 | - |
dc.identifier.uri | http://ntur.lib.ntu.edu.tw//handle/246246/276339 | - |
dc.description.abstract | 在語音辨識中,以深層類神經網路 (deep neural network, DNN) 取代傳統的高斯混合模型 (Gaussian mixture model, GMM) 來建構聲學模型 (acoustic model, AM) 的作法,因其優異的表現已逐漸成為主流。在本論文中,我們以深層類神經網路及卷積類神經網路 (convolutional neural network, CNN) 來產生隱藏式馬可夫模型 (hidden Markov model, HMM) 所需的狀態 (state) 機率,發展出大字彙連續語音辨識 (large-vocabulary continuous speech recognition, LVCSR) 中的聲學模型,在英文的評效語料 (benchmark corpus) 上進行了一系列的實驗。實驗結果顯示不論是深層類神經網路還是卷積類神經網路,其辨識準確率均能大幅地超越傳統基於高斯混合模型的作法,而其中又以深層類神經網路的表現最為出色。 由於不同語者的語音永遠是不一樣的,本文也探討了如何在深層類神經網路的聲學模型架構上,執行語者調適 (speaker adaptation) 以解決受測目標語者 (target speaker) 的語音與訓練語料 (training corpus) 之間不匹配 (mismatch) 的問題。透過對特徵空間上鑑別式線性迴歸 (feature-space discriminative linear regression, fDLR) 的改進,我們提出了一套將隱藏式馬可夫模型的狀態分群 (state-clustered) 的作法,更精細地考慮隱藏式馬可夫模型中各狀態不同的聲學結構,分群進行調適,並透過兩階段的方式進行辨識,提升目標語者的辨識準確度。在一系列的以 Facebook 個人動態 (status) 錄製而成的中英雙語 (bilingual) 語料的實驗中,可以發現不論是少量或是大量的調適語料,運用此方法建立的個人化 (personalized) 聲學模型皆能有相當良好的表現。 此外,我們也實作了一套透過圖形處理器 (graphics processing unit, GPU) 加速的深層類神經網路函式庫。文中除了介紹基本的使用說明以外,也詳細地記載了該程式的軟體架構與設計原理,並探討了圖形處理器上幾個重要的實作細節。 | zh |
dc.format.extent | 38147670 bytes | - |
dc.format.mimetype | application/pdf | - |
dc.language | zh | - |
dc.rights | 論文公開時間: 2015/3/13 | zh |
dc.rights | 論文使用權限: 同意無償授權 | - |
dc.subject | 語音辨識 | zh |
dc.subject | 大字彙連續語音辨識 | zh |
dc.subject | 類神經網路 | zh |
dc.subject | 深層類神經網路 | zh |
dc.subject | Speech Recognition | en |
dc.subject | Large Vocabulary Continuous Speech Recognition | en |
dc.subject | Artificial Neural Network | en |
dc.subject | Deep Neural Network | en |
dc.title | 以深層與卷積類神經網路建構聲學模型之大字彙連續語音辨識 | zh |
dc.title | Deep and Convolutional Neural Networks for Acoutic Modeling in Large Vocabulary Continuous Speech Recognition | en |
dc.type | thesis | en |
dc.identifier.uri.fulltext | http://ntur.lib.ntu.edu.tw/bitstream/246246/276339/1/ntu-104-R01942135-1.pdf | - |
item.fulltext | with fulltext | - |
item.openairecristype | http://purl.org/coar/resource_type/c_46ec | - |
item.cerifentitytype | Publications | - |
item.openairetype | thesis | - |
item.grantfulltext | open | - |
顯示於: | 電信工程學研究所
|