以深層與卷積類神經網路建構聲學模型之大字彙連續語音辨識

周伯威; Chou, Po-Wei

DC 欄位	值	語言
dc.contributor	電機資訊學院: 電信工程學研究所	zh:
dc.contributor	指導教授: 李琳山	zh
dc.contributor.author	周伯威	zh
dc.contributor.author	Chou, Po-Wei	en
dc.creator	周伯威	zh
dc.creator	Chou, Po-Wei	en
dc.date	2015	-
dc.date.accessioned	2017-03-06T02:58:33Z	-
dc.date.accessioned	2018-07-05T04:28:53Z	-
dc.date.available	2017-03-06T02:58:33Z	-
dc.date.available	2018-07-05T04:28:53Z	-
dc.date.issued	2015	-
dc.identifier.uri	http://ntur.lib.ntu.edu.tw//handle/246246/276339	-
dc.description.abstract	在語音辨識中，以深層類神經網路 (deep neural network, DNN) 取代傳統的高斯混合模型 (Gaussian mixture model, GMM) 來建構聲學模型 (acoustic model, AM) 的作法，因其優異的表現已逐漸成為主流。在本論文中，我們以深層類神經網路及卷積類神經網路 (convolutional neural network, CNN) 來產生隱藏式馬可夫模型 (hidden Markov model, HMM) 所需的狀態 (state) 機率，發展出大字彙連續語音辨識 (large-vocabulary continuous speech recognition, LVCSR) 中的聲學模型，在英文的評效語料 (benchmark corpus) 上進行了一系列的實驗。實驗結果顯示不論是深層類神經網路還是卷積類神經網路，其辨識準確率均能大幅地超越傳統基於高斯混合模型的作法，而其中又以深層類神經網路的表現最為出色。由於不同語者的語音永遠是不一樣的，本文也探討了如何在深層類神經網路的聲學模型架構上，執行語者調適 (speaker adaptation) 以解決受測目標語者 (target speaker) 的語音與訓練語料 (training corpus) 之間不匹配 (mismatch) 的問題。透過對特徵空間上鑑別式線性迴歸 (feature-space discriminative linear regression, fDLR) 的改進，我們提出了一套將隱藏式馬可夫模型的狀態分群 (state-clustered) 的作法，更精細地考慮隱藏式馬可夫模型中各狀態不同的聲學結構，分群進行調適，並透過兩階段的方式進行辨識，提升目標語者的辨識準確度。在一系列的以 Facebook 個人動態 (status) 錄製而成的中英雙語 (bilingual) 語料的實驗中，可以發現不論是少量或是大量的調適語料，運用此方法建立的個人化 (personalized) 聲學模型皆能有相當良好的表現。此外，我們也實作了一套透過圖形處理器 (graphics processing unit, GPU) 加速的深層類神經網路函式庫。文中除了介紹基本的使用說明以外，也詳細地記載了該程式的軟體架構與設計原理，並探討了圖形處理器上幾個重要的實作細節。	zh
dc.format.extent	38147670 bytes	-
dc.format.mimetype	application/pdf	-
dc.language	zh	-
dc.rights	論文公開時間: 2015/3/13	zh
dc.rights	論文使用權限: 同意無償授權	-
dc.subject	語音辨識	zh
dc.subject	大字彙連續語音辨識	zh
dc.subject	類神經網路	zh
dc.subject	深層類神經網路	zh
dc.subject	Speech Recognition	en
dc.subject	Large Vocabulary Continuous Speech Recognition	en
dc.subject	Artificial Neural Network	en
dc.subject	Deep Neural Network	en
dc.title	以深層與卷積類神經網路建構聲學模型之大字彙連續語音辨識	zh
dc.title	Deep and Convolutional Neural Networks for Acoutic Modeling in Large Vocabulary Continuous Speech Recognition	en
dc.type	thesis	en
dc.identifier.uri.fulltext	http://ntur.lib.ntu.edu.tw/bitstream/246246/276339/1/ntu-104-R01942135-1.pdf	-
item.fulltext	with fulltext	-
item.openairecristype	http://purl.org/coar/resource_type/c_46ec	-
item.cerifentitytype	Publications	-
item.openairetype	thesis	-
item.grantfulltext	open	-
顯示於：	電信工程學研究所

文件中的檔案：

檔案	描述	大小	格式
ntu-104-R01942135-1.pdf		23.32 kB	Adobe PDF	檢視/開啟

顯示文件簡單紀錄

Page view(s) 20

567

checked on 2024/5/18

下載

checked on 2024/5/18

Google Scholar^TM

檢查

TAIR相關文章

文件中的檔案：

Page view(s) 20

下載

Google ScholarTM

Google Scholar^TM