以高斯混合模型為基礎之呼吸音分類研究

張璞曾臺灣大學：電機工程學研究所劉柏青Liu, Bor-ChinBor-ChinLiu2007-11-262018-07-062007-11-262018-07-062006http://ntur.lib.ntu.edu.tw//handle/246246/53017傳統最常見的偵測哮鳴音(Wheeze)方法，是根據哮鳴音在時域與頻域上的特性，如持續時間的長短(duration)與出現的頻率範圍(frequency)以及最重要的峰值(peak)特徵來判定是否為哮鳴音。但是用來判斷是否為哮鳴音(Wheeze)峰值的閥值(threshold)常藉著經驗法則去估測決定，因此往往會受到環境雜訊或是與系統的依賴性影響，而有所誤差，且因為將資料轉到相對色階的時頻譜圖，而使整個偵測哮鳴音的計算時間無法達到即時的需求，加上人工判讀時頻譜圖不適合一般大眾使用，這些是需要改善的地方。本研究計劃之目標在於辨識呼吸音，是否為正常呼吸音或是異常呼吸音，像是哮鳴音(Wheeze)。且改善一般傳統哮鳴音偵測方法判斷是否為哮鳴音(Wheeze)峰值的閥值(threshold)常藉著經驗法則去決定，在此利用簡單的數值大小判斷。所以我們利用語音技術的觀念，客觀量化的將正常呼吸音以及異常呼吸音中的哮鳴音(wheeze)看成是兩個不同的語者，看成是一種語者辨認。在本論文中，利用梅爾刻度式倒頻譜參數 (Me-Frequency Cepstral Coefficients，MFCC)，求取呼吸音的特徵參數，再以高斯混合模型（Gaussian Mixture Models，GMM)為分類模型的基礎，以向量量化 (Vector Quantization，VQ)，期望值最大演算法(Expectation Maximization)及最大概似值法（Maximum Likelihood Method）等原理，經過一連串訓練語料的訓練以及最佳化之後，完成正常呼吸音語者與異常呼吸音中的哮鳴音語者(wheeze)兩個語者之特徵向量（Feature Vectors）的統計分佈(Distribution），來做語者辨認的實驗。實驗結果得知在呼吸音訓練語料充足前提之下，使用越多高斯混和數，越能夠代表正常呼吸音語者與哮鳴音語者音語者的聲學特徵，辨識率也就能提高。若訓練語料不充分的情形下，增加高斯混合數，將會達到一個飽和，再增加則會降低辨識率。當然我們也發現當測試語句長度越長，對辨識結果也會越好。今後我們可以用此呼吸音分類方法，作為客觀量化的依據，以利醫師判斷出哮鳴現象，提供醫師客觀的參考，且提供病人及一般大眾較簡單方便的判斷。Traditional wheezes detection method are based on searching for the frequencies and durations of wheezes or the peaks from successive spectra.In these methods,the discriminative threshold used to identify peaks is fixed empirically.The objective of this study is to classify normal and abnormal (wheezing) respiratory sounds using the Cepstral analysis(Mel Frequency Cepstral Coefficients ,MFCC) is proposed with Gaussian Mixture Models (GMM) method. Gaussian Mixture Models(GMM) is a powerful statistical method massively used for speaker identification. In the respiratory sound that is obtained by training. During the test phase, an unknown sound is compared to all the GMM on the models and the classification decision is based on the Maximum Likelihood (ML) criterion.目錄第一章緒論 1 1.1 研究動機 1 1.2 呼吸音(Respiratory sound)的介紹 3 1.2.1 肺音發生機制 3 1.2.2 肺音頻率特性概述 4 1.2.3 呼吸音的分類 5 1.3 語者辨認概論 7 1.4 本論文研究的主題與研究的方向 9 1.5 章節大要 10 第二章原理與方法 11 2.1 文獻回顧 11 2.1.1 哮鳴音特徵 11 2.1.2 哮鳴音偵測文獻回顧 12 2.2 語者辨認技術的發展 13 2.3 語者辨認的基本技術 15 2.3.1 梅爾頻率倒頻譜係數（MEL-SCALE CEPSTRUM） 15 2.3.2 向量量化 (Vector Quantization，VQ) 19 2.3.3 期望值最大化演算法 (EXPECTATION MAXIMIZATION) 21 2.4 高斯混合模型（GAUSSIAN MIXTURE MODEL，GMM） 23 2.4.1 模型描述 23 2.4.2 模型訓練 24 2.4.3 辨識法則 26 第三章呼吸音量測系統裝置 28 3.1 系統架構 28 3.2 硬體 30 3.3 軟體 36 3.3.1呼吸音分類方法架構 37 第四章實驗結果 38 4.1 實驗背景架構 38 4.1.1 語音資料庫(Corpus) 38 4.1.2 語音訊號的特徵參數擷取 38 4.2 語者辨認系統效能的評估 40 4.3 利用高斯混和模型的語者識別實驗 41 4.3.1 實驗一：高斯分佈個數對辨認的影響 41 4.3.2 實驗二: 訓練語料長度的影響 42 第五章討論與結論 45 第六章未來展望 48 參考文獻 49769156 bytesapplication/pdfen-US梅爾刻度式倒頻譜參數高斯混合模型向量量化期望值最大演算法最大概似值法wheezesrespiratory soundscepstral analysisMel Frequency Cepstral CoefficientsGaussian Mixture ModelsMaximum Likelihood以高斯混合模型為基礎之呼吸音分類研究Respiratory Sounds Classification Base On Gaussian Mixture Modelsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53017/1/ntu-95-R93921120-1.pdf