鄭士康臺灣大學:電機工程學研究所楊宗碩Yang, Tzung-ShuoTzung-ShuoYang2007-11-262018-07-062007-11-262018-07-062007http://ntur.lib.ntu.edu.tw//handle/246246/53212本論文提出一個可以自動調整中文流行歌曲清唱歌聲以及其相對應歌詞的新方法,其目標在能自動的標示歌詞中每個文字的正確出現時間。首先我們以強制校準(forced alignment)為基本架構,又因為每個字出現時往往都是個起始點(onset),但在歌曲轉音時,有可能產生一個新的起始點卻是接續前一個字,也就是一個字唱了好幾個音的狀況,所以我們加入一些音樂的特徵參數,並利用支援向量機(Support Vector Machine, SVM)判斷每個起始點是否為真正一個字的出現點。因為有些中文的聲母(如:擦音、塞音、擦塞音等)會產生大量的摩擦氣流,造成越零率(Zero Cross Rate, ZCR)暴增,所以加入這個中文的聲學特性來加強效能。最後整合上述方法,並得到一個較好的結果。This paper presents a novel method that automatically aligns the textural lyrics with their corresponding mandarin popular music in pure vocal (i.e., consisting of singing voice only, without any musical instrument). Our goal is to automatically annotate the accurate time index of each syllable in the lyric. Forced-alignment is the baseline algorithm for this system. Because the beginning of each word may be an onset, we need to find out the real onsets. In order to separate the onsets, the support vector machine(SVM) is used. Besides, we try to add an acoustic model to improve the results. The idea is that there are some consonants in mandarin (such as: stop, fricative or affricate …) which will bring lots of burst airflow and cause zero crossing rate (ZCR) to increase suddenly. We make use of this characteristic to increase the accuracy of the alignment results.附圖目錄 附表目錄 第一章 緒論 1 1.1 研究動機與背景 1 1.2文獻探討 1 1.2.1句子間的歌詞校準(Sentence-level Alignment) 2 1.2.2音節間的歌詞校準(Syllabic-level Alignment) 2 1.3系統流程概觀 3 1.4 基本假設 3 1.5章節介紹 4 第二章 基本背景 6 2.1 數位音訊基本概念 6 2.2 短時間Fourier轉換(Short Time Fourier Transform) 7 2.3 基本音訊處理過程 8 2.3.1音框化(Framing) 8 2.3.2預強處理(Pre-emphasis) 9 2.3.3 端點偵測(Endpoint Detection) 10 第三章 系統架構 11 3.1 系統架構簡介 11 3.2 Mel倒頻譜(Mel Frequency Cepstral Coefficient, MFCC) 12 3.3 強制校準 13 3.3.1 隱藏式Markov模型 14 3.3.2 強制校準(Forced Alignment) 18 3.4 起始點偵測 18 3.5 支援向量機 21 3.6 越零率 25 3.7 歌詞特徵擷取 26 第四章 系統實作 27 4.1 Mel倒頻譜 27 4.2 強制校準 27 4.2.1 英文模型轉換 27 4.2.2 聲學模型(Acoustic Model) 28 4.3起始點偵測 28 4.4支援向量機 29 4.4.1 音訊參數擷取 29 4.4.2 支援向量機 32 4.4.2 修正嚴重錯誤 34 4.4.3 挑選合適起始點 34 4.4.4 挑選結束點 35 4.5 越零率 36 4.5.1 標示每個音節起始位置 36 4.6 輸出檔案格式 37 4.7 使用者介面 38 第五章 實驗與結果討論 39 5.1 實驗過程 39 5.2 正確率定義 42 5.2.1 音節邊界正確率 42 5.2.2 範圍正確率 43 5.2.3 期間正確率 43 5.3 實驗結果 44 5.4 問題與討論 47 第六章 結論 49 參考文獻 501695336 bytesapplication/pdfen-US歌詞強制校準起始點支援向量機越零率lyricsforced-alignmentonsetSVMZCR清唱中文流行歌曲在字之間的自動歌詞校準系統An Automatic Syllabic-Level Lyrics-Vocal Alignment System for Mandarin Popular Vocal Musicthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53212/1/ntu-96-R94942119-1.pdf