指導教授:李琳山臺灣大學:電信工程學研究所李昀樵Li, Yun-ChiaoYun-ChiaoLi2014-11-302018-07-052014-11-302018-07-052014http://ntur.lib.ntu.edu.tw//handle/246246/264292本論文之主軸在探討語音數位內容之語意檢索(Semantic Retrieval of Spoken Content)。由於近年來網路日新月異,使得網路上包含語音資訊的多媒體數位內容(Multimedia Content) 如線上課程、電影、戲劇、會議錄音等日漸增加,因此,語音數位內容之檢索也隨之受到重視。但以前的語音數位內容檢索多半著重於口述語彙偵測(Spoken Term Detection),而本篇論文將把目標放在語意檢索(指找到語意相關的語音文件,但未必包含查詢詞(Query Terms)),實現的方法主要是借助查詢詞擴展(Query Expansion),並另外加入了一套自動習得之聲學組型(Automatically Discovered Acoustic Patterns) 用以解決以往語音數位內容語意檢索之困難。 首先,由於傳統的語音數位內容語意檢索是先將語音文件辨識為以文字構成的詞圖後,再於詞圖上進行查詢詞擴展,但有許多聲學上的資訊會在辨識之中流失,或是有辨識錯誤與辭典外辭彙也會使檢索系統的成效下降,因此本論文在文字的查詢詞擴展之外,再加入一套自動習得之聲學組型的查詢詞擴展,並結合兩套查詢詞擴展之結果回傳給使用者。 此外,使用聲學組型也可以直接達成非監督式(Unsupervised) 語音文件的語意檢索。傳統的語意檢索必須依賴文字才知語意,故需將語音文件辨識成詞圖,但是這樣需要已訓練得很好的聲學模型和語言模型,而這兩者的訓練需要有妥為標注(annotated) 並和數位內容適度匹配(matched) 的訓練語料。通常是非常昂貴的,因此我們將所有語音文件辨識為聲學組型的序列之後,在這些聲學組型的序列上進行查詢詞擴展,進而達到無需標注語料的非監督式語音數位內容之語意檢索。 另一方面,由於聲學組型在訓練時並不知道聲音和詞之間的關聯,所以會將所有同音詞的聲音歸類到同一個聲學組型中,這會使得檢索的成效下降。所以本論文進一步使用遞迴式類神經網路語言模型(Recurrent Neural Network Language Model)的詞表示法(Word Representation)將同一個聲學組型按照句法(Syntactics)和語意(Semantics)的不同進一步分群為不同的聲學組型,以便提升檢索系統成效。 最後,由於行動裝置日益重要,也使得行動裝置上的語音輸入漸受重視,因此本論文在Google 眼鏡上開發了兩個應用程序:雲端個人化語言翻譯系統和雲端個人化新聞查詢系統,幫助使用者在行動裝置上快速地取得想要的資訊。誌謝. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i 中文摘要. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii 一、導論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 研究動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 研究方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 章節安排. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 二、背景知識. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1 語音數位內容檢索. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.2 口述語彙偵測與語意檢索. . . . . . . . . . . . . . . . . . . . 5 2.1.3 詞圖與唯一最佳序列. . . . . . . . . . . . . . . . . . . . . . . 7 2.1.4 辭典外詞彙(Out of Vocabulary) . . . . . . . . . . . . . . . . . 9 2.1.5 檢索系統. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.6 片段式動態時間校準(Segmental DTW) . . . . . . . . . . . . . 11 2.1.7 資訊檢索評估機制. . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 相關回饋. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.1 外顯回饋. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.2 隱含回饋. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.3 虛擬回饋. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.4 查詢詞擴展與文件擴展. . . . . . . . . . . . . . . . . . . . . . 19 2.3 自動習得之聲學組型. . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4 遞迴式類神經網路語言模型. . . . . . . . . . . . . . . . . . . . . . . 25 2.5 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 三、以自動習得之聲學組型加強監督式語意檢索. . . . . . . . . . . . . . . . 30 3.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2 傳統監督式語音文件語意檢索. . . . . . . . . . . . . . . . . . . . . . 31 3.2.1 第一次檢索結果. . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2.2 查詢詞擴展與第二次檢索. . . . . . . . . . . . . . . . . . . . 33 3.3 以聲學組型改善監督式語意檢索. . . . . . . . . . . . . . . . . . . . . 34 3.3.1 前處理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.2 第一次檢索結果. . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3.3 查詢詞擴展. . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4 實驗設定. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5 實驗結果及分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.6 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 四、以自動習得之聲學組型實現非監督式語意檢索. . . . . . . . . . . . . . . 44 4.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.2 基於聲學組型之語意檢索. . . . . . . . . . . . . . . . . . . . . . . . . 45 4.2.1 系統架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.2.2 前處理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.3 第一次檢索結果. . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2.4 語意檢索. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.3 實驗設定. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.4 N連聲學組型分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.5 實驗結果及分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 4.5.1 聲學組型語意檢索能力分析. . . . . . . . . . . . . . . . . . . 57 4.6 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 五、利用遞迴式類神經網路語言模型加強非監督式語音文件檢索. . . . . . . 59 5.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.2 基於遞迴式類神經網路語言模型之詞表示法. . . . . . . . . . . . . . 60 5.2.1 基於遞迴式類神經語言模型之詞表示法. . . . . . . . . . . . 60 5.3 以詞表示法改善非監督式語意檢索. . . . . . . . . . . . . . . . . . . 61 5.4 實驗基礎架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.5 實驗結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.6 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 六、在Google Glass上實作個人化的語音翻譯與新聞檢索系統. . . . . . . . . 66 6.1 簡介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6.2 個人化的語言翻譯系統簡介. . . . . . . . . . . . . . . . . . . . . . . 68 6.3 個人化的語音文件檢索系統簡介. . . . . . . . . . . . . . . . . . . . . 70 6.4 系統展示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.4.1 個人化的語音翻譯系統展示. . . . . . . . . . . . . . . . . . . 71 6.4.2 個人化的語音文件檢索系統展示. . . . . . . . . . . . . . . . 71 6.5 本章總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 七、結論與展望. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 7.1 本論文主要的研究貢獻與未來展望. . . . . . . . . . . . . . . . . . . 74 7.1.1 使用聲學組型加強語音文件檢索. . . . . . . . . . . . . . . . 74 7.1.2 實作雲端語音辨識與應用程式於Google 眼鏡. . . . . . . . . 75 參考文獻. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764663310 bytesapplication/pdf論文公開時間:2014/08/31論文使用權限:同意有償授權(權利金給回饋學校)語音數位內容檢索查詢詞擴展語意檢索使用查詢詞擴展與自動習得之聲學組型強化語音數位內容之語意檢索Enhanced Semantic Retrieval of Spoken Content with Query Expansion and Automatically Discovered Acoustic Patternsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/264292/1/ntu-103-R01942062-1.pdf