子計畫一：無線通訊環境下國語語音之分散式辨認(3/3)

國立臺灣大學電信工程學研究所李宇旼2006-07-262018-07-052006-07-262018-07-052003-07-31http://ntur.lib.ntu.edu.tw//handle/246246/20274無線通訊的興起，滿足了人們隨心所欲，隨時隨地交流訊息，傳遞資訊的渴望：例如，不管走到那裡，你都可以和好朋友們交換心情；在緊急事件的當下，透過無線通訊，我們也可以掌握到最快、最新的資訊。而通訊技術不斷地進步，使得我們不但可以利用無線網路進行對談，也可以透過它連上網際網路，來存取想要獲得的資訊。例如，你可能想要隨時下載在你的電子信箱中的郵件；或是當你在會議進行中，發現有某一筆文件忘了帶，你可以透過行動電話呼叫家中的電腦為你傳送過來。此外，無線通訊即將邁入一個新的進程－－第三代行動通訊，其提供的頻寬，可以讓我們享受許多多媒體的服務，屆時，我們可以利用行動電話下載許多的影音資訊，不需要個人電腦和網路線，一樣可以存取網際網路上的資源。但是有一個問題隨之而來，那就是：我們勢必要對行動電話下很多複雜的指令；但是行動電話的體積為了可攜性，方便性的緣故是愈做愈小，也就是說，我們可以在行動電話上安排輸入的按鍵數目將愈來愈少，未來在功能增多情况下將不敷使用。另外，行動電話鍵盤的設 8 計，本來是用來輸入電話號碼，但在進入高頻寬的第三代行動通訊的時代後，行動電話的角色將不只是通話的工具，為了要應付更多更複雜的指令，原先的鍵盤設計不能符合新的用途。所以尋找一個方便，快速又能處理繁雜指令的輸入介面，是我們所關注的。而利用語音作為輸入介面不啻為一個好方法：語音輸入符合了我們上述方便、快速的原則；同時，由於語音辨識的技術漸趨成熟，對於連續數字（Digit String）的辨識已有讓人相當滿意的成果，大字彙連續語音辨識（Large Vocabulary Continuous Speech Recognition， LVCSR）的結果亦逐步改善中－－因此我們可以利用語音來處理繁雜的指令。根據上面所描述，若採用語音做為新的輸入介面，許多衍生的問題也隨之發生：行動電話的體積太小，其計算能力以及儲存用的記憶體將嚴重受限，使得我們若要在行動電話上處理整個語音辨識的程序是有困難的。我們可以使用一部可以負荷語音辨識計算量、記憶體可以容納辨識所需的資訊的遠端伺服器幫助呼叫辨識服務的用戶處理辨識程序，也就是說，我們要把繁複的語音解碼工作分散在伺服器端和行動電話用戶端兩者之間。那麼，我們該如何在整個系統配置整個音辨識的工作呢？又，當我們配置整個語音辨識工作，意 9 味著我們必須透過無線通道的環境傳送某些資訊：這些資訊在無線通道中勢必受到各種雜訊的干撓，包括無可避免在電子儀器中的白色雜訊（White Noise）、因多通道衰減（Multi－Path Fading）造成的群集錯誤（Burst Error）等等。在以上所述的條件底下，語音的辨識正確率將會受到多大的影響？有什麼可以改善錯誤的方法？以上的問題，在語音辨識研究的領域中已成為一個新興的主題，稱作分散式語音辨識（Distributed Speech Recognition），而本報告也將針對分散式語音辨識所要面對的問題做一些探討。application/pdf730659 bytesapplication/pdfzh-TW國立臺灣大學電信工程學研究所子計畫一：無線通訊環境下國語語音之分散式辨認(3/3)reporthttp://ntur.lib.ntu.edu.tw/bitstream/246246/20274/1/912219E002035.pdf