Repository logo
  • English
  • 中文
Log In
Have you forgotten your password?
  1. Home
  2. College of Electrical Engineering and Computer Science / 電機資訊學院
  3. Computer Science and Information Engineering / 資訊工程學系
  4. Chinese Language Modeling Enhancement by Corpora and Lexicon Refinement
 
  • Details

Chinese Language Modeling Enhancement by Corpora and Lexicon Refinement

Date Issued
2004
Date
2004
Author(s)
Chang, Pi-Chuan
DOI
zh-TW
URI
http://ntur.lib.ntu.edu.tw//handle/246246/54116
Abstract
在語音辨識的研究中,使用一個對目標語料的語句有良好估測能力的語言模型, 可以有效地提高語音辨識效能。因此各語音辨識系統相關的研究中, 語言模型的部分向來是辨識系統中最核心的部分之一。 在各式各樣的語言模型中,N連統計式語言模型是使用在語音辨識系統中,最為有效且成左漱@種模型。 然而N連語言模型受到其訓練或調適所使用之文字語料的影響甚鉅, 因此語料庫精緻化就成為語音辨識之語言模型研究中很重要的課題之一。 此外,語音辨識的語言模型中,另一個重要的議題就是辭典的取得,這個問題在中文語言處理中更顯得重要, 由於中文的詞與詞之間沒有明確的分隔,因此中文抽詞、斷詞問題向來也是研究的重點之一。 故本論文中主要內容將分成語料庫精緻化、辭典精緻化、以及如何將這些技術整合使用在實際的問題上, 以強化語言模型並得到更好的辨識效能。 語料庫精緻化,對於N連語言模型使用在辨識系統中的效能有極大的影響。 本論文中首先討論兩種重大的目標語料與訓練語料的不匹配性問題, 接著討論如何取得適當的訓練語料庫,本文中先提出兩種來源的語料庫 --- 既有語料庫及衍生語料庫, 其中既有語料庫指的是現存容易取得的、和目標語料有較高相關性的語料庫, 而衍生語料庫指的則是以基礎轉寫結果為基礎,建構適當的查詢指令,從網際網路收集得到的語料庫。 在處理廣播新聞語料的實驗中,由於高品質的既有語料庫(大量匹配性高的文字新聞語料)很容易取得, 因此使用既有語料庫的辨識效能很明顯勝過使用衍生語料庫時的效能。 然而,針對其他不容易取得既有語料庫的應用領域,衍生語料庫是相當重要的。 另外,針對衍生語料庫中使用的查詢指令之建構,本論文提出兩種建構法 --- 分離式三連詞查詢指令建構法、 相連式高信心量度查詢指令建構法。由實驗結果所得到的結論為: 使用相連式高信箱連度查詢指令建構法時,可取得量較小但品質較好的衍生語料庫。 辭典精緻化,在中文語言模型中佔有很重要的地位。 本論文中首先討論傳統詞的定義,並討論使用在語音辨識應用中的詞的統計式定義,包括一個好的詞必須要高的內聚力, 並且其左右文相依性必須要低(亦即有良好的左右詞邊界)。 接著本文中分別就兩種不同的抽詞法 --- 派樹抽詞法、及迭代式組合式抽詞法,進行討論。 再者,由於統計式抽詞法中,其演算法中使用的參數調整是一個重要的問題, 因此在本論文中分別針對詞邊界量度的相異左/右相連詞個數門檻值、及最高特定左/右相連詞比例門檻值, 還有內聚力量度的重疊子片段樣式之關聯基準量、及相鄰詞內聚力量度進行實驗及討論。 由實驗的結果證明,在為了語音辨識的目的抽詞時,在詞邊界量度中的最高特定左/右相連詞比例門檻值事實上是應該被捨棄的。 此外,實驗結果也顯示,迭代式組合式抽詞法的效能勝過於派樹抽詞法。 推測其原因,是因為迭代式組合式抽詞法是從一初始辭典開始成長,因此不但具有統計式的長處,同時也善用了初始辭典所蘊含的詞的知識。 最後,本論文將各種語言模型強化的技術,整合使用在解決兩個實際的語音辨識問題 --- 廣播新聞語料及訪談語料。 由於這兩組目標語料的特性迥異,因此在語料庫的取得及精緻化、辭典的精緻化等問題上,會遭遇到不同的問題。 本論文藉著將語言模型強化使用在此兩種目標語料上的實驗,來討論先前提過各種方法的效能。 實驗的結果,說明了對於廣播新聞語料來說,由於其既有語料庫容易取得,因此採用既有語料庫, 加上分群分類架構並搭配上辭典精緻化,便可得到相當好的辨識率的進步率。 但在訪談語料的實驗中,可以發現其不匹配性高,且既有語料庫的取得困難,因此具有比較大的挑戰, 本論文中亦作了一些初步的嘗試,使得其辨識效能有些釭獐W進。
Subjects
語言模型
語音辨識
辭典
語料庫
Corpus
Speech Recognition
Language Modeling
Lexicon
Type
thesis
File(s)
Loading...
Thumbnail Image
Name

ntu-93-R91922006-1.pdf

Size

23.31 KB

Format

Adobe PDF

Checksum

(MD5):da089231648f9e6f873dcd7dddc41897

臺大位居世界頂尖大學之列,為永久珍藏及向國際展現本校豐碩的研究成果及學術能量,圖書館整合機構典藏(NTUR)與學術庫(AH)不同功能平台,成為臺大學術典藏NTU scholars。期能整合研究能量、促進交流合作、保存學術產出、推廣研究成果。

To permanently archive and promote researcher profiles and scholarly works, Library integrates the services of “NTU Repository” with “Academic Hub” to form NTU Scholars.

總館學科館員 (Main Library)
醫學圖書館學科館員 (Medical Library)
社會科學院辜振甫紀念圖書館學科館員 (Social Sciences Library)

開放取用是從使用者角度提升資訊取用性的社會運動,應用在學術研究上是透過將研究著作公開供使用者自由取閱,以促進學術傳播及因應期刊訂購費用逐年攀升。同時可加速研究發展、提升研究影響力,NTU Scholars即為本校的開放取用典藏(OA Archive)平台。(點選深入了解OA)

  • 請確認所上傳的全文是原創的內容,若該文件包含部分內容的版權非匯入者所有,或由第三方贊助與合作完成,請確認該版權所有者及第三方同意提供此授權。
    Please represent that the submission is your original work, and that you have the right to grant the rights to upload.
  • 若欲上傳已出版的全文電子檔,可使用Open policy finder網站查詢,以確認出版單位之版權政策。
    Please use Open policy finder to find a summary of permissions that are normally given as part of each publisher's copyright transfer agreement.
  • 網站簡介 (Quickstart Guide)
  • 使用手冊 (Instruction Manual)
  • 線上預約服務 (Booking Service)
  • 方案一:臺灣大學計算機中心帳號登入
    (With C&INC Email Account)
  • 方案二:ORCID帳號登入 (With ORCID)
  • 方案一:定期更新ORCID者,以ID匯入 (Search for identifier (ORCID))
  • 方案二:自行建檔 (Default mode Submission)
  • 方案三:學科館員協助匯入 (Email worklist to subject librarians)

Built with DSpace-CRIS software - Extension maintained and optimized by 4Science