Repository logo
  • English
  • 中文
Log In
Have you forgotten your password?
  1. Home
  2. College of Electrical Engineering and Computer Science / 電機資訊學院
  3. Computer Science and Information Engineering / 資訊工程學系
  4. An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications
 
  • Details

An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications

Date Issued
2004
Date
2004
Author(s)
Liu, Yu-Ying
DOI
zh-TW
URI
http://ntur.lib.ntu.edu.tw//handle/246246/54151
Abstract
類專有名詞辨識是希望將文章中重要的類專有名詞(如:人名、地名、組織名等)標註出來,對於文章作一個初步的文件了解動作, 如此我們即可得知文章中關連到哪些人、事件發生在什麼地方、與哪些組織有關等資訊。 當我們將釵h詞典外詞彙分辨成類專有名詞的語意類別後, 也對釵h的後續應用帶來幫助, 如:可幫助問答系統做問句語意剖析及以類專有名詞於句子中的出現種類與數量做為自動摘要系統評估句子重要性的一個指標值。 本論文除了探討純文字文件下的類專有名詞辨識, 另一個重要的研究主題為在語音文件中做類專有名詞辨識,由於語音文件中包含了辨識的不確定性, 若能加入判斷語音辨識正確與否的考量, 在語音辨識錯誤處做類專有名詞的修正與回收,對於語音文件的後續加值應用的幫助是更大的。 因此本論文主要以三個部分做探討, 分別是``文字文件類專有名詞辨識'、``語音文件類專有名詞辨識'以及``類專有名詞辨識衍生之相關應用'。 ``文字文件類專有名詞辨識', 我們實作了統計導向的``以類別語言模型為基礎的類專有名詞辨識'及規則導向的``結合派樹式類專有名詞抽取與經驗法則的類專有名詞辨識'。 在統計導向的方法中,我們提出地名與組織名皆可以巢狀的類別語言模型來估測, 如此才能辨識出各種複雜結構組成的類專有名詞。 而在規則導向的方法中, 我們提出一個前端對整篇文章做派樹式類專有名詞抽取的方法; 利用整篇文章所帶的字串前後文統計值與字面值, 幫助抽取出邊界正確的類專有名詞,並可回收一般方法較難偵測出的縮寫類專有名詞, 後端再結合詞性的標註與各種經驗法則, 在新聞領域上可以得到不錯的類專有名詞辨識率。 我們認為這兩種方法在不同的應用上,如:不同文體或加入更多種類的類專有名詞類別上, 皆各有其優勢及實用上的價值。 ``語音文件類專有名詞辨識', 我們探討了直接使用``文字文件類專有名詞辨識器'於語音文件上會遇到的主要問題, 並提出結合關鍵詞可信度分數門檻值限制來幫助增加類專有名詞辨識的精確率, 以及從額外的資源中粹取出和欲處理的語音文件相關的``時間與主題同質的類專有名詞庫', 將``時間與主題同質的類專有名詞'與語音文件的內容在不同特徵單位下(字元、音節)可匹配時, 對於類專有名詞辨識回收率的影響。此匹配法在音節完全或近似匹配下,對於原本字元辨識錯誤的類專有名詞, 可能做到既回收了原本辨識不出來的類專有名詞,亦得到錯誤字元修正的效果。 實驗結果發現結合``關鍵詞可信度分數門檻值'的使用來幫助精確率的提升, 並採用``時間與主題同質的類專有名詞'在音節完全/近似匹配設定來幫助回收率時, 我們可以得到進步釵h的F-測量結果。 ``類專有名詞辨識衍生之相關應用', 我們討論了兩種本論文實作出的系統架構, 分別是``自動建立類專有名詞索引之資訊檢索系統'及``網際網路語音問答系統', 也詳細地說明系統中各個元件的概念及後端資料處理的程序。 我們認為在未來愈來愈需要使用自然語言做互動的應用中, 能判別詞典外詞彙的語意類別是處理自然語言語意的一個重要步驟, 也因此智慧型應用系統中若能結合類專有名詞辨識的元件, 則可處理的領域廣度及文件了解的深度上都能有所提升。
Subjects
類專有名詞辨識
named entity recognition
text document processing
spoken document processing
Type
thesis
File(s)
Loading...
Thumbnail Image
Name

ntu-93-R91922019-1.pdf

Size

23.31 KB

Format

Adobe PDF

Checksum

(MD5):1ebeaee9042dcc945162d777d19b9d79

臺大位居世界頂尖大學之列,為永久珍藏及向國際展現本校豐碩的研究成果及學術能量,圖書館整合機構典藏(NTUR)與學術庫(AH)不同功能平台,成為臺大學術典藏NTU scholars。期能整合研究能量、促進交流合作、保存學術產出、推廣研究成果。

To permanently archive and promote researcher profiles and scholarly works, Library integrates the services of “NTU Repository” with “Academic Hub” to form NTU Scholars.

總館學科館員 (Main Library)
醫學圖書館學科館員 (Medical Library)
社會科學院辜振甫紀念圖書館學科館員 (Social Sciences Library)

開放取用是從使用者角度提升資訊取用性的社會運動,應用在學術研究上是透過將研究著作公開供使用者自由取閱,以促進學術傳播及因應期刊訂購費用逐年攀升。同時可加速研究發展、提升研究影響力,NTU Scholars即為本校的開放取用典藏(OA Archive)平台。(點選深入了解OA)

  • 請確認所上傳的全文是原創的內容,若該文件包含部分內容的版權非匯入者所有,或由第三方贊助與合作完成,請確認該版權所有者及第三方同意提供此授權。
    Please represent that the submission is your original work, and that you have the right to grant the rights to upload.
  • 若欲上傳已出版的全文電子檔,可使用Open policy finder網站查詢,以確認出版單位之版權政策。
    Please use Open policy finder to find a summary of permissions that are normally given as part of each publisher's copyright transfer agreement.
  • 網站簡介 (Quickstart Guide)
  • 使用手冊 (Instruction Manual)
  • 線上預約服務 (Booking Service)
  • 方案一:臺灣大學計算機中心帳號登入
    (With C&INC Email Account)
  • 方案二:ORCID帳號登入 (With ORCID)
  • 方案一:定期更新ORCID者,以ID匯入 (Search for identifier (ORCID))
  • 方案二:自行建檔 (Default mode Submission)
  • 方案三:學科館員協助匯入 (Email worklist to subject librarians)

Built with DSpace-CRIS software - Extension maintained and optimized by 4Science