Repository logo
  • English
  • 中文
Log In
Have you forgotten your password?
  1. Home
  2. College of Electrical Engineering and Computer Science / 電機資訊學院
  3. Networking and Multimedia / 資訊網路與多媒體研究所
  4. Chinese NP Chunking: Experiments with Rule-based Method, Supervised, Semi-supervised and Unsupervised Learning
 
  • Details

Chinese NP Chunking: Experiments with Rule-based Method, Supervised, Semi-supervised and Unsupervised Learning

Date Issued
2010
Date
2010
Author(s)
Lin, Yen-Hsi
URI
http://ntur.lib.ntu.edu.tw//handle/246246/251403
Abstract
名詞組辨識在自然語言處理中可以說是一個非常關鍵的問題,不同組合的結構、其它詞性的變化、或是結構和字本身的歧義,都大大地影響了名詞組辨識的結果。好的辨識結果可以幫助現今許多和自然語言處理相關的應用,尤其是一些名詞組佔了大多數比例的服務,例如:網路探勘、搜尋引擎等等。但由於中文較其它語言複雜,又缺乏大型標記過的語料,使得中文的名詞辨識做起來更加困難。 最近這幾年,許多自然語言處理的問題,包括詞組辨識,利用所謂的訓練語料配合監督式學習的分類方法解決的文獻紀錄非常多。但是這些文獻中,常存在一些共同待解決的問題,如:訓練語料不足,並且很難在其它文獻中找到提出的改善方式。 本篇論文探討以四種不同方法,辨識中文名詞組。首先參考前人統整好的規則,實做Rule-based 模型,當作一個比較的對象。第二個是監督式學習法(Supervised-learning)的模型:利用Taku Kudo,所提出利用SVM的演算法所作的chunking工具:Yamcha(Yet Another Multipurpose CHunk Annotator),訓練中文名詞組辨識的初始模型,並嘗試以不同於多數文獻中看到的IOB表示法及前二後二位置的語意資訊,找到適用於中文的參數。第三個是基於半監督式學習法(Semi-supervised learning)中自我學習的概念,利用網路上未標記過的資料,強化監督式學習法的半監督式學習法模型。最後一個是個完全利用搜尋引擎得到的未標記過資料(Raw data)等此類網路資源,以及中文本身的語言特徵,所結合而成的未監督式學習法(Unsupervised-learning)的模型。 實驗結果證明,最簡單的Rule-based作法在開放測試的f-rate為0.71,比監督式學習法的0.58高出約0.13;而在監督式學習法(supervised learning)的實驗步驟裡,我們所選用的參數比前人選用的參數做出的模型,在第一階段開放測試中高出了約16個百分比;半監督式學習中,加入unlabeled data這個步驟也的確提昇監督式學習法的效果,在第二個開放測試中的f-rate為78.79%,比監督式學習法高出了約8個百分比,不但保存了分類器的優點,同時提昇中文在名物化現象時有歧義的名詞辨識結果;完全不倚賴分類器的非監督式學習法,在開放測試的f-rate為84.57%,比半監督式學習法高出了17個百分比,從開放測試中看出其具有解決長名詞及名物化動詞的效果。
Subjects
Chinese NP chunking
supervised-learning
semi-supervised learning
Type
thesis
File(s)
Loading...
Thumbnail Image
Name

ntu-99-R95944002-1.pdf

Size

23.32 KB

Format

Adobe PDF

Checksum

(MD5):60c7265486dff2807f35643bb4018f46

臺大位居世界頂尖大學之列,為永久珍藏及向國際展現本校豐碩的研究成果及學術能量,圖書館整合機構典藏(NTUR)與學術庫(AH)不同功能平台,成為臺大學術典藏NTU scholars。期能整合研究能量、促進交流合作、保存學術產出、推廣研究成果。

To permanently archive and promote researcher profiles and scholarly works, Library integrates the services of “NTU Repository” with “Academic Hub” to form NTU Scholars.

總館學科館員 (Main Library)
醫學圖書館學科館員 (Medical Library)
社會科學院辜振甫紀念圖書館學科館員 (Social Sciences Library)

開放取用是從使用者角度提升資訊取用性的社會運動,應用在學術研究上是透過將研究著作公開供使用者自由取閱,以促進學術傳播及因應期刊訂購費用逐年攀升。同時可加速研究發展、提升研究影響力,NTU Scholars即為本校的開放取用典藏(OA Archive)平台。(點選深入了解OA)

  • 請確認所上傳的全文是原創的內容,若該文件包含部分內容的版權非匯入者所有,或由第三方贊助與合作完成,請確認該版權所有者及第三方同意提供此授權。
    Please represent that the submission is your original work, and that you have the right to grant the rights to upload.
  • 若欲上傳已出版的全文電子檔,可使用Open policy finder網站查詢,以確認出版單位之版權政策。
    Please use Open policy finder to find a summary of permissions that are normally given as part of each publisher's copyright transfer agreement.
  • 網站簡介 (Quickstart Guide)
  • 使用手冊 (Instruction Manual)
  • 線上預約服務 (Booking Service)
  • 方案一:臺灣大學計算機中心帳號登入
    (With C&INC Email Account)
  • 方案二:ORCID帳號登入 (With ORCID)
  • 方案一:定期更新ORCID者,以ID匯入 (Search for identifier (ORCID))
  • 方案二:自行建檔 (Default mode Submission)
  • 方案三:學科館員協助匯入 (Email worklist to subject librarians)

Built with DSpace-CRIS software - Extension maintained and optimized by 4Science