鄭士康臺灣大學:電機工程學研究所廖健志Liao, Chien-ChihChien-ChihLiao2007-11-262018-07-062007-11-262018-07-062007http://ntur.lib.ntu.edu.tw//handle/246246/53248本論文目標在於實作出一個非傳統搜尋方法之專利搜尋系統:藉由概念式的中文描述語句,進行輸入查詢,以文意評分,提供使用者判斷及利用,整理混沌的專利資訊。對專利資料及查詢子句預先處理,並利用潛在語意分析(LSA, Latent Semantic Analysis)演算法進行專利文意相關度排序,提供使用者一個便利的檢索環境,並且讓檢索出來的資訊能夠最符合使用者的真切需求。同時利用LSA演算法各項參數調整,針對專利文獻做最佳化,增加結果的準確度與合理性。將專利資料庫發揮出最大的功效,進而幫助智慧財產權以及專利商品化的推廣與實施。 本論文附錄亦針對至目前為止,在專利相關領域上的研究方向及機構,作簡單的分析介紹。提供欲對智慧財產權作進一步了解者,可以更簡易、輕鬆地找到相關研究資源,提升我國人在智慧財產權上面的國際競爭力。The main goal of this thesis is to implement a patent retrieval system with unconventional searching method. With the conceptual query sentence described in Chinese, it can score the results by similarity of their meanings and use the results to support the users. This system can provide the users a simple and convenient query environment, and let the information retrieved fit what users really want in order to marshalling the chaos patent information. By processing the query sentences and the patent information in advance, we use Latent Semantic Analysis algorithm to classify the information by their real meanings and show their relative degree to the query sentences. By means of adjusting parameters in LSA algorithm, we can optimize the system with patent documents and increase the accuracy and reasonability of results at the same time. This will enable the patent database to bring out most benefit and to help the intellectual property rights and patent commercialization spread and carry out eventually. This thesis also has a brief introduction on the patent related research areas and organizations at present day in the appendix. It can help people who want to get further understanding about intellectual property rights to find related research resources easily, which can also improve the international competitive ability on intellectual property rights for Taiwan researchers.目 錄 口試委員會審定書…………………………………….......…….......... i 誌謝…………………………………………………………………… ii 中文摘要…………………………………………………...….….…... iii 英文摘要……………………………………………………....……… iv 目錄……….……………………..…………………………...…..….… v 圖例目錄……………………………………………………...………. vii 表格目錄……………………………………………..……………….. ix 博碩士論文授權書…………………………………………………… xi 第一章 緒論……………………………………………………… 1 1.1 研究動機…………………...…………………………….. 1 1.2 研究目的………………………………….……………… 2 1.3 文獻回顧……………………………………….………… 3 1.4 論文架構……………………………………….………… 5 第二章 背景知識介紹………………....................................…… 6 2.1 資訊檢索與文字探勘…………….........................……… 6 2.2 中文斷詞……………............................................…..…… 12 2.3 潛在語義分析(Latent Semantic Analysis)……….........… 16 第三章 研究方法與設計……………..............................…..…… 21 3.1 執行環境……………….............................................…… 21 3.2 專利樣本分析與統計………….........................………… 21 3.3 研究方法與步驟…………….................................……… 29 3.3.1 實驗流程…………..................................…….…… 29 3.3.2 實驗步驟……………...................................……… 30 3.3.3 實驗設計………..................................…….....…… 30 3.3.4 實驗問題與解決方法…………............…..……… 31 第四章 實驗結果與討論……………................................……… 34 4.1 實驗結果……………………………………………….… 34 4.2 參數建議………….............................................………… 41 4.3 比較分析…………….............................................……… 42 4.4 結果探討………….....................................................…… 43 4.5 未來發展方向………….............................................…… 47 第五章 結論………....................................................…………… 50 附錄A 淺談專利.............................................................…………… 51 A.1 專利資訊……...............................................……………… 51 A.2 專利分類…………...............................................………… 56 A.3 專利檢索…………...............................................………… 57 A.4 專利分析……………...............................................……… 58 附錄B 專利領域現況分析.................................................……… 59 B.1 專利論文研究現況……………….........................……… 59 B.2 專利研究相關組織與機構.....................................……… 61 B.3 專利搜尋系統及資料庫.........................................……… 64 附錄C 測試專利樣本列表.................................................……… 66 附錄D 論文實驗數據.........................................................……… 69 參考文獻………………………….............................................……… 92 圖 例 目 錄 圖2.1 文字探勘流程圖……………………..........………………… 8 圖2.2 準確率及回收率集合示意圖…………............…….………. 9 圖2.3 「準確率」對「回收率」示意圖……............….................…… 11 圖2.4 SVD矩陣降維運算示意圖…………………..............………. 18 圖3.1 中華民國專利公報分析欄位……………...............…..……. 23 圖3.2 「詞頻」對應「詞彙名」示意圖……................………………. 26 圖3.3 「詞頻」對應「詞頻排名」示意圖……....................…………. 27 圖3.4 「詞彙出現文章數」對應「詞彙名稱」示意圖…................…. 27 圖3.5 「詞彙出現文章數」對應「詞彙出現文章數排名」示意圖…………………………..........……………………..……. 28 圖3.6 中文檢索系統組成示意圖……….................................……. 29 圖3.7 實驗步驟流程圖.............................................................……. 30 圖4.1 K值各範圍關聯性綜合比較圖………………..............……. 34 圖4.2 K值各範圍準確率綜合比較圖………..........................……. 35 圖4.3 不同去除詞頻範圍關聯性綜合比較圖….........................…. 36 圖4.4 不同去除詞頻範圍準確率綜合比較圖…….................……. 36 圖4.5 不同去除出現文章數範圍關聯性綜合比較圖…....………. 37 圖4.6 不同去除出現文章數範圍準確率綜合比較圖…....………. 38 圖4.7 各分類去詞項目關聯性綜合比較圖.................................…. 39 圖4.8 不同去除詞性關聯性綜合比較圖.....................................…. 40 圖4.9 不同去除詞性準確率綜合比較圖.....................................…. 40 圖4.10 全國博碩士論文資訊網各分析欄位..................................…. 49 圖A.1 專利要件金字塔………….........................................………. 52 圖A.2 中華民國專利公報第I276403號首頁…….........…………. 54 圖A.3 中華民國專利公報第I276403號申請專利範圍(部分) ..... 55 圖A.4 中華民國專利公報第I276403號圖示(部分) ................…. 55 圖D.1 K值範圍取90%準確率示意圖....................................………. 70 圖D.2 K值範圍取80%準確率示意圖....................................………. 71 圖D.3 K值範圍取70%準確率示意圖....................................………. 72 圖D.4 K值範圍取60%準確率示意圖....................................………. 73 圖D.5 K值範圍取50%準確率示意圖....................................………. 74 圖D.6 K值範圍取40%準確率示意圖....................................………. 75 圖D.7 K值範圍取30%準確率示意圖....................................………. 76 圖D.8 K值範圍取20%準確率示意圖....................................………. 77 圖D.9 文章去除出現次數超過100000次詞彙準確率示意圖........ 78 圖D.10 文章去除出現次數超過19593(總文章數)次詞彙準確率示意圖..............................................................................………. 79 圖D.11 文章去除出現次數超過10000次詞彙準確率示意圖........ 80 圖D.12 文章去除出現文章數超過15000詞彙準確率示意圖........ 81 圖D.13 文章去除出現文章數超過10000詞彙準確率示意圖........ 82 圖D.14 文章去除出現文章數超過5000詞彙準確率示意圖.......... 83 圖D.15 文章去除時態標記詞彙準確率示意圖................................ 84 圖D.16 文章去除連接詞詞彙準確率示意圖.................................... 85 圖D.17 文章去除定冠詞詞彙準確率示意圖.................................... 86 圖D.18 文章去除數量詞詞彙準確率示意圖.................................... 87 圖D.19 文章去除介系詞詞彙準確率示意圖.................................... 88 圖D.20 文章去除後置詞詞彙準確率示意圖.................................... 89 圖D.21 文章去除語助詞詞彙準確率示意圖.................................... 90 圖D.22 文章去除7種詞性詞彙準確率示意圖................................. 91 表 格 目 錄 表2.1 現代漢語平衡語料庫詞類標記表……….............................. 14 表3.1 APIPA中華民國專利公報資料庫樣本採用分析列表........... 24 表3.2 樣本專利文獻詞性分類統計表……….................................. 24 表3.3 獨立詞素出現頻率前二十大統計表……... .......................... 25 表3.4 獨立詞素出現文章數前三十大統計表…….......................... 25 表3.5 教育部重編國語辭典修訂本統計表……….......................... 28 表B.1 全國博碩士論文網專利相關論文統計表….......................... 59 表B.2 本國專利公私立法人組織列表……...................................... 61 表B.3 95學年度本國大專院校智財法律系所列表…..................... 62 表B.4 本國專利相關法律事務所列表...…....................................... 62 表B.5 中華民國專利公報資料數列表……...................................... 64 表D.1 K值範圍取90%實驗結果......................................................... 70 表D.2 K值範圍取80%實驗結果......................................................... 71 表D.3 K值範圍取70%實驗結果......................................................... 72 表D.4 K值範圍取60%實驗結果......................................................... 73 表D.5 K值範圍取50%實驗結果......................................................... 74 表D.6 K值範圍取40%實驗結果......................................................... 75 表D.7 K值範圍取30%實驗結果......................................................... 76 表D.8 K值範圍取20%實驗結果......................................................... 77 表D.9 文章去除出現次數超過100000次詞彙實驗結果................ 78 表D.10 文章去除出現次數超過19593(總文章數)次詞彙實驗結果........................................................................................... 79 表D.11 文章去除出現次數超過10000次詞彙實驗結果................ 80 表D.12 文章去除出現文章數超過15000詞彙實驗結果................ 81 表D.13 文章去除出現文章數超過10000詞彙實驗結果................ 82 表D.14 文章去除出現文章數超過5000詞彙實驗結果.................. 83 表D.15 文章去除時態標記詞彙實驗結果........................................ 84 表D.16 文章去除連接詞詞彙實驗結果............................................ 85 表D.17 文章去除定冠詞詞彙實驗結果............................................ 86 表D.18 文章去除數量詞詞彙實驗結果............................................ 87 表D.19 文章去除介系詞詞彙實驗結果............................................ 88 表D.20 文章去除後置詞詞彙實驗結果............................................ 89 表D.21 文章去除語助詞詞彙實驗結果............................................ 90 表D.22 文章去除7種詞性詞彙實驗結果......................................... 911750663 bytesapplication/pdfen-US專利檢索潛在語意分析(隱含語意分析)專利分類概念式檢索Patent RetrievalLatent Semantic Analysis(LSA)Patent ClassificationConceptual Retrieval概念式中文專利搜尋系統之研究Conceptual Chinese Patent Retrieval Systemthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53248/1/ntu-96-J94921002-1.pdf