項潔Hsiang, Jieh臺灣大學:資訊網路與多媒體研究所朱國延Chu, Kuo-YenKuo-YenChu2010-05-052018-07-052010-05-052018-07-052009U0001-2912200815472100http://ntur.lib.ntu.edu.tw//handle/246246/180779臺灣舊照片資料庫(URL http://photo.lib.ntu.edu.tw/pic/db/oldphoto.jsp)係臺大圖書館所收藏之豐富的日治時期出版品,其中包含大量臺灣相關書籍及期刊資料,將其中的照片影像做數位化為數位照片成主要內容的照片資料庫。資料庫總計照片與詮釋資料( metadata )共三萬八千餘筆,並提供完善的詮釋資料檢索機制作線上瀏覽,更能就學術合理使用範圍內下載詮釋資料與數位圖像。是照片的內容與詮釋資料會因為不同書籍的編輯描述造成不一致性,使得出現了重複照片但不容易以文字檢索能順利找到相同內容的重複照片同時也造成用相同的文字檢索會出現重複照片的冗餘情況。以,本研究目的是著眼在除了利用文字描述與詮釋資料的檢索外,還有利用影像內容的檢索(content based image retrieval,CBIR)的方法來應用,利用影像內容的檢索的方式擬定半自動化系統的方法流程為照片內容做相似度比對,蒐集高相似度的相似照片對,再以人工檢視的方式將重複照片對找出來。後我們在臺灣舊照片資料庫系統的資料庫中的38,653張照片做為相似照片的比對的實作,我們以預估Recall在有達到90%以上的程度去檢視確認相似的目標照片對共308,286對,然後共找到了3,270對確定為重複照片對,構成2,621組的重複照片組,以便給予系統維護的單位資料庫中的重複照片組集合,對系統內重複照片冗餘問題做進一步的處理。In 2003, the National Taiwan University Library produced a digital collection of old photographs of Taiwan. They cover the period from 1895 to 1945, when Taiwan was occupied by Japan. The photos, 38,653 in total, were selected from over 2,000 books published by the Japanese Colonial Government during that time, and cover a wide range of subjects. They were made into a digital library, with images and metadata records, and is the most extensive database of its kind in existence.e observed that there are duplications of photos in the database. They were either because certain photos were included in different books, or because some books were scanned twice.he purpose of the research reported in this thesis is to find duplication of images in the database. We adopted methods in content-based image retrieval and developed a system to identify pairs that might have come from the same photo. The pairs were then checked manually to see if they are indeed duplicates.mong the photographs in the database, our system identified 308,286 pairs, of which 3,270 were duplicated photo pairs. Since some photos appeared more than twice (9 being the most), there are 2,621 photo groups altogether. We estimate that the recall rate is over 90%.目錄謝 II文摘要 IIIBSTRACT IV錄 V目錄 VIII目錄 XI一章 序論 1.1臺灣舊照片資料庫系統介紹 1.2研究動機與目的 3.3 論文架構 9二章 相關技術 10.1影像檢索介紹 10.1.1 Text-based Image Retrieval 10.1.2 Content-based image retrieval 11.2 TINEYE 12.3 VISIPICS 13三章 重複照片的比對實驗流程設計 15.1計算照片對的相似度會遇到的情況 15.1.1 資料格式方面需要注意的條件 25.1.2 照片相似度計算軟體該具有的特性 26.1.3 採用Image Comparer 軟體 27.2 實驗的樣本-RECALL TEST 28.3 對IMAGE COMPARER有效提升RECALL的觀察 29.3.1 均勻空白邊框 29.3.2 擷取照片中間區塊 31.3.3 照片長寬比差異 35.3.4 以局部區域做相似度比對 36.3.5 兩種過濾條件同時使用 37.4 樣本的比對導入半自動系統化流程的實驗與實驗結果 38四章 臺灣舊照片資料庫重複照片比對成果 40.1 照片比對前先行的影像處理 40.2 照片對長寬比差異篩選 41.3 照片對局部性相似度篩選 41.4 導入系統化流程的比對結果與檢視系統 41.4.1 系統化流程的比對結果 41.4.2 人工檢視系統 42.5 重複照片結果統計與整理 43五章 結論與未來工作 48.1結論 48.2 其它可參考的影像比對研究 49.2.1 影像主要內容與邊框處理 49.2.2影像局部特徵比對 50.3未來工作 51考文獻 52application/pdf10297712 bytesapplication/pdfen-US照片邊緣偵測重複照片照片內容檢索老照片edge detectingduplicate photoscontent-based image retrievalold photographs臺灣老照片資料庫重複照片比對研究On Detecting Duplications in a Database of Taiwanese Old Photographsthesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/180779/1/ntu-98-R94944020-1.pdf