楊佳玲臺灣大學:資訊工程學研究所辛逸軒Hsin, Yi-HsuanYi-HsuanHsin2007-11-262018-07-052007-11-262018-07-052006http://ntur.lib.ntu.edu.tw//handle/246246/53932斷行(line breaking)指的是將文字字串分隔為適當長度,以符合顯示區域寬度的動作。而隨著處理多國語言的需要,各種作業系統及應用程式開始採用萬國碼(Unicode)作為標準內碼,因此能適當地對萬國碼字串斷行成為支援萬國碼的重要工作。本文實作了萬國碼標準附錄14(UAX#14)所建議的斷行演算法,並提供了中、日、韓、越文(CJKV)環境下的客製化選項。Line breaking is the process to divide long string into shorter lines to fit in display width. With the vast requirement of processing multilingual texts, many operating systems and applications have adopted Unicode as default character set. Therefore, breaking Unicode strings properly is an important part of supporting Unicode. In this thesis, we implement the algorithm proposed in Unicode Standard Annex 14(UAX#14), and provide some customization options for Chinese, Japanese, Korean, Vietnamese(CJKV) context.1 緒論 1 1.1 研究動機 . . . . . . . . . . . . . . . 1 1.2 本文架構 . . . . . . . . . . . . . . . 2 2 背景 3 2.1 斷行 . . . . . . . . . . . . . . . . . 3 2.1.1 定義 . . . . . . . . . . . . . . . . 3 2.1.2 換行機會 . . . . . . . . . . . . . . 4 2.1.3 選擇換行機會 . . . . . . . . . . . . 4 2.2 萬國碼(Unicode) . . . . . . . . . . . 5 2.2.1 簡史 . . . . . . . . . . . . . . . . 5 2.2.2 編碼結構 . . . . . . . . . . . . . . 6 2.2.3 UTF-8 . .. . . . . . . . . . . . . . 6 2.2.4 Unicode Character Database . . . . . 7 2.3 相關研究 . . . . . . . . . . . . . . . 8 3 斷行演算法 9 3.1 斷行屬性 . . . . . . . . . . . . . . . 9 3.2 斷行規則 . . . . . . . . . . . . . . 13 3.3 表格化斷行規則 . . . . . . . . . . . 13 3.4 選擇換行機會 . . . . . . . . . . . . 14 4 實作與結果 16 4.1 介面 . . . . . . . . . . . . . . . . 16 4.2 結果 . . . . . . . . . . . . . . . . 17 5 結論 20 參考文獻 211040036 bytesapplication/pdfen-US萬國碼斷行中日韓越UnicodeLine BreakingCJKV符合萬國碼標準之斷行程式庫A Unicode Standard Compliant Line Breaking Librarythesishttp://ntur.lib.ntu.edu.tw/bitstream/246246/53932/1/ntu-95-R91922040-1.pdf