2016年4月26日 星期二

一個人出版:個人電子書出版流程二:校對技術:利用文本比對技術對古籍做自動校對


目前正在進行的語義工程,如果全部完成之後,可以讓「全自動校對」成真。也就是使用者完全不需要管電腦到底改了什麼,其校對品質都會比人工校對還要好。當然,這是指校對軟體的「失誤率」低於萬分之一以下的結果。距離這個目標還有不少的距離。
  那麼個人怎麼校對古籍呢?除了早期許多純手工、人工校稿(《三國演義》、《西遊記》、《隋唐嘉話》等)甚至逐字對稿(《郁離子》,更早期的天策府兵書當然也全是逐字對稿。),這樣的做法自然是做不了太多事情的,而且品質上也難以保證。


儒林外史》的校對實例
因此可以保證這個版本已經是網路最佳版本

  除了標點符號的校對已經有充足的工具輔助校對外,一些古籍中的人名也能使用自動辨識人名的功能進行校對,一些比較現代的詞彙或者繁簡失誤也可以用到目前的校對機制。但如果要更進一步,那就沒有辦法了。且即使如此,總有失誤的,品質上還比不上「用心的」人工校對。
  十幾年來,網路上曾經有過一些風潮,包括把古籍全部電子化的風潮(基本不太可能全部完成),其中很多是由個人之力建立的!但十幾年過去之後,絕大多數的相關網站與相關電子文字都已經隨著時間而消逝了!這種消逝,消逝的不僅是那些文字,更包含了曾經對這些文字進行過校對的人所耗費的無數眼力、腦力、精力!後來雖然出現了維基百科、中國哲學電子書等比較能將這些精力、成果集中保管、維護的網站,但沒有人知道這些網站還能維持多久。至於個人的「策略研究中心」究竟還能維持多久,其實也是一個未知之數。撇除這一點,即便有以上兩個網站的存在,很多熱心人士(包含個人)還是喜歡自行校對自己的文字檔,而這些文字檔也一如其他古籍一般,很容易會隨著校對者的境遇而消失。因此,許多寶貴的生命與品質也在這樣的情況下隨著消失了。
  有鑑於此,個人在一些古籍的處理上,使用了文本比對的技術,利用這樣的技術對古籍進行自動校對。其前提當然是兩個版本都經過了人工校對。藉由文本比對技術,將兩個版本的人工校對的部份進行比對,從而修正當前版本難以由程式自動找出的錯誤。
  這個文本比對技術非常簡單,原本是一個比對抄襲系統的一部分,個人認為很容易可以用來作校對,因此就花了一個半小時左右的時間寫出了這個簡單的文本比對校對程式。
  最終今年結束以前有可能把整個論文或文章抄襲比對系統完成。至於相關的校對理論、技術都是個人自行研發,有機會再就技術面做一些講解。



沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。