Database

建庫過程

  建立一個龐大的典籍資料庫,是工程的第一步。《四庫全書》總字數逾七億,要建立如此龐大的數據庫,單靠人手輸入根本是不可能的。至於利用掃描器錄入原文,也必須把文字圖像轉換成電腦可讀的字符,檢索功能才能得以發揮。更困難的是原文真跡中數量繁多的文字分別由近四千人抄寫,筆跡不同,電腦也難以準確識別。

(一) 原文圖像數據庫

  1. 掃描書頁圖像
  2. 自動分頁,去邊,端正
  3. 自動分割漢字
  4. 電腦輔助人工修正分割
  5. 識別漢字
  6. 電腦輔助人工校對

  「文淵閣四庫全書電子版 -- 原文及標題檢索版」的原文圖像,是以《景印文淵閣四庫全書》為底本,以電腦高速掃錄原文而得。然後經三百多人,用了近一年的時間,在書目數據、著者數據、卷內標題數據、原文頁面等方面進行了三次全面核查及處理。

  首先,我們利用高速掃描器,以超過每分鐘六十張雙面的速度,錄入原書。一般的掃描器,無論在設計上或在速度上,都不可能應付如此龐大的掃描工作量。為了提高效率,我們採用了高速掃描器,快速地將四百七十多萬原書頁掃描成二百三十多萬個電子圖像,保留原書面貌。

  原文圖像首先經過頁面切分,將一個影印頁切分為兩個原始頁,以便在顯示屏幕下能將單個原始頁清晰顯示出來。然後是版面檢查,包括版面查錯、闕頁補齊、頁面錯位的調整、替換掃描不清頁或破損頁等等。經過這一連串的工序後,所有四百七十多萬頁內文就變成總共二百三十多萬個圖像檔案。而每一頁的圖像檔案都必需經過詳細的檢定,以確保掃描圖像的質量。

(二) 卷內標題數據庫

  眾所周知,古籍歷來缺乏詳細的目錄索引,後人查找古代資料、使用古書很不方便。尤其對於像《四庫全書》這樣一部曠世鉅著,雖有《四庫全書總目》和《四庫全書簡明目錄》,但具體使用起來仍有諸多不便。

  所以我們從原書抽取逾一百八十二萬餘條卷內標題,建立了合計千多萬字的卷內標題資料庫。突破了原文真跡(圖形)不可檢索的限制﹔同時亦突破了原書目錄可檢索到書目的限制。

  卷內標題是將原文的著者名、書名、卷首、卷尾、篇名、章名、序言、跋語、文中圖表等抽取製作而成的數據。 「標題版」共收卷內標題一百八十二萬零七百二十六條。

經部: 十三萬二千一百八十三條
史部: 十八萬四千四百零三條
子部: 三十五萬六千四百八十一條
集部: 一百一十三萬一千一百條
附錄: 一萬六千五百五十九條 (總目、簡明目錄及考證)

(三) 漢字字符數據庫

  利用掃描器錄入的只是原書頁的電子圖像,必須將內文轉換成電腦可讀的編碼字符,全文檢索功能才能得以發揮,達到檢索到單字的程度。問題是原文真跡中數量繁多的文字分別由四千多人抄寫,筆跡不同,風格各異,更用大小不同的字體,一般的電腦軟件根本不能準確識別。因此,我們與北京清華大學計算機系,合作開發了一套OCR光學字符識別系統,利用OCR技術來識別每一個漢字,建立逾七億漢字的中文字符──字跡資料庫,為日後中文典籍電子化奠定了堅實的基礎。

  首先,為了讓電腦能正確地識別原書中每個人手抄寫的漢字圖像,必須要利用好幾種計算方法分析版面,把每個漢字一一分割開來。 由於人手抄寫時往往會造成字與字的交錯重疊,電腦所做的分割偶然也會出現錯誤,因此必須經過校對過程,併由操作員利用電腦軟件將這些錯誤糾正過來。

  幾台電腦日以繼夜地進行復雜的運算,以每秒鐘十四個字以上的高速,逐字識別出百分之九十以上的文字。校對人員利用電腦輔助的校對軟件,從各個角落,用多種方法對照原文,快速而正確地校對與補充輸入。