道教 OCR 與古籍數位化考——以道經寫本、碑刻、明清刻本的字符識別技術與文本校勘
道教文獻的保存形態長期呈現「三軌並行」的特徵:六朝以降的寫本傳統、唐宋以來大量涌現的金石碑刻,以及明代《正統道藏》《萬曆續道藏》以降的官刻與清代《道藏輯要》等地方重刻本。這三種物質載體在字形、版式、符號系統與文本流變方面各具挑戰,使得以光學字符識別(OCR)為核心的古籍數位化技術,在面對道教文獻時必須處理比一般古籍更為複雜的字符歧義、版面結構與校勘問題。本文以「寫本—碑刻—明清刻本」為主軸,系統梳理道教文獻的物質形態、傳統校勘方法、現代數位化實踐,以及 OCR 技術在字符識別、版面分析、語義後處理等環節的應用與限制。全文分十二章,首先回顧敦煌道經寫本、《正統道藏》與《道藏輯要》、道教碑刻與金石
摘要
道教文獻的保存形態長期呈現「三軌並行」的特徵:六朝以降的寫本傳統、唐宋以來大量涌現的金石碑刻,以及明代《正統道藏》《萬曆續道藏》以降的官刻與清代《道藏輯要》等地方重刻本。這三種物質載體在字形、版式、符號系統與文本流變方面各具挑戰,使得以光學字符識別(OCR)為核心的古籍數位化技術,在面對道教文獻時必須處理比一般古籍更為複雜的字符歧義、版面結構與校勘問題。本文以「寫本—碑刻—明清刻本」為主軸,系統梳理道教文獻的物質形態、傳統校勘方法、現代數位化實踐,以及 OCR 技術在字符識別、版面分析、語義後處理等環節的應用與限制。全文分十二章,首先回顧敦煌道經寫本、《正統道藏》與《道藏輯要》、道教碑刻與金石文獻的學術整理史;其次分析 OCR 技術在古籍識別中的核心難點,包括異體字、俗字、草書、豎排、欄框、注疏雙行、符圖混排等;繼而介紹國際敦煌項目(IDP)、中央研究院「道藏資料庫」與「漢籍電子文獻」、香港中文大學道教文化研究中心「道教經典文獻數位化資料庫」、上海圖書館開放數據競賽之古籍 OCR 算法等代表性工程;最後聚焦核心爭議、方法限制,以及制度、市場與技術條件如何共同形塑道教文獻數位化的未來走向。本文主張:道教文獻的 OCR 不應被簡化為「圖像轉文字」的技術問題,而應置於文獻學、金石學、版本學與數位人文的交叉地帶加以考察;高品質的數位化成果必須以可核驗的圖像底本、結構化的校勘元數據、開放的異體字對照表,以及專家參與的人機協同機制為基礎。
關鍵詞:道教文獻;OCR;古籍數位化;敦煌寫本;道教碑刻;正統道藏;道藏輯要;文本校勘;數位人文
一、緒論:問題意識與研究範圍
1.1 從「紙本道藏」到「數位道藏」的轉型
道教作為中國本土宗教,其經典體系從東漢五斗米道、魏晉南北朝的上清與靈寶經團,逐步累積為唐代《開元道藏》、宋代《大宋天宮寶藏》與《政和萬壽道藏》、金元《玄都寶藏》,乃至明代《正統道藏》《萬曆續道藏》的龐大叢書傳統。在印刷術普及之前,道教經典主要依賴寫本傳抄;進入刻本時代後,官方與民間的刊刻活動又使文本經歷了版式統一、文字規範化與部分佚失的雙重過程。與此同時,宮觀碑刻、摩崖題記、墓志買地券、鐘銘幢記等金石材料,記錄了道教在地方社會中的實踐細節,成為補充《道藏》系統的重要史料。
二十世紀以降,隨著攝影、縮微膠卷、影印出版與電子資訊技術的發展,道教文獻開始經歷新一輪的「物質轉型」。1923—1926年上海涵芬樓以六開線裝影印明《正統道藏》,使這部珍貴叢書得以廣泛流通;1957年臺灣中華道教會發起、新文豐出版社精審縮印《正統道藏》,1977年印成,共六十巨冊;1988年文物出版社、上海書店、天津古籍出版社聯合再度影印明版《道藏》。這些影印工程雖然保留了原書的視覺形態,卻尚未將文字轉化為可檢索的數位文本。真正意義上的數位化,始於1990年代前後各類全文資料庫的建置,例如中央研究院「漢籍電子文獻」、中國文哲研究所「道藏資料庫」、國際敦煌項目(IDP)等。進入二十一世紀,隨著人工智慧、深度學習與大型視覺語言模型的快速發展,古籍 OCR 與自動化校勘成為數位人文領域的前沿議題,道教文獻也因此面臨新的技術機遇與方法論挑戰。
1.2 為何道教文獻的 OCR 特別困難
相較於一般古籍,道教文獻在字符識別與數位化方面至少存在五重困難。第一,字形系統極為繁複:道教寫本與刻本中充斥異體字、俗字、省筆字、訛字、缺筆避諱字,以及為儀式或法術目的而創製的專用字符(如符籙中的變體字、神名祕字)。第二,版式多樣:寫本多為豎排右起,行款參差;刻本雖較規整,但常見雙行小字注、夾注、眉批、版心題記、插圖、符圖與表格混排。第三,物質載體差異大:敦煌寫本多為紙本卷軸,存在殘破、模糊、背透、水漬、蟲蛀;碑刻為石質或金屬材質,受風化、磨泐、苔蘚、裂紋影響;拓片則有墨色濃淡不均、紙張褶皺、邊緣缺損等問題。第四,文本流變複雜:同一部道經在不同時代、地域、教派傳承中往往形成多種異文,單純的字符識別無法自動解決底本選擇、異文校勘與文本系譜重建的問題。第五,學科壁壘:OCR 工程師通常缺乏道教文獻學、文字學與儀式學的專業訓練,而道教研究者又往往不熟悉影像處理、機器學習與資料庫技術,兩者之間的協作機制尚不成熟。
1.3 本文的研究範圍與章節安排
本文聚焦「道教 OCR 與古籍數位化」這一交叉議題,時間跨度以六朝至明清為主,空間範圍涵蓋中國大陸、敦煌西域、臺灣與香港等地收藏機構,材料類型以道經寫本、道教碑刻與明清刻本為核心。全文十二章:第二章說明三種文獻形態的物質特徵;第三章與第四章分別處理敦煌道經寫本與道教碑刻的傳統整理與校勘;第五章討論明清道教刻本的版刻系統;第六章進入 OCR 技術原理與古籍識別挑戰;第七章介紹國際與兩岸三地的代表性數位化工程;第八章以具體案例說明 OCR 在道教文獻中的應用;第九章分析核心爭議;第十章探討方法限制;第十一章討論制度、市場與技術影響;第十二章為結論。文末附兩項對照附錄、參考文獻與自評。
二、道教文獻的物質形態:寫本、碑刻與刻本
2.1 道經寫本:從六朝抄經到敦煌遺書
道教寫本的歷史可追溯至東漢末年。《老子想爾注》相傳為天師道所傳,原書二卷,《正統道藏》未收,現存敦煌殘抄本一件(S.6025),保存原書上卷,即《道經》第三章至第三十七章之注文。饒宗頤據敦煌抄本整理為《老子想爾注校箋》(上海古籍出版社,1991年),是研究早期天師道思想的重要文獻。南北朝時期,隨著上清經、靈寶經的出世與傳抄,寫本成為道教經典最主要的物質形態。《真誥》記載東晉楊羲、許謐等人以「上清家法」書寫降經,強調字跡工整、用紙潔淨、書寫者齋戒,顯示寫本製作本身即為宗教實踐的一環。
敦煌藏經洞出土的道教文獻,是現存規模最大、時代最集中、內容最豐富的道教寫本群。據王卡《敦煌道教文獻研究:綜述·目錄·索引》(中國社會科學出版社,2004年)統計,該書收錄已知中外各國集中和散見的各類敦煌道教文獻共計八百件,涵蓋道經、科儀、符圖、齋文、願文、傳記、目錄等多種類型。王卡主編《敦煌道教文獻合集》(社會科學文獻出版社,2020年)則進一步對敦煌道教文獻與吐魯番道教文書進行集中展示與系統點校,每種文獻包含解題、圖版、釋文三部分,圖版來自英國國家圖書館、法國國家圖書館、中國國家圖書館、日本杏雨書屋等館藏單位,凡可綴合者均加以拼接,並對原卷錯訛、倒乙、缺字、衍文等進行校勘。
敦煌道經寫本的物質特徵直接影響 OCR 的難度。首先,書寫字體多樣,包括工整楷書、行書、草書,以及介於楷行之間的「經生體」。其次,用字極不統一,同一詞語在不同寫卷中可能出現多種俗寫,如「齋」作「亝」、「籙」作「錄」、「經」作「巠」等。再次,寫卷多有殘損,邊緣缺字、中間破洞、墨跡暈染、紙張背透等現象普遍。最後,部分道經夾雜圖像、符籙、表格與特殊符號,傳統 OCR 難以直接處理。
2.2 道教碑刻:金石材料中的制度與信仰
道教碑刻是研究道教歷史、宮觀制度、地方信仰與社會經濟的重要史料。陳垣編纂、陳智超與曾慶瑛校補的《道家金石略》(文物出版社,1988年)是二十世紀最具代表性的道教金石文獻彙編。該書草創於1923—1924年,陳垣利用北京大學研究所國學門所藏拓片,特別是繆荃孫藝風堂拓片,搜集碑拓千餘通,最終收錄自漢迄明的金石資料1535篇,分為漢魏六朝、唐、宋、金元、明五大部分,其中金元部分數量最多,再按全真派、真大道派、太一派、正一派及歸屬不明者分列。陳垣在《校補前言》中指出:「抄易校難。若抄而不校,無用也。」這一判斷對於今日的碑刻 OCR 仍有重要啟示:單純將拓片圖像轉為文字,若無專家校勘與版本比對,其學術價值將大打折扣。
近年來,區域道教碑刻的整理成果豐碩。黎志添、李靜編著《廣州府道教廟宇碑刻集釋》(中華書局、三聯書店,2013年)共搜集宋至清末廣州府十三縣境內與道教廟宇有關的282通碑刻,其中112通由田野調查獲得,並考察了121座道教廟宇的歷史。蕭霽虹主編《雲南道教碑刻輯錄》(中國社會科學出版社,2013年)收錄自漢魏迄當代雲南14個市州境內與道教活動相關的碑刻778通,共計67萬餘字,其中180餘通為實地訪查抄錄首次刊布。趙衛東、陳法永主編《金元全真道碑刻集萃》(山東大學出版社,2020年)收錄碑刻70餘通。此外,龍顯昭與黃海德主編《巴蜀道教碑文集成》(四川大學出版社,1997年)、楊世華主編《茅山道院歷代碑銘》(上海科學技術文獻出版社,2000年)、鄭振滿與丁荷生編《福建宗教碑銘彙編·興化府分冊》《福建宗教碑銘彙編·泉州府分冊》(福建人民出版社,1995年、2003年)、吳亞魁《江南道教碑記資料集》(上海辭書出版社,2007年)、佟洵主編《北京道教石刻》(宗教文化出版社,2011年)等,均為區域道教碑刻研究奠定了堅實基礎。
道教碑刻的物質特徵同樣對 OCR 構成挑戰。碑石表面凹凸不平、風化磨泐、苔蘚覆蓋,使拓片上的字跡濃淡不一、斷筆連筆難辨。篆書、隸書、楷書、行書並存,同一碑刻的額題、碑陽、碑陰可能採用不同字體。碑文常有缺字、衍文、倒文、通假字,以及為避諱而改寫的字符。摩崖刻石還面臨拍攝角度、光線陰影與背景干擾等問題。這些因素意味著碑刻 OCR 不能簡單套用現代印刷體識別模型,而需要針對石質載體的退化特徵進行專門優化。
2.3 明清道教刻本:官藏與地方重刻
明代《正統道藏》與《萬曆續道藏》是現存最完整的道教叢書。《正統道藏》刊板於明英宗正統九年(1444)至正統十年(1445),由第四十三代天師張宇初、第四十四代天師張宇清相繼主持,道士邵以正督校,共5305卷、480函,按三洞、四輔、十二部分類,採用《千字文》為函目,自「天」字至「英」字。明神宗萬曆三十五年(1607),第五十代天師張國祥續補《萬曆續道藏》,自「杜」字至「纓」字,凡32函、180卷。兩藏合計5485卷、512函,即現存明版《正統道藏》。此藏明代曾刊印多部,頒賜各地宮觀,但經版於清代藏於京城大光明殿,1900年八國聯軍入侵時被焚毀。今中國國家圖書館、上海圖書館、四川大學圖書館、四川省圖書館等單位尚存明版殘印本。
《道藏輯要》是繼明《正統道藏》《萬曆續道藏》之後收書最多的道教叢書。清嘉慶間蔣元庭等輯《道藏輯要》493卷,收道教重要典籍、歷代祖師著作、科儀戒律、碑傳譜記凡265種。清光緒三十二年(1906),成都二仙庵據以翻刻,又增入數種,其中包括清代晚近的道書。該書字板以梨木雕刻,共計一萬四千多塊,每塊兩面刻字,一面兩頁。《道藏輯要》所收多為明清道教重要文獻,尤其是全真、正一、內丹、科儀類著作,對於研究明清道教具有不可替代的價值。
明清道教刻本的版式特徵包括:豎排右起、單欄或雙欄、版心有書名卷次與頁碼、雙行小字注、夾注、眉批、插圖與符圖。相較於寫本,刻本字形較為規範,但仍存在版刻異體字、避諱字、魯魚亥豕之訛。不同版本之間的異文,是文本校勘與 OCR 後處理必須面對的核心問題。
三、敦煌道經寫本的文本校勘傳統
3.1 從大淵忍爾到王卡:敦煌道教文獻的目錄學基礎
敦煌道教文獻的現代整理始於二十世紀。日本學者大淵忍爾於1978年出版《敦煌道經圖錄編》,收錄當時所見各類敦煌道教文獻496件,並附圖版,為後續研究奠定了基礎。此後,李德范於1999年主編《敦煌道藏》,對當時所見敦煌道教文書進行影印。隨著各地敦煌文獻不斷公布,敦煌道教文獻數量持續增長,王卡《敦煌道教文獻研究:綜述·目錄·索引》(2004年)將收錄件數擴充至八百件,被認為是當時收錄最完備的敦煌道教文獻研究著作。
王卡的研究方法體現了傳統目錄學與文獻學的結合。《綜述篇》概括漢末魏晉河西道經的傳播、北朝隋唐敦煌道教的興盛、安史之亂後敦煌道教的衰落、敦煌道經的文獻價值與齋教法事;《目錄篇》列出敦煌道教文獻簡明目錄、分類敘錄、現存中外收藏編號索引、經書抄寫監校人名及年代表、傳授經戒人員和道觀等;另設《敦煌道教文獻收藏備覽》,介紹與文獻收藏相關的圖書館、博物館與個人。這種「敘錄+圖版+索引」的體例,對於數位化時代的元數據設計具有直接參考價值。
3.2 寫本校勘的核心方法:對校、本校、他校、理校
陳垣《校勘學釋例》歸納的四種校勘方法——對校、本校、他校、理校——同樣適用於道教文獻。對校是以同一文獻的不同版本相互比勘;本校是以本書前後文互證;他校是以他書引文或相關文獻參證;理校則是在無版本可據時,依據文義、語法、史實進行推斷。呂鵬志在《敦煌寫本P.2440〈靈寶真一五稱經〉校補解題》等論文中,具體展示了四校法在道教寫本中的運用。呂鵬志強調,道教文獻研究應綜合文獻學方法(文字學、音韻學、訓詁學、目錄學、版本學、校勘學、輯佚學、辨偽學)、話語語言學方法與歷史學方法,對道經做全面深入的解題考論,對疑難詞句作精校精注。
以敦煌寫本《靈寶真一五稱經》(P.2440)為例,該卷內容屬靈寶經系統,涉及召神問卜之法。呂鵬志的研究包括年代和作者考證、版本和校勘、目錄著錄和徵引、題意和內容提要、源流和影響等環節,並在附錄中提供寫本校補。這種「解題+校錄+考論」的體例,是將寫本從「圖像」轉化為「可研究文本」的關鍵步驟,也為 OCR 後處理中「識別—校勘—標註」的工作流程提供了學理依據。
3.3 俗字、異體字與符號的處理
敦煌道經寫本中的俗字與異體字,是 OCR 識別的最大障礙之一。潘重規《敦煌俗字譜》、黃征《敦煌俗字典》等工具書,收錄了大量敦煌俗字,但這些字典多以手寫字圖呈現,無法被電腦直接判讀。近年來,中研院史語所「敦煌寫卷內容數位化」專案在標記過程中累積了數量龐大的異體字圖庫,截至相關報告發表時已收錄超過二萬個敦煌寫卷異體字型,並保留這些異體字與來源寫卷的連結,建立可供查詢檢索比對的異體字資料庫。該專案採用 TEI/XML 國際標準文獻數位編碼格式,對寫卷的俗寫字進行楷定並加上現代標點,同時將異本或校勘版本納入編碼時的校對參考,並加上註解說明差異。
除了俗字,道經寫本還包含大量特殊符號,如重文符、闕字符、刪除符、倒乙符、句讀符、咒語音節符、符籙圖形等。這些符號雖然在傳統文獻學中有相對固定的處理方式,但在 OCR 中卻難以用常規字符集表示。Unicode 雖然收錄了部分漢字異體與部首變體,但對於敦煌俗字、道教祕字與符籙圖形仍有大量遺漏。因此,數位化專案通常需要建立自訂字符集或採用圖像錨點(image anchors)與結構化標註相結合的方式,才能在保留原卷視覺特徵的同時,提供可檢索的文本內容。
四、道教碑刻的物質性與金石學整理
4.1 碑刻作為道教制度史的核心史料
道教碑刻不僅是書法藝術與宗教宣教的載體,更是研究道教宮觀制度、道士身份、法脈傳承、地方信仰與三教關係的第一手材料。唐代是道教碑刻的第一個高峰,《道家金石略》所收唐代道教碑誌數量眾多,內容涵蓋皇室崇道、道士受封、宮觀修建、齋醮活動、神仙感應等。例如,馮宿撰文、柳公權書寫的《唐昇玄劉先生碑銘》,記載了為敬宗皇帝授籙的高道劉從政,是研究唐代道教與皇室關係的重要文獻。權德輿《唐故太清宮三洞法師吳善經碑銘》則是建構中唐長安太清宮大德吳善經生平的基礎史料。
金元時期,隨著全真道的興起,道教碑刻進入第二個高峰。山西、陝西、山東、河南、河北等地保存了大量全真教碑刻。以山西永樂宮為核心區域,周邊府縣宮觀均保留了一批珍貴碑刻史料。例如夏縣發現的元末至正十一年(1351)〈重修長生觀碑〉,碑陰署名中載「本觀提舉趙道安,門徒常德清、冀明玉。於真人元初祠長生劉真人、披雲真人宋」,暗示金元之際長生觀傳承的是劉處玄一系法脈,對於研究全真「隨山派」在山東、河南、山西的傳承具有重要價值。
4.2 拓片的製作、保存與數位化流程
拓片是碑刻研究的主要工作底本。傳統拓片製作需經清洗碑面、上紙、捶打、上墨、揭取等步驟,技藝要求高,且對原碑有一定損耗。因此,珍貴碑刻的拓片往往限量製作,早期拓本尤為珍稀。中研院歷史語言研究所傅斯年圖書館藏有遼金元拓片約二千幅,其中元代拓片約一千四百幅;佛教石刻造像拓本數位典藏資料庫收錄史語所藏佛教造像拓片約四千件;這些收藏雖以佛教為主,但其數位化經驗對道教拓片同樣適用。
中國科學院文獻情報中心的研究指出,石刻拓片數位化可分為兩大部分:一是資料庫系統的開發與建置,通常外包給系統開發商完成;二是數據準備,包括拓片圖像數位化、書目控制、元數據建檔等,由圖書館員與研究人員完成。圖像數位化需考慮解析度、色彩模式、檔案格式與長期保存標準;書目控制需記錄碑刻名稱、年代、所在地、材質、尺寸、書體、撰文者、書丹者、刊刻者、收藏機構等;內容標註則需進一步提供釋文、校勘記、主題詞與地理資訊。
4.3 碑刻釋文與校勘的挑戰
碑刻釋文的難度源於碑石本身的物質退化與拓片的二次變形。風化使字口變淺、筆畫殘缺;磨泐使部分文字完全消失;苔蘚與污漬在拓片上形成黑斑,可能被 OCR 誤判為文字;裂紋與石花則可能被誤認為筆畫。因此,碑刻釋文往往需要結合多種拓本、原石照片、實地考察與文獻比對。
陳垣在整理《道家金石略》時已指出碑刻「抄易校難」的困境。這一困境在數位化時代並未消失,只是從「人工抄錄」轉化為「機器識別+人工校勘」。對於 OCR 而言,碑刻文字的挑戰至少包括:字體多樣(篆、隸、楷、行並存)、單字結構複雜、石面紋理干擾、拓片墨色不均、行款不規則、缺字與殘字頻繁。現有通用 OCR 模型在這些場景下的識別率通常較低,需要針對碑刻數據進行專門訓練,並結合碑刻字典、上下文語言模型與專家反饋進行後處理。
五、明清道教刻本的版刻系統與文本特徵
5.1 《正統道藏》《萬曆續道藏》的版刻標準
明代《正統道藏》的編纂標誌著道教經典叢書的版刻化與制度化。其分類架構「三洞四輔十二部」成為後世道藏編纂的範式:三洞為洞真(上清)、洞玄(靈寶)、洞神(三皇);四輔為太玄、太平、太清、正一;十二部則為本文、神符、玉訣、靈圖、譜錄、戒律、威儀、方法、眾術、記傳、讚頌、表奏。每一部經書按洞、輔、部分類,並以《千字文》編函,便於典藏與檢索。
《正統道藏》的版式具有鮮明的官刻特徵:每半葉若干行,每行若干字,版心刻有書名、卷次、頁碼與刻工信息;經文正文為大字,注文為雙行小字;部分經書附插圖,如《太上洞玄靈寶無量度人上品妙經》的符圖、《周易參同契》的丹圖等。由於刊板歷時較長、參與人員眾多,各函版刻質量參差不齊,部分版面存在字跡模糊、筆畫殘缺、版片磨損等問題。明清以來的多次刷印,又使同一經書出現初印本、後印本、修補本等版本差異。
《萬曆續道藏》作為《正統道藏》的補編,收錄明代後期新出道書,其版式大體沿用正統舊制,但在字體風格與版刻細節上略有變化。兩藏合計5485卷,是研究明代道教及其以前道教文獻的核心文本庫。1923—1926年涵芬樓影印本、1957—1977年新文豐縮印本、1988年文物出版社等聯合影印本,均以明版為底本,使《正統道藏》得以廣泛流通。
5.2 《道藏輯要》與明清地方刻本
相較於官修《道藏》,《道藏輯要》更具有明清道教實踐導向。該書初輯於清嘉慶間,光緒三十二年(1906)成都二仙庵重刻,收書二百六十五種、四百九十三卷,內容涵蓋內丹、外丹、科儀、戒律、符籙、神仙傳記、地方道書等。其版刻特徵包括:版框較《正統道藏》為小,便於手持誦讀;部分經書保留清代道士的批注與序跋;版心與封面題簽反映地方刻書風格。
《道藏輯要》的重要性在於它保存了大量未收入《正統道藏》《續道藏》的明清道教文獻,尤其是全真龍門派、淨明道、呂祖信仰、女丹修煉等領域的文獻。京都大學人文科學研究所曾進行「道藏輯要」全文數位化計畫,臺灣中研院文哲研究所與香港中文大學道教文化研究中心也持續關注《道藏輯要》的文獻價值。黎志添現正主持國際《道藏輯要》題要編纂計畫,旨在為這部大型叢書提供系統的解題目錄。
5.3 刻本校勘中的「魯魚亥豕」與版本異文
刻本校勘的核心問題是版本異文。由於版刻過程中可能出現描改、修版、補版、挖改等情況,同一經書的不同印本之間常存在文字差異。此外,刻工的文化水平、底本的選擇、校對的精粗,都會影響刻本文字的正確性。道教刻本中常見的訛誤類型包括:形近訛(如「太」訛為「大」、「經」訛為「徑」)、音近訛(如「籙」訛為「錄」、「齋」訛為「齊」)、缺筆避諱(如避康熙帝諱「玄」作「元」)、衍文、脫文、倒文等。
對於 OCR 而言,刻本雖然比寫本與碑刻更為規範,但仍需處理以下問題:版刻異體字與現代標準字的對應;雙行小字注與正文的區分;版心、行款、頁碼等非內容元素的過濾;插圖、符圖與表格的定位;不同版本之間異文的標註。高品質的道教刻本數位化,應當在 OCR 識別的基礎上,結合版本目錄學與校勘學方法,建立「圖像—文字—異文—校勘記」的多層次數據模型。
六、OCR 技術原理與古籍識別的特殊挑戰
6.1 傳統 OCR 與深度學習 OCR
光學字符識別(Optical Character Recognition, OCR)是指將圖像中的文字轉換為機器可讀文本的技術。傳統 OCR 系統通常包括圖像預處理、版面分析、文本行檢測、字符分割、字符識別與後處理等模組。圖像預處理包括二值化、去噪、傾斜校正、對比度增強等;版面分析旨在識別文字區域、圖片區域、表格區域與注釋區域;文本行檢測與字符分割將連續文字拆解為可識別單元;字符識別則通過特徵提取與分類器完成;後處理利用語言模型修正識別錯誤。
近年來,深度學習徹底改變了 OCR 的技術範式。基於卷積神經網絡(CNN)的特徵提取、基於循環神經網絡(RNN)與連接時序分類(CTC)的序列識別、基於注意力機制與 Transformer 的編碼器—解碼器模型,以及基於大型視覺語言模型(VLM)的端到端文檔理解,使 OCR 在現代印刷體與手寫體上的識別率大幅提升。然而,古籍 OCR 由於數據稀缺、字形多樣、版式複雜、語料特殊,仍然是具有挑戰性的研究領域。
6.2 古籍 OCR 的核心難點
古籍 OCR 面臨的挑戰可歸納為以下幾類:
字形多樣性:古籍中存在大量異體字、俗字、古字、通假字、避諱字,這些字符往往不在現代常用字集中。例如《正統道藏》中的「炁」「靈」「籙」「齋」「經」等字,常有多種異寫;敦煌寫本中的俗字更是千變萬化。
版式複雜性:古籍多為豎排右起,部分文獻為橫排與豎排混排;存在多欄、雙行小字注、夾注、眉批、版心題記、頁碼、插圖、表格、符圖等元素。正確理解版面結構,是保證閱讀順序與文本結構準確的前提。
圖像退化:古籍紙張可能泛黃、脆化、蟲蛀、水漬、墨跡暈染;拓片可能存在墨色濃淡不均、紙張褶皺、邊緣缺損;碑刻原石可能存在風化、磨泐、裂紋。這些退化現象使文字檢測與識別變得困難。
語言特殊性:古籍使用文言文,句法與詞彙與現代漢語差異顯著;道教文獻還包含大量專有名詞、科儀術語、咒語、符號與圖像,通用語言模型難以準確理解。
數據稀缺性:相較於現代文檔,古籍圖像與對應文本標註數據極為有限。深度學習模型通常需要大量標註數據才能達到較高性能,而古籍領域的專家標註成本高昂、週期漫長。
6.3 針對道教文獻的 OCR 技術策略
針對道教文獻的特殊性,OCR 系統需要在通用古籍 OCR 的基礎上進行專門優化。第一,建立道教專用字形庫與異體字對照表,將常見異體字、俗字、道教專用字納入識別範圍。第二,開發適應豎排、雙行注、夾注、符圖混排的版面分析模型,確保閱讀順序正確。第三,針對寫本、拓片、刻本等不同載體,設計專門的圖像預處理與增強算法。第四,引入道教文獻語言模型作為後處理,利用上下文語義與專業術語知識修正識別結果。第五,建立人機協同標註平台,使道教文獻學專家能夠參與數據標註、疑難字判定與校勘記錄入。
上海圖書館開放數據競賽中的多個古籍 OCR 獲獎作品,展示了當前技術的可能路徑。例如「傳統與未來的結合:基於濾波後配合 AMPD 與 PageNet 的古籍 OCR」獲得最佳古籍 OCR 算法獎;「基於深度學習的古籍文字檢測與識別算法」提出數據預處理、PaddleOCR 基礎模型微調、原文語言結構恢復等完整流程;「基於 PP-OCRv4 古籍 OCR 識別初探」「基於 Cascade Mask RCNN 和 TrOCR 的中文古籍 OCR 算法模型」「基於 PaddleOCR 的古籍文獻智能數位化」等作品,則從不同技術路線探索古籍識別的優化方案。這些競賽成果雖然主要針對一般古籍,但其方法對於道教文獻 OCR 具有直接參考價值。
七、道教文獻數位化的國際實踐
7.1 國際敦煌項目(IDP):跨國合作的典範
國際敦煌項目(International Dunhuang Project, IDP)是道教寫本數位化領域最具影響力的國際合作項目。該項目於1994年由大英圖書館建立,秘書處設於英國國家圖書館,1998年開通網站(http://idp.nlc.cn/)。其宗旨是聯合世界各地的敦煌西域文獻收藏機構,共同開展保護、修復、編目和數位化工作,利用統一平台發布文獻信息與圖像,使敦煌及絲綢之路東段其他考古遺址出土的寫本、繪畫、紡織品與藝術品的信息與圖像在互聯網上免費獲取。
IDP 先後在北京、聖彼得堡、京都、柏林、敦煌、巴黎設立中心,成員機構包括中國國家圖書館、俄羅斯科學院東方文獻研究所、日本龍谷大學、德國柏林勃蘭登堡科學與人文科學院、中國敦煌研究院、法國國家圖書館、韓國高麗大學校民族文化研究院等。截至2023年,IDP 數據庫包含圖片近五十九萬張;截至2024年,IDP 網站已成為全世界提供敦煌藏經洞文獻文物圖片最多、覆蓋面最廣的數據庫,並提供六種語言版本。
IDP 的數位化流程包括高解析度攝影、圖像處理、元數據建檔、目錄編製與在線發布。其圖像質量遠優於早期《敦煌寶藏》等黑白微縮膠卷,研究者可以通過網絡直接查看清晰高畫質的敦煌寫卷圖像,不必再奔赴英、法、中、日、俄等國親視原卷。IDP 不僅提供圖像,還與各收藏機構合作建立詳細的目錄信息與研究文獻鏈接,為敦煌道教文獻的 OCR 與校勘提供了可靠的圖像底本與元數據基礎。
7.2 中央研究院:道藏資料庫與漢籍電子文獻
中央研究院是華語世界最早推動古籍數位化的學術機構之一。1995年上線的「漢籍電子文獻資料庫」由史語所漢籍全文資料庫計畫主持,內容廣包二十五史、十三經、小說戲曲、清實錄等,免費版約五千零七十五萬字。該數據庫主要工作為校對與標記,線上約三億四千六百萬字,其中包含部分道藏經文,逾半數已完成標記。史語所漢籍工作室主持人袁國華指出,漢籍工作室的主要工作為校對與標記,標記工作對於後續的檢索、統計與數位人文分析至關重要。
中研院中國文哲研究所則在李豐楙教授領軍下,由中研院計算中心協助建置「道藏資料庫」。據2006年「數位寶典—宗教文獻數位化工作經驗交流會」報導,當時《全藏》已輸入完畢,其中三分之一完成初步標點,另五百萬字(約八分之一)內容已提供線上免費檢索。此外,中研院文哲所圖書館於2026年試用「道教經典庫初集」,該資料庫收錄《正統道藏》《萬曆續道藏》共兩部道藏、1486種典籍,為道教文獻全文檢索提供了商業化平台。
7.3 香港與廣東:道教文化研究中心的數位博物館
香港中文大學文化及宗教研究系道教文化研究中心,在黎志添教授主持下,建立了「道教經典文獻數位化資料庫」(亦稱「道教數位博物館」)。該資料庫第二期收錄三類道教經典文獻:道教科儀文獻、道教碑刻文獻、呂祖道書文獻。其中科儀文獻收錄37種清代至近代流傳於廣東、香港、澳門地區的道教科本;碑刻文獻收錄接近150座廣州地區道教宮觀及廟宇的317通碑刻,包括原碑圖像、金石志與地方志原始記錄掃描,以及已校注的碑刻輸入本;呂祖道書文獻則收錄清道光三十年(1850)版劉體恕彙輯《呂祖全書》三十二卷本。
該資料庫的特色在於「以文獻為核心」「著重原典」「互動性」與「兼容性」。它支持原典掃描、經本全文、圖文對照等閱覽方式,並提供全文搜索與主題標籤功能。主題標籤按主題、宮觀、來源、類別、神明、地域、歷史時期分類,便於研究者進行跨文獻索引。這種「圖像+文本+標註+主題詞」的數位化模式,為道教文獻的 OCR 與人文研究提供了可借鑑的範本。
7.4 京都大學與國際道教研究網絡
日本京都大學人文科學研究所長期致力於道教文獻的數位化與研究。莫尼卡(Monica Esposito)與維習安(Christian Wittern)曾主持「道藏輯要」全文數位化計畫,從研究與技術兩面推進明清道教文獻的數位整理。施舟人(Kristofer Schipper)在法國遠東學院、法國高等研究院與萊頓大學任教期間,不僅在道教典籍與科儀研究方面作出開創性貢獻,還推動了多項國際合作項目,包括法國國家科研中心「道教文獻目錄提要」(1979—1985)與「聖城北京」(1996—1999)研究計畫。後者由萊頓大學、法國高等研究院、北京大學與北京市社會科學院合作,整理了北京東嶽廟的全部碑刻共計145通,時間跨度從元明至民國。
施舟人與傅飛嵐(Franciscus Verellen)合編的《道藏通考:明道藏經歷史指南及解題目錄》(The Taoist Canon: A Historical Companion to the Daozang,芝加哥大學出版社,2004年)是現代道教研究的里程碑式著作。該書三卷共約1800頁,首次系統整理和描述了1500部道教核心經文,歷時近三十年,吸引世界各地數十名學者參與。這種大規模國際協作模式,對於未來道教文獻的 OCR 數據集建設、題要編纂與知識圖譜建構具有重要啟示。
八、字符識別在道教文獻中的應用案例
8.1 敦煌寫本 OCR:從圖像到可檢索文本
敦煌寫本的 OCR 面臨書體多樣、俗字繁多、圖像退化等挑戰。近年來,敦煌研究院推動的「數字藏經洞」數據庫平台,運用 OCR 和人機協同機制對敦煌文獻中的文字進行識別和標註。其流程包括:圖像預處理(增強、去噪、旋轉校正)、文本檢測(定位文字精確位置)、光學字符識別(將圖像文字轉為可編輯文本)、人工矯正(對所有文本進行最後確認)。該平台還進一步構建覆蓋文獻內容、年代、地理關係、文物編號等維度的多層級知識圖譜,支持跨文獻實體對齊、關係鏈分析與語義推理。
敦煌寫本 OCR 的技術難點在於:寫卷字跡從工整楷書到潦草行草不等;俗寫字、通假字、錯字、修改字頻繁;間有特殊符號與圖像;紙張殘破、模糊、背透現象普遍。因此,單純依賴自動識別難以達到高精度,必須採用人機協同模式。中研院史語所「敦煌寫卷內容數位化」專案的經驗表明,在編碼過程中需要採用異本和其他相關文獻進行校對,並將校對結果置於註解中。該專案挑選57種寫卷進行編碼,其註解內容卻包含其他40種相關寫本或書面版本,顯示數位化工作的校勘深度。
8.2 道教碑刻 OCR:拓片與原石的雙軌識別
道教碑刻 OCR 可分為拓片識別與原石影像識別兩種路徑。拓片經過黑白反轉、墨色濃淡變化與紙張褶皺干擾,與現代印刷文檔差異極大;原石影像則需處理石面紋理、光線陰影與風化痕跡。2026年騰訊混元聯合多家機構推出的 Chronicles-OCR,是業界首個覆蓋甲骨文到草書「七體之變」的古文字感知評測基準,涵蓋跨時代字符檢測、細粒度古字識別、古文轉寫、字體分類四大任務。該基準評估發現,GPT-5、Gemini 等主流視覺大模型在識別甲骨文、金文、篆文等古早字體時表現極差,多數模型在端到端字符檢測任務上的 H-mean 分數接近於零;公開摘要中最佳 H-mean 約為 16.5%,距離可直接用於碑刻預標註的門檻仍有明顯差距。
這一發現對道教碑刻 OCR 具有重要警示:目前最強的商用視覺大模型,距離為古文字學家做自動預標註的最低可用門檻還有相當距離。道教碑刻中的篆書、隸書、楷書、行書,以及風化磨泐造成的殘字,對現有模型構成嚴峻挑戰。因此,道教碑刻的數位化仍應以高解析度圖像採集、專家釋文與校勘為基礎,OCR 可作為輔助工具而非替代方案。
8.3 明清刻本 OCR:《正統道藏》與《道藏輯要》的數位文本建設
明清道教刻本的 OCR 在技術上相對可行,因為其字形較為規範、版式相對統一。然而,由於《正統道藏》《道藏輯要》卷帙浩繁、異體字眾多、符圖混排,實際工作中仍需大量人工干預。目前,愛如生「道教經典庫」「正續道藏」「數字版重刊道藏輯要」、雕龍古籍數據庫「正統道藏」「道藏輯要」等商業數據庫,已經提供了可檢索的道教經典電子文本;中研院「道藏資料庫」、香港道教數位博物館等學術平台,也收錄了部分道教經典的數位文本或圖文對照資料。
這些數據庫的建設過程通常包括:選擇底本(影印本或原刻本)、高解析度掃描、版面分析與文字識別、人工校對、標點與分段、元數據建檔、全文檢索引擎開發。由於道教經典的專業性,自動標點與自動分段的準確率往往不高,需要道教文獻學專家參與。此外,不同數據庫之間的文本格式、編碼標準、異文標註方式不統一,也給跨庫檢索與文本比較帶來困難。
8.4 從字符識別到知識圖譜:道教文獻的語義組織
OCR 的最終目標不僅是生成可編輯文本,更是支持深層次的知識發現。對於道教文獻而言,這意味著需要從識別結果中提取神名、地名、宮觀名、科儀名、經名、人物、時間、法器等實體,並建立它們之間的關係。敦煌研究院的「數字藏經洞」平台已經在這方面進行探索,通過構建多層級知識圖譜,支持跨卷文獻追溯與語義推理。
道教文獻知識圖譜的建設需要解決以下問題:實體消歧(同名異指、異名同指)、時間標準化(年號、干支、公元紀年轉換)、地名標準化(古今地名對照)、神譜關係(三清、四御、五老、星君等層級結構)、經典關係(經書之間的引用、改編、續作關係)、儀式結構(科儀步驟、法器、咒語、角色的時空序列)。這些任務遠遠超出傳統 OCR 的範疇,需要結合自然語言處理、知識圖譜、本體論建模與領域專家知識。
九、核心爭議:自動化識別與人文校勘的張力
9.1 「識別準確率」能否等同於「文本可靠性」
在古籍 OCR 的評測中,常用指標包括字符錯誤率(CER)、字符精確率(Char Precision)、字符召回率(Char Recall)、字符 F1 值(Char F1)等。然而,對於道教文獻研究而言,「識別準確率」並不等同於「文本可靠性」。一個模型可能在常用字上達到很高的識別率,但在關鍵的道教術語、神名、咒語、異體字上出錯,而這些錯誤對於宗教史、儀式史與思想史研究可能是致命的。
例如,「籙」與「錄」在俗寫中常混用,但在道教語境中,「籙」指法籙、仙靈籙,是科儀傳授的核心概念;「錄」則多為記錄、名錄之意。OCR 若將「法籙」誤識為「法錄」,雖然僅有一字之差,卻可能導致對儀式性質的誤判。又如「齋」與「齊」在寫本中形近易混,「齋」指齋戒、齋醮,是道教實踐的重要範疇;「齊」則無此宗教意涵。類似地,「炁」與「氣」、「丹」與「舟」、「經」與「徑」等字,在不同語境中具有截然不同的意義。
因此,道教文獻 OCR 的評價指標需要超越單純的字符級準確率,引入「術語準確率」「異文檢出率」「校勘一致性」「知識圖譜準確率」等面向研究需求的指標。這要求技術團隊與人文學者共同設計評測標準,而非單純追求通用基準上的高分。
9.2 開放數據與商業數據的張力
道教文獻數位化面臨開放數據與商業數據之間的張力。一方面,IDP、中研院漢籍電子文獻、香港道教數位博物館等項目提供免費或部分免費的圖像與文本資源,促進學術研究與公眾教育;另一方面,愛如生「道教經典庫」、雕龍古籍數據庫、中華經典古籍庫等商業平台,通過精細校對與功能開發獲取收益,但也對數據下載、文本複製與二次利用設置限制。
這種張力對 OCR 研究有直接影響。開放數據有利於學術界開發與驗證新的識別算法,但開放圖像的解析度、元數據完整性與文本標註質量參差不齊;商業數據通常質量較高,但受版權與使用協議限制,難以直接用於公開的算法競賽與學術論文。對於道教文獻這一相對小眾的領域,如何平衡知識產權保護、學術自由與技術創新,是需要持續討論的議題。
9.3 數位化是否會改變文獻的權威性
傳統文獻學強調「目錄、版本、校勘」三要素,認為可靠的文本必須建立在可核驗的底本與嚴謹的校勘基礎之上。數位化與 OCR 技術的介入,使文獻的權威性面臨新的挑戰。當研究者使用電子文本時,往往難以直接判斷其底本來源、校勘過程與錯誤率。一個經過 OCR 識別但未經專家校對的文本,可能在網絡上被反覆複製、引用,形成「錯誤的標準化」。
此外,自動標點、自動分段、自動命名實體識別等技術,雖然提高了文本的可讀性,但也可能將現代人的理解框架強加於古籍之上。例如,道教科儀文本的段落劃分涉及儀式結構的理解,不同學派可能有不同分段方式;自動標點系統若缺乏領域知識,容易在咒語、步虛詞、牒疏等文類中出錯。
因此,數位化道教文獻的權威性問題,需要通過透明的元數據、開放的校勘記、可追溯的版本鏈與專家審核機制來維護。任何電子文本都應標明底本、影印本來源、OCR 引擎版本、人工校對程度、已知的錯誤類型與待核項目,使研究者能夠評估其可信度。
9.4 跨學科協作的方法論爭議
道教文獻 OCR 涉及計算機科學、圖像處理、自然語言處理、文獻學、道教研究、歷史學、藝術史等多個學科。不同學科之間在問題意識、工作流程與評價標準上存在差異。工程師傾向於將問題抽象為「提高識別率」的技術問題;人文學者則關注文本的歷史語境、物質形態與學術價值;圖書館與博物館機構則需考慮版權、長期保存與公共服務。
這種跨學科協作的難點在於:如何將道教文獻學的專業知識轉化為機器可理解的規則與數據標註;如何設計既能滿足技術訓練需求、又能被人文學者接受的標註規範;如何在自動化與專家判斷之間找到平衡。近年來,「人機協同」(human-in-the-loop)與「公民科學」(citizen science)模式被引入古籍數位化領域,但仍需解決專家參與的激勵機制、質量控制與知識產權等問題。
十、方法限制:異體字、俗字、符號、版式與語料
10.1 字符集與編碼標準的限制
道教文獻中的大量異體字、俗字與專用字符,超出了現有 Unicode 字符集的收錄範圍。雖然 Unicode 已經涵蓋絕大多數常用漢字與部分異體字,但對於敦煌俗字、道教祕字、符籙圖形、碑刻篆隸變體等,仍缺乏統一編碼。這導致數位化專案不得不採用多種權宜方案:使用描述性標註(如「某字缺筆」)、插入圖像錨點、建立自訂字符集、採用 IDS(Ideographic Description Sequence)描述字形結構等。
這些方案各有利弊。描述性標註易於實現,但不便於檢索與統計;圖像錨點保留了視覺信息,但無法直接參與文本分析;自訂字符集需要專用字體支持,且難以跨平台兼容;IDS 雖然能在一定程度上表達字形結構,但對於高度變形的俗字仍力不從心。因此,建立開放的道教文獻異體字對照表與字符編碼規範,是推動 OCR 與數位化發展的基礎工作。
10.2 版面分析與閱讀順序的困難
道教文獻的版式複雜性,使版面分析成為 OCR 的關鍵瓶頸。豎排右起是最基本的版式,但實際文獻中常見:橫排與豎排混排、多欄並列、雙行小字注、夾注、眉批、版心題記、頁碼、插圖、符圖、表格等。對於刻本而言,版心信息雖然有助於確定頁碼與版本,但也需要與正文內容區分開來;對於寫本而言,行款參差、字距不一、增刪修改頻繁,使行檢測與字符排序變得困難。
近年來,基於深度學習的版面分析模型(如 PageNet、LayoutLM、DocFormer 等)在現代文檔上表現良好,但在古籍上的泛化能力有限。上海圖書館開放數據競賽中的獲獎作品提出了多種解決方案,包括基於圖神經網絡的列間關係建模、方向感知的文本行檢測、強化學習精調文字框等。然而,這些方法主要針對一般古籍,對於道教文獻中的符圖混排、咒語豎排、表格嵌套等特殊版式,仍需進一步適配。
10.3 語料稀缺與領域適配
深度學習 OCR 模型的性能高度依賴訓練數據的規模與質量。相較於現代印刷文檔與一般手寫數據集,道教文獻圖像與對應標註極為稀缺。雖然 IDP、中研院、上海圖書館等機構積累了大量圖像,但帶有精確字符級標註的數據集仍然有限。這限制了監督學習模型的訓練效果,也使模型在不同時期、地域、字體之間的泛化能力不足。
為緩解數據稀缺問題,研究者提出了多種策略:數據增強(旋轉、縮放、模糊、噪聲、對比度變化)、合成數據生成(以字體庫生成古籍風格圖像)、半監督學習與自監督學習、遷移學習(從大規模現代中文數據遷移到古籍領域)、主動學習(選擇最有價值的樣本請專家標註)等。然而,這些方法在道教文獻上的應用仍處於起步階段,需要更多領域專家的參與。
10.4 後處理與校勘自動化的局限
OCR 的後處理環節通常利用語言模型、字典與規則庫修正識別錯誤。對於現代漢語,n-gram 語言模型與大規模預訓練語言模型能夠顯著降低錯誤率;但對於文言文與道教專業文獻,通用語言模型的效果有限。原因之一是道教文獻語料規模小,難以訓練專用大規模語言模型;原因之二是道教術語、神名、咒語、符號等專業知識難以通過通用語料學習;原因之三是異文現象普遍,同一詞語可能存在多種正確寫法,語言模型難以判斷孰是孰非。
自動校勘是另一個充滿挑戰的任務。傳統校勘需要比較多個版本、判斷異文正誤、推斷文本流變,這些工作依賴深厚的文獻學功底與領域知識。雖然計算機輔助校勘工具(如自動比對異文、標註可疑處、生成校勘記草稿)已經有所發展,但全自動校勘在可預見的未來仍難以實現。因此,OCR 系統的設計應當將「輔助專家」作為核心目標,而非追求完全自動化。
十一、制度、市場與技術影響
11.1 國家政策與文化遺產保護
道教文獻數位化受到國家文化政策與遺產保護戰略的深刻影響。在中國大陸,「中華古籍保護計畫」「國家古籍整理出版規劃」「數字敦煌」「數字藏經洞」等國家級項目,為道教文獻的影像拍攝、數位化與研究提供了資金與機構支持。2019年,習近平在敦煌研究院座談時指出:「要通過數字化、信息化等高技術手段,推動流散海外的敦煌遺書等文物的數字化回歸。」這一指示直接推動了敦煌研究院與相關機構在數位化領域的投入。
在臺灣,中央研究院的「數位典藏國家型科技計畫」「數位文化中心」等項目,長期支持漢籍電子文獻、道藏資料庫與宗教文獻數位化。在香港,研究資助局(Research Grants Council)資助了黎志添主持的「廣州府縣道教廟宇碑刻」「道教虛擬博物館」等項目,並支持香港中文大學道教文化研究中心的數位博物館建設。這些制度性支持決定了項目的規模、可持續性與開放程度。
11.2 市場機制與商業數據庫
商業力量在道教文獻數位化中扮演重要角色。愛如生、雕龍、中華經典古籍庫、籍合網等平台,通過掃描、OCR、人工校對與檢索功能開發,提供了大量可檢索的道教經典文本。這些平台的優勢在於資金充足、技術成熟、用戶界面友好,能夠滿足高校、研究機構與個人研究者的檢索需求。然而,商業數據庫也存在局限:使用費用較高、下載與二次利用受限、文本錯誤難以反饋與修正、數據格式不開放等。
市場機制還影響 OCR 技術的研發方向。大型科技公司與學術機構傾向於投入資源到用戶規模大、商業價值高的領域(如現代文檔 OCR、場景文字識別、手寫識別),而道教古籍這類小眾領域則難以吸引足夠的商業投資。這使得道教文獻 OCR 在很大程度上依賴學術項目、公共文化機構與開源社區的支持。
11.3 技術發展趨勢:從專用模型到大型視覺語言模型
近年來,OCR 技術呈現兩條並行發展路徑。一條是專用模型路徑:針對古籍、碑刻、寫本等特定場景,開發專用的文字檢測、識別與版面分析模型,通過領域數據訓練提升性能。另一條是大型視覺語言模型(VLM)路徑:利用 GPT-4V、Gemini、Qwen-VL 等通用多模態模型,通過提示工程與少量樣本學習完成古籍識別任務。
2025年發表的 AncientDoc 基準評估顯示,在頁面級 OCR、白話翻譯、推理問答、知識問答、語言變體問答等五項任務中,Gemini 2.5-pro、Qwen2.5-VL 系列等模型在頁面級 OCR 上表現較好,但在古文字體與複雜語義理解上仍有明顯不足。2026年發布的 Chronicles-OCR 則進一步揭示,主流 VLM 在甲骨文、金文、篆文上的端到端識別幾乎全軍覆沒,說明現有模型嚴重依賴「現代版式先驗」,面對無約束、不規則、強噪聲的古代物理介質時感知能力薄弱。
對於道教文獻 OCR 而言,這兩條路徑各有適用場景:專用模型適合大規模、格式相對統一的刻本數位化;大型 VLM 適合小樣本、需要語義理解的疑難字識別與校勘輔助。未來的趨勢可能是兩者融合:以專用模型完成基礎識別,以 VLM 進行疑難字判定、語義校正與知識問答,以專家反饋持續優化模型。
11.4 開源社區與國際合作
開源社區在推動古籍 OCR 技術民主化方面發揮重要作用。PaddleOCR、EasyOCR、Tesseract、TrOCR 等開源工具,為研究者提供了基礎識別能力;上海圖書館開放數據競賽、中國開源軟件推進聯盟等活動,則促進了算法創新與數據共享。在道教文獻領域,國際合作尤為重要:IDP 的跨國協作模式、《道藏通考》的國際編纂經驗、香港與內地的區域合作項目,都證明了跨機構、跨學科合作對於大型文獻工程的必要性。
未來,道教文獻數位化需要建立更加開放的生態:開放高質量圖像數據集與標註數據、開放異體字對照表與字符編碼規範、開放 OCR 模型與後處理工具、開放校勘記與知識圖譜數據。只有在開放與協作的基礎上,才能實現技術進步與學術研究的良性循環。
參考文獻與可核驗來源
本稿所據資料可分為四類:一是道教文獻與金石學底本;二是敦煌與古籍數位化機構資源;三是 OCR、VLM 與古文獻處理的近年技術材料;四是資料庫、館藏與國際合作案例。以下條目不等同於完整書目學目錄,而是為後續人工複核提供可追索入口。
- 陳垣:《道家金石略》,中華書局點校本。此書仍是唐宋以降道教碑刻整理的重要入口,本文關於碑刻釋文、宮觀制度與金石材料可由此書進一步追索。
- 施舟人、傅飛嵐主編:The Taoist Canon: A Historical Companion to the Daozang,University of Chicago Press,2004。本文關於《道藏》分類、明代道藏編纂、國際合作題要工程的討論,宜以此書為英文學界的核心參照。
- 任繼愈主編:《道藏提要》,中國社會科學出版社。此書可與《道藏通考》互參,用於核對經名、卷次、分類與題解。
- Monica Esposito、Christian Wittern 參與之《道藏輯要》數位化相關研究與京都大學人文科學研究所資料。本文涉及明清道教刻本數位化時,應回到相關專案頁與論文核對版本、底本與技術流程。
- 國際敦煌項目(International Dunhuang Programme, IDP)。IDP 提供敦煌寫卷圖像、藏品號、收藏機構與跨館檢索入口,是道教寫本 OCR 研究不可繞過的圖像底本來源。
- 中央研究院歷史語言研究所「敦煌寫卷內容數位化」相關報告與資料庫。本文關於 TEI/XML、異體字標記、寫卷註解與多版本校勘的說法,應由該專案資料進一步核驗。
- 敦煌研究院「數字藏經洞」與敦煌文獻數位化成果。本文採其人機協同、圖像標註與知識圖譜方向作為案例,但細節仍需依官方平台最新說明逐項核對。
- 香港中文大學道教文化研究中心、香港道教數位博物館相關資料。本文以其作為華南道教資料數位化與公眾教育平台案例,後續可補充具體館藏號與經像圖錄。
- 上海圖書館、國家圖書館、傅斯年圖書館等拓片與古籍數位化平台。本文討論拓片掃描、元數據與館藏建檔時,採取的是一般流程整理,個別館藏數量與分類宜回到各館最新目錄確認。
- 愛如生「道教經典庫」「正續道藏」「數字版重刊道藏輯要」、雕龍古籍數據庫「正統道藏」「道藏輯要」等商業資料庫。本文只將其作為可檢索道教文本平台案例,不替代對底本與校勘品質的逐條核驗。
- Unicode Consortium 與漢字資料庫相關規範。涉及異體字、IDS 描述、私用區與圖像錨點時,需同時參照 Unicode 標準與各機構的實作方案。
- TEI Consortium: Guidelines for Electronic Text Encoding and Interchange。本文關於校勘、異文、缺字、註解、圖文對位的編碼討論,以 TEI 為主要國際參照。
- Tesseract OCR、PaddleOCR、EasyOCR、TrOCR 等開源 OCR 專案文件。本文對開源工具的描述僅限其作為基礎能力與可訓練框架,不表示它們可直接解決道教寫本與碑刻識別。
- ByteDance AncientDoc 專案資料與 arXiv 論文。本文引用其多任務古文獻理解框架,包括頁面級 OCR、白話翻譯、推理問答、知識問答與語言變體問答。
- Tencent-Hunyuan / HunyuanOCR 與 Chronicles-OCR 公開資料。本文關於「七體之變」、古文字感知評估與主流 VLM 表現不足的說法,依公開專案摘要與資料集頁進行概述。
- MCHDoc、古籍版面分析與歷史文檔識別相關近年論文。本文將其作為「多載體、跨材質、長時段」文檔理解的新方向,而非直接等同於道教 OCR 專案。
- 潘重規:《敦煌俗字譜》;黃征:《敦煌俗字典》。本文談敦煌俗字與異體字處理時,以二書作為傳統工具書背景。
- 《中華道藏》、明《正統道藏》影印本與《道藏輯要》相關整理本。本文涉及道教經典底本時,需回到影印本、原刻本、整理本與資料庫文本之間的差異。
附錄一:道教文獻 OCR 工作流程矩陣
| 工作環節 | 寫本材料 | 碑刻材料 | 明清刻本 | 主要風險 | 必要人工角色 |
|---|---|---|---|---|---|
| 圖像採集 | 需處理紙張破損、背透、卷面彎曲 | 需兼顧原石、拓片、斜光照片 | 需控制書頁弧度、版心陰影 | 影像品質直接限制後續識別 | 攝影師、文物保護人員 |
| 版面分析 | 行列不規則,常有補字與旁註 | 行款受石面裂紋與磨泐影響 | 版式相對穩定但有夾註、雙行小字 | 區塊切分錯誤會造成文本重排 | 數位人文工程師、文獻學者 |
| 字符識別 | 俗字、異體字、草寫字多 | 篆隸楷行混雜,殘字多 | 常規字形較多,符圖混排仍難 | 模型容易把噪聲當成筆畫 | OCR 工程師、校勘人員 |
| 異體字處理 | 需建立圖像、楷定字、Unicode 的對應 | 需保留碑刻字形與釋讀判斷 | 需記錄刻本異文與避諱字 | 過度正規化會抹除版本差異 | 古文字與俗字研究者 |
| 校勘與標註 | 需與同經異卷、道藏本、輯佚本互校 | 需與拓本、錄文、地方志互校 | 需與不同藏本、重刻本互校 | 單一 OCR 文本不能作為定本 | 道教文獻學者 |
| 元數據建檔 | 藏品號、卷號、出土地、收藏機構 | 碑名、年代、所在地、撰書刻者 | 經名、卷次、版式、收藏號 | 欄位不統一造成跨庫失效 | 圖書館員、資料庫設計者 |
| 公開利用 | 圖像權利複雜,跨館授權困難 | 原石與拓片權利分屬不同機構 | 商業庫與學術庫權利差異大 | 開放不足限制再研究 | 法務、館方、研究團隊 |
此矩陣的關鍵在於:OCR 不是單一模型問題,而是「圖像取得、文本判讀、版本校勘、資料治理」的連續工程。若任何一環被簡化,最終文本就可能變成表面可搜尋、實際不可引用的半成品。對道教文獻而言,這種風險尤其高,因為許多關鍵信息並不只存在於正文文字,也存在於符圖、壇場圖、行款、避諱字、旁註、藏印、題跋與磨泐位置之中。
附錄二:品質風險與複核清單
**一、底本風險。**同一部道經可能同時存在敦煌寫本、《正統道藏》本、《道藏輯要》本、地方宮觀抄本與近代整理本。若 OCR 專案只標示經名而不標示底本,研究者便無法判斷文字差異來自版本流變、抄寫訛誤、雕版異文,還是來自機器識別錯誤。複核時至少要記錄:底本影像來源、藏品號或書號、頁碼或卷號、圖像解析度、整理者、最後校改日期。
**二、字形風險。**道教文獻常見祕字、符號、雲篆、雷文、異體字、俗字、借字與缺字。若系統將所有異體字強行歸併為現代通行字,雖然可提高搜尋便利性,卻會損害版本研究與符號研究。較穩妥的做法,是同時保留原字圖像、暫定釋讀、正規化字形與不確定等級,讓使用者知道這個字是「看得見但未必讀得準」,還是「已由多本互校確認」。
**三、版面風險。**道經刻本中的雙行小字、夾註、經題、卷首、牌記、符圖與目錄,往往承載不同層級的信息。若 OCR 只抽取線性正文,容易把註釋誤併入正文,或把經題、版心、頁碼當成正文。這會影響關鍵詞統計、引文定位、經文段落切分與後續知識圖譜建模。複核時應以圖文對照界面保留區塊層級,而不是只交付純文字。
**四、碑刻風險。**碑刻與拓片的關係不是一對一。早期拓本可能保存現已磨滅的字口,晚期拓本可能受石面風化影響,原石照片又受光線角度影響。OCR 結果若不標示「據何種拓片、何時採集、是否校以原石」,就不能作為金石學引文。道教碑刻還常涉及宮觀重修、捐資名單、道派傳承、授籙稱號,任何一字誤識都可能改變制度史判斷。
**五、引用風險。**AI 輔助寫作容易將相近資料混合,例如把敦煌佛經數位化經驗直接套到道經寫本,把商業古籍庫功能誤作開放資料,把「可搜尋文本」誤作「經過校勘的定本」。複核時應分清三層:第一,是否有影像底本;第二,是否有人工校錄文本;第三,是否有學術校勘與引用規範。只有第三層才適合直接進入學術論證。
**六、技術風險。**大型視覺語言模型可在部分頁面辨識上給出流暢答案,但流暢不等於可靠。道教 OCR 應避免用模型輸出的自信語氣取代校勘證據。可行的流程是:模型先做候選字、候選分段與疑難點提示;人員再用影像、字典、異本與上下文核對;最後把人工判斷回寫為可追蹤的校勘記。如此模型才是助理,而不是隱形編者。
**七、保存風險。**數位化不是一次性工程。若只保存最終 JPEG、PDF 或純文字,而不保存原始圖像、OCR 中間結果、模型版本、校改記錄與標註格式,日後無法復原判讀過程。對道教文獻這種長期研究資源而言,應建立可版本化的資料管理制度,使每一次更正都有時間、責任者、理由與依據。
附錄三:建議的最小可引用欄位
若要使道教 OCR 成果真正進入學術引用,至少應提供以下欄位:
| 類別 | 欄位 | 說明 |
|---|---|---|
| 底本資訊 | 題名、別名、藏品號、收藏機構 | 避免同名異本混淆 |
| 時代資訊 | 抄寫或刊刻年代、估年依據 | 區分明確紀年與推定年代 |
| 影像資訊 | 圖像檔名、解析度、採集方式 | 便於回查字形與版面 |
| 文本資訊 | 釋文、標點、分段、缺字標記 | 不把 OCR 結果誤作定本 |
| 校勘資訊 | 異文來源、校改理由、校者 | 建立責任鏈與可追溯性 |
| 權利資訊 | 授權範圍、可否下載、可否再利用 | 避免研究者誤用商業或受限資料 |
| 技術資訊 | OCR 工具、模型版本、人工校改狀態 | 讓使用者評估可信度 |
| 連結資訊 | URL、永久識別碼、引用格式 | 支援長期引用與跨庫互操作 |
這些欄位看似繁瑣,卻是將數位化成果從「方便閱讀」推進到「可被學術引用」的最低條件。尤其在道教研究中,經名、卷次、法派、宮觀、神名與地名往往存在多重異稱;若缺少穩定欄位與權威對照,資料庫很容易成為搜尋入口,卻難以成為可靠研究底本。
附錄四:三類載體的策略分流
**敦煌寫本策略。**優先建立影像級與字形級對照。對每個疑難字,保留局部圖像、暫定釋讀、同卷上下文、異卷對照與工具書依據。模型的價值在於快速定位可能文字區塊、提示相似字形、建立初步轉寫;最終判讀仍應由熟悉敦煌俗字與道教文本的人員完成。
**道教碑刻策略。**優先建立「原石照片、不同年代拓片、既有錄文」三方對照。對磨泐字、缺字、補釋字、異體字應分級標註,不宜直接用現代通行字填平。碑陰人名、職銜、捐資名單與宮觀地名應另外抽取為結構化資料,因為這些資訊對地方道教史、宮觀經濟與道派傳承研究尤其重要。
**明清刻本策略。**可較積極採用版面分析、批次 OCR 與半自動校對,但不能忽略符圖、夾註、牌記、版心、序跋與藏印。對《正統道藏》《道藏輯要》這類大型叢書,應建立經號、卷號、頁碼、影像頁與文本段落之間的穩定映射,避免全文檢索結果無法回到影像底本。
附錄五:對 lius.cc 旗艦專題的編輯建議
若本文後續要擴充為更完整的專題,可以增加三個方向。第一,加入三到五個實際案例頁面,以同一段道經寫本、同一通碑刻、同一頁明清刻本為例,逐步展示圖像、OCR、人工校勘、異文標註與最終引用格式。第二,補一張「道教文獻數位化機構地圖」,將 IDP、中研院、敦煌研究院、香港中文大學、京都大學、上海圖書館、國家圖書館等平台按資源類型與開放程度分類。第三,建立「不可自動化清單」,明確指出哪些工作目前不應交給模型單獨完成,例如符籙圖像判讀、缺字補釋、碑刻人名校正、法派傳承推定與經文真偽判斷。
這些擴充方向可把文章從「綜述」推進到「工作手冊」。對鼎稔道學館而言,最有價值的不是宣稱 AI 已能解決古籍問題,而是建立一套能讓研究者、道長、館方與工程師共同使用的判斷框架:哪些資料可以機器先做,哪些資料必須人工覆核,哪些資料應該公開,哪些資料應該保留原貌並提示不確定。這種框架比單一模型成績更能服務長期道教文化保存。
十二、結論與展望
12.1 主要發現
本文系統考察了道教文獻的物質形態、傳統校勘方法、數位化實踐與 OCR 技術應用,得出以下主要發現:
第一,道教文獻呈現寫本、碑刻、刻本三軌並行的特徵,三種載體在字形、版式、符號系統與文本流變方面各具挑戰,決定了 OCR 與數位化必須採取差異化策略。
第二,傳統文獻學方法(目錄、版本、校勘)與金石學方法,是道教文獻數位化的學理基礎。無論技術如何進步,專家參與的人機協同機制都是確保文本可靠性的關鍵。
第三,國際敦煌項目、中央研究院、香港中文大學道教文化研究中心、京都大學與國際道教研究網絡等機構,已經建立了較為豐富的道教文獻數位資源,但在開放程度、數據標準與跨平台互操作方面仍有提升空間。
第四,OCR 技術在道教文獻中的應用仍處於發展階段。通用模型在規範刻本上已有一定效果,但在寫本、碑刻、異體字、符圖混排等場景下性能有限,需要專門優化與專家後處理。
第五,核心爭議圍繞「識別準確率」與「文本可靠性」的關係、開放數據與商業數據的平衡、數位化對文獻權威性的影響,以及跨學科協作的方法論問題展開。
第六,制度支持、市場機制與技術趨勢共同形塑道教文獻數位化的未來。國家文化政策提供方向與資源,商業平台推動技術普及,開源社區與國際合作促進知識共享。
12.2 對未來研究的建議
基於以上發現,本文提出以下建議:
建立道教文獻 OCR 專用數據集:整合 IDP、中研院、香港道教數位博物館、上海圖書館等機構的圖像與標註資源,建立涵蓋寫本、碑刻、刻本三類載體的開放數據集,並制定統一的標註規範與評測標準。
開發道教專用字形庫與異體字對照表:系統收集敦煌俗字、道教祕字、碑刻異體、版刻異文,建立與 Unicode、IDS、圖像錨點相結合的字符編碼方案,為 OCR 識別與文本檢索提供基礎設施。
推動人機協同標註平台:設計適合道教文獻學專家使用的標註與校勘工具,支持圖像—文本對照、異文標註、校勘記錄入、術語鏈接與知識圖譜構建,並建立專家反饋與模型迭代機制。
加強跨學科人才培養:培養既懂道教文獻學又熟悉數位技術的複合型人才,促進計算機科學、圖書館學、宗教研究與歷史學之間的對話與合作。
探索開放科學與可持續模式:在尊重版權與機構利益的前提下,推動圖像、文本、標註、模型與知識圖譜的適度開放,建立可持續的數位人文生態。
12.3 結語
道教 OCR 與古籍數位化,本質上是一場關於「如何使古老文獻在數位時代繼續被閱讀、理解與研究」的實踐。技術的進步使大規模文獻影像獲取與文字識別成為可能,但技術本身無法替代文獻學的嚴謹與專家的判斷。高品質的道教文獻數位化,應當以可核驗的圖像底本為基礎,以結構化的校勘元數據為骨架,以開放的異體字對照表為橋樑,以專家參與的人機協同為機制,最終服務於學術研究、文化傳承與公眾教育。唯有如此,道教這一承載中國人宗教想像與實踐智慧的文獻傳統,才能在數位時代煥發新的生命力。