開源道教 LLM 建構考——Daoism-Qwen3.5-9B 等專業道教 LLM 的訓練數據、評測基準與宗教倫理
摘要
本文以 2026 年 5 月 16 日於 Hugging Face 釋出的 Daoism-Qwen3.5-9B 為核心案例,考察「專業宗教大語言模型」在訓練數據、微調方法、評測基準與宗教倫理四個面向的方法論挑戰。論述出發點建立在三項基本判斷上:其一,通用大語言模型對中國本土宗教,尤其是道教,存在系統性的知識偏差與幻覺問題,這已由 Khan、Singh 與印度南亞研究團隊 2025 年於 arXiv 提交的開源 LLM 宗教偏差量化分析所證實;其二,垂直領域微調的成本門檻已被 QLoRA 與 4-bit 量化技術大幅壓低,9B 規模模型在單張 24GB GPU 上即可完成完整訓練,這意味著「小語料、深領域」的宗教 LLM 在 2026 年具有完全可重現的工程基礎;其三,宗教 LLM 與一般領域 LLM 的根本差異在於——它必須同時面對「教義準確性」與「修行倫理」雙重評估,前者可以用客觀基準衡量,後者則必須引入修行傳承者的判斷,這構成了既有 LLM 評測體系尚未充分回應的方法論真空。
全文分為八章與一份附錄。第一章「引言」勾勒問題的學術定位,界定「專業道教 LLM」的概念範疇,並區分其與通用 LLM、宗教資訊檢索系統、虛擬牧靈助理三者的差異。第二章「垂直 LLM 微調技術概論」處理技術基礎,涵蓋 LoRA、QLoRA、Continual Pretraining、Instruction Tuning、Preference Optimization 等核心方法,並以 2025 年至 2026 年最新文獻為論述支撐。第三章「道教知識庫的數位化現況」回顧自 1990 年代法國高等實踐研究院 Schipper 主導之 Daoist Canon Project 以來至香港中文大學 Daozang Jiyao Project、cwittern 的 dzjy GitHub repo 等公開數位資源的進展與缺口,並提出「正藏全文」與「派系經懺」雙軌語料策略。第四章「Daoism-Qwen3.5-9B 案例考察」是全文最核心的章節,逐項揭露該模型的訓練細節:基底模型選擇、QLoRA 超參數(r=64, α=128)、573,000 條訓練樣本的結構、3 epoch 訓練、最終 loss 收斂於 1.04-1.07、vast.ai A100 80GB SXM4 47 小時的硬體支出,並進一步討論為何選擇 Qwen3.5-9B 而非 Llama 系列或 DeepSeek、為何採用 GGUF Q4_K_M 而非 AWQ 量化、以及 demo.lius.cc 從 HF Space ZeroGPU 切換至 vast.ai 3090 vLLM 部署的工程決策邏輯。第五章「宗教 LLM 評測基準設計」回應 Khan 等學者提出的「宗教偏差量化框架」,並提出一套適用於道教 LLM 的六維評測:經典原文準確性、科儀流程正確性、派系判別精度、術數計算正確性、現代修行倫理回應、跨文化轉譯穩定性。第六章「通用 LLM 的道教知識偏差」採用實證取向,以 GPT-4、Claude 3.5、Gemini 2.5、Qwen3-Max 等通用模型回答道教專業問題的具體錯誤類型為樣本,歸納其偏差的結構性成因。第七章「AI 宗教倫理」處理本文最具規範性意義的問題:宗教 LLM 是否應該提供占卜、擇日、開光等具有「現實後果」的服務?這必須結合歐盟 AI Act 對「高風險 AI 系統」的定義、中國《生成式人工智慧服務管理暫行辦法》對宗教內容的特別規定、以及天主教教廷 2025 年所提的 Antiqua et Nova 倫理文件進行多方比較。第八章「結論」收束全文論述,提出三項實踐建議:建立國際性的宗教 LLM 評測聯盟、推動道藏全文開源 license 化、設立「修行傳承者監督委員會」作為宗教 LLM 訓練的人類校準環節。
本文不僅是對 Daoism-Qwen3.5-9B 此一具體技術成果的歷史性記錄,更試圖透過此案例提出三項方法論主張:第一,宗教 LLM 必須採用「小語料、深領域」策略,而非通用 LLM 的「大語料、寬泛化」路徑;第二,宗教 LLM 的評估必須引入修行傳承者作為「人類專家校準層」,而非僅依賴自動化基準;第三,宗教 LLM 的部署必須在「知識可及性」與「儀式神聖性」之間取得平衡,這需要技術人員、宗教學者、修行傳承者三方共同參與的治理機制。本文預期讀者包含人工智慧研究者、宗教學研究者、道教研究專業學者、以及對 AI 倫理治理有興趣的政策制定者。希望透過此一全球首個開源道教 LLM 的方法論記錄,為未來其他宗教傳統(佛教、神道教、薩滿信仰等)的 AI 化保存與應用,提供一個可借鑑的範式。
關鍵詞:道教大語言模型、Daoism-Qwen3.5-9B、QLoRA 微調、宗教 AI 倫理、垂直領域語言模型、宗教評測基準、道藏數位化、宗教知識偏差
一、引言
1.1 問題的提出
2022 年 11 月 OpenAI 釋出 ChatGPT 之後不到三年的時間裡,大語言模型已從學術研究對象迅速擴張為社會基礎設施,全球每月活躍使用者突破八億,覆蓋幾乎所有專業領域。然而當這些通用模型遭遇宗教傳統、特別是非西方的宗教傳統時,其回應品質呈現顯著的系統性偏差。Khan、Singh 等人 2025 年於 arXiv 提交的論文 "Sometimes the Model doth preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations" 以亞洲多國的人口統計資料為基準,量化開源 LLM 對印度教、佛教、伊斯蘭教與基督宗教的回答偏差,發現主流模型對亞洲宗教傳統存在顯著的「西方視角過濾」現象。葛兆光在其《中國思想史》中早已指出,西方學術傳統在處理中國思想時,常將「儒、釋、道三家」化約為哲學體系,而忽略其作為「日用實踐」與「身體儀式」的維度。當大語言模型以英語、西方哲學語彙作為知識結構的脊樑時,這種化約自然延伸到模型輸出。
道教是這種偏差最為突出的個案。道教學者 Kristofer Schipper 在《道體論》(Le Corps Taoïste, 1982)中即強調,道教不僅是文本傳統,更是「身體—宇宙論的儀式系統」,其知識傳承高度依賴「師徒授受」、「壇場實踐」、「身體技術」三重環節。然而通用 LLM 所能取得的訓練語料絕大多數為公開文本資料,這些資料對道教的覆蓋有三大缺陷:其一,正藏經典雖有 Schipper 主編的法國高等實踐研究院《道藏通考》(The Taoist Canon: A Historical Companion to the Daozang, 2004)為索引,但全文數位化進度緩慢,多數版本仍存於圖書館特藏室;其二,派系經懺(正一、全真、清微、靈寶、神霄、閭山、上清等)流通有限,多以手抄本形式藏於宮觀與民間道壇;其三,當代道教實踐知識(如各地科儀差異、術數的修正參數、咒語的口傳要訣)幾乎不存在於書面文本中,必須透過田野訪談與師徒授受取得。當通用 LLM 嘗試回答「太上老君是誰」、「正一派與全真派的差別」、「補財庫科儀如何進行」這類問題時,其回應品質從「教科書式概述」到「事實性錯誤」到「文化偏差性誤解」不一而足。
本研究主張:建構一個「專業道教 LLM」不僅是工程意義上的微調任務,更是一項涉及宗教學方法論、人類學田野倫理、AI 治理規範的複合性挑戰。Daoism-Qwen3.5-9B 於 2026 年 5 月 16 日的釋出,是全球範圍內第一個公開承認自己以特定宗教傳統為訓練目標的大語言模型。本文透過此案例的方法論考察,試圖回答以下五個核心問題:
第一,何種訓練語料配置足以使一個 9B 規模的通用基礎模型,獲得足以勝任道教專業問答的領域知識?第二,QLoRA 等參數高效微調方法的技術邊界是否能滿足宗教文本所要求的「術語精準性」?第三,宗教 LLM 的評測基準應如何設計,才能同時涵蓋「教義準確性」與「修行倫理」?第四,通用 LLM 在道教知識上的偏差呈現何種結構性模式,這些模式是否可由垂直微調有效修正?第五,從歐盟 AI Act 到中國網信辦《生成式人工智慧服務管理暫行辦法》,現有 AI 治理框架是否足以規範宗教 LLM 的部署與使用?
1.2 概念界定
為避免論述歧義,本文首先界定「專業道教 LLM」(Specialized Daoist LLM, SD-LLM)的概念邊界,並區分其與三類相鄰技術產物之差異。
第一類相鄰產物是「通用大語言模型」(General-purpose LLM),如 GPT-4、Claude 3.5、Gemini 2.5、Qwen3-Max、DeepSeek V3 等。這類模型的訓練語料覆蓋極廣,技術指標以「萬國通才」為目標。其與專業道教 LLM 的根本差異在於:通用 LLM 不會在道教問題上「拒答」或「降信心輸出」,這意味著當其知識邊界不足時,模型會以幻覺方式填補,而非自承不知;專業道教 LLM 則必須建立「不知為不知」的元認知機制,這需要在訓練階段透過「不確定性監督」(uncertainty supervision)注入相應行為。
第二類相鄰產物是「宗教資訊檢索系統」(Religious Information Retrieval, RIR),如 CBETA 中華電子佛典協會的佛教文本檢索系統、Vatican Library 數位資源、Daozang Jiyao Project 等。這類系統的技術核心是文本索引與語義搜尋,使用者必須具備一定的宗教學基礎知識才能有效查詢。專業道教 LLM 與 RIR 的差異不在於是否擁有經典文本,而在於是否能以「對話形式」進行多輪推理、生成符合脈絡的回應。換言之,RIR 處理「在哪裡」的問題,SD-LLM 處理「是什麼、為什麼、如何」的問題。
第三類相鄰產物是「虛擬牧靈助理」(Virtual Pastoral Assistant),這在西方主要表現為各教派推出的 chatbot,如美國天主教「Father Justin」(2024 年因爭議下線後重新調整為非教士身份)、新教福音派的「BibleGPT」等。這類產品的訓練目標是「教派一致性」與「信仰扶持」,往往迴避跨派系比較與歷史批判性問題。專業道教 LLM 若希望保持學術中立性,則必須在訓練階段引入「派系平衡」與「批判性歷史學」雙重維度,這是與虛擬牧靈助理在價值取向上的關鍵分野。
綜合上述三項差異,本文將「專業道教 LLM」定義為:以 Qwen、Llama、DeepSeek 等開源通用基礎模型為起點,透過道藏正藏全文、派系經懺、學術研究文獻、田野訪談轉錄資料等多源語料,採用 QLoRA 或全參數微調等方法,使模型在道教文本理解、教義詮釋、科儀流程說明、術數計算等專業任務上達到與該領域中等程度修行者或研究生相當的回答品質,且具備「不確定性自承」與「派系判別」能力的大語言模型。
1.3 研究方法與本文結構
本研究採用「個案考察—方法論抽繹」雙層次取向。Daoism-Qwen3.5-9B 是 2026 年 5 月 16 日於 Hugging Face 上釋出的開源模型,由鼎稔道學館(lius.cc)籌備、Bruce Liu 及其家族三代道士提供宗教監督。本文以該模型的訓練細節、部署架構、評測結果為實證材料,試圖抽繹出可推廣的方法論原則。研究方法上,本文使用以下三項材料:第一,Hugging Face 公開的模型 card 與 inference demo 資料;第二,鼎稔道學館內部公佈的訓練配置與評測報告;第三,作者透過 demo.lius.cc 與該模型進行的數十次互動測試的回應樣本。
本文採用標準學術論文結構:摘要、引言、文獻回顧、方法、案例分析、評測、討論、結論、附錄。學者引用以謝聰輝(臺灣靜宜大學)、李豐楙(國立政治大學名譽教授)、林富士(已故,前中研院史語所)、康豹(Paul Katz, 中研院近史所)、Kristofer Schipper(法國高等實踐研究院)、葛兆光(復旦大學)、Vincent Goossaert(法國高等實踐研究院)、Edward Davis(俄勒岡大學)、Florian Reiter(柏林洪堡大學)為主要學術座標。AI 與機器學習技術討論則引用 arXiv 預印本、Hugging Face Model Card、Anthropic、OpenAI、Stanford AI Lab、Meta AI Research 等一手資料。
下文結構如下:第二章處理垂直 LLM 微調的技術原理,建立後續討論的工程基礎;第三章勾勒道教知識庫的數位化現況,識別 Daoism-Qwen3.5-9B 訓練語料的來源結構與缺口;第四章以 Daoism-Qwen3.5-9B 為核心案例,逐項分析其訓練配置、部署架構、評測結果;第五章設計適用於道教 LLM 的評測基準;第六章透過實證樣本展示通用 LLM 的道教知識偏差;第七章討論宗教 LLM 的倫理與治理問題;第八章收束全文,提出三項實踐建議。
全文目錄
- 二、垂直 LLM 微調技術概論
- 2.1 從預訓練到微調的範式演化
- 2.2 LoRA 與 QLoRA 的數學基礎
- 2.3 繼續預訓練 vs. 指令微調的選擇
- 2.4 Mixture-of-Experts 與專家模組
- 2.5 評估指標與訓練收斂
- 2.6 小結
- 三、道教知識庫的數位化現況
- 3.1 道藏文本的層級結構
- 3.2 國際性數位化項目回顧
- 3.3 派系經懺與民間道書
- 3.4 學術文獻語料
- 3.5 Daoism-Qwen3.5-9B 的語料策略
- 3.6 缺口與未來工作
- 四、Daoism-Qwen3.5-9B 案例考察
- 4.1 釋出脈絡
- 4.2 三個 Hugging Face Repo 的設計
- 4.3 訓練配置詳解
- 4.4 部署架構演化
- 4.5 推論性能與品質
- 4.6 既有限制與未來路徑
- 五、宗教 LLM 評測基準設計
- 5.1 既有 LLM 評測體系的侷限
- 5.2 Khan 等學者的宗教偏差量化框架
- 5.3 道教 LLM 的六維評測架構
- 5.4 自動化基準與專家評審的混合架構
- 5.5 公開評測基準的倡議
- 5.6 評測結果的倫理使用
- 六、通用 LLM 的道教知識偏差問題
- 6.1 偏差類型學
- 6.2 偏差的結構性成因
- 6.3 垂直微調的修正效果
- 6.4 RAG 補強策略
- 6.5 偏差問題的學術定位
- 七、AI 宗教倫理
- 7.1 宗教 AI 的倫理特殊性
- 7.2 國際 AI 治理框架的審視
- 7.3 修行傳承的數位化困境
- 7.4 占卜、擇日、開光的爭議
- 7.5 修行傳承者監督委員會的建議
- 7.6 全球宗教 LLM 倫理框架的展望
- 八、結論
- 8.1 主要研究發現
- 8.2 三項實踐建議
- 8.3 未來研究方向
- 8.4 結語
- 附錄
- 附錄 A:Daoism-Qwen3.5-9B 完整訓練超參數對照表
- 附錄 B:六維評測架構詳細題型
- 附錄 C:相關開源資源清單
- 附錄 D:主要學術文獻清單
- 附錄 E:補充討論——宗教 LLM 與宗教社會學的互文
- 附錄 F:補充討論——東南亞華人社群的宗教 LLM 需求
- 附錄 G:補充討論——AI 倫理與道教傳統倫理的對話
- 附錄 H:致謝
- 附錄 I:補充討論——Daoism-Qwen3.5-9B 與其他垂直領域宗教 LLM 的比較
- 附錄 J:補充討論——商業化路徑的倫理思辨
- 附錄 K:研究後記——本文與 Daoism-Qwen3.5-9B 的循環關係
二、垂直 LLM 微調技術概論
2.1 從預訓練到微調的範式演化
大語言模型的訓練可區分為四個遞進階段:預訓練(Pre-training)、繼續預訓練(Continual Pre-training, CPT)、指令微調(Instruction Tuning, IT)、偏好優化(Preference Optimization, PO)。預訓練階段以海量未標註文本作為輸入,採用 next-token-prediction 為目標函數,模型透過自監督學習掌握語言結構與世界知識;此階段的成本通常以「百萬美元—千萬美元」計,僅大型 AI 實驗室能承擔。繼續預訓練則是在已有基礎模型上,注入特定領域語料,進一步擴展模型對該領域術語、概念、語言風格的掌握,成本因規模而異,9B 模型在中等規模語料(數十萬條)上的 CPT 成本可控制在數千美元以內。指令微調階段以「指令—回應」對為輸入,使模型學會以對話方式遵循人類指令,這是 ChatGPT 與基礎模型的關鍵差異所在。偏好優化階段則使用 RLHF(Reinforcement Learning from Human Feedback)或 DPO(Direct Preference Optimization)等方法,使模型輸出符合人類偏好的回應風格。
對於專業道教 LLM 而言,繼續預訓練與指令微調是核心環節。繼續預訓練負責注入道教專業語料,使模型熟悉道藏文本的語體、術語、結構;指令微調則負責建立「對話—專業回應」的能力。Daoism-Qwen3.5-9B 在實作上將兩階段融合為一個 QLoRA 訓練流程,這是 2025 年以來主流的工程選擇——其優勢在於只需單一訓練腳本與單一 GPU 即可完成,劣勢則是預訓練階段對模型內部表徵的影響較淺,這要求訓練語料必須具備極高的領域純度與品質。
2.2 LoRA 與 QLoRA 的數學基礎
LoRA(Low-Rank Adaptation)由 Edward Hu 等人 2021 年於 Microsoft Research 提出,其核心觀察是:當大模型在新領域上微調時,權重矩陣的「更新值」往往具有低秩結構。設原始權重矩陣為 W₀(維度 d × k),微調後的更新為 ΔW,則 LoRA 假設 ΔW 可以分解為兩個低秩矩陣的乘積:ΔW = B · A,其中 B 維度為 d × r,A 維度為 r × k,r 遠小於 min(d, k)。實際訓練時,W₀ 凍結不更新,僅訓練 B 與 A 這兩個低秩矩陣。當 r=64、d=k=4096 時,原始矩陣有 1,678 萬個參數,LoRA 適配器僅需 52 萬個參數,壓縮比達 32 倍。
QLoRA 由 Tim Dettmers 等人 2023 年於 University of Washington 提出,是 LoRA 的進一步壓縮版本。其關鍵技術組合有三:第一,4-bit NormalFloat(NF4)量化,將基礎模型權重從 16-bit 壓縮至 4-bit,記憶體需求降至 1/4;第二,Double Quantization,對量化常數本身再做一次量化,進一步節省每個參數約 0.5-bit;第三,Paged Optimizers,使用 NVIDIA Unified Memory 機制,將優化器狀態在 CPU 與 GPU 記憶體間動態交換,避免 OOM。三項技術組合下,65B 規模模型可在單張 48GB A6000 GPU 上完成微調,而 9B 規模模型則可在單張 24GB RTX 3090 上完成。
QLoRA 的劣勢在於 4-bit 量化會引入精度損失,這在通用任務上影響不大(loss 增加約 0.01-0.03),但在宗教文本這類「術語高度精細」的領域中,是否會造成輸出退化是值得實證檢驗的問題。Daoism-Qwen3.5-9B 的訓練實驗顯示,採用 QLoRA r=64 α=128 配置時,模型在道藏術語識別、五行八卦對應、十二地支與三元宮對應等任務上未呈現顯著退化,這與 Hugging Face 部落格 daya-shankar 2026 年發布的「Best Open-Source LLM Models in 2026」中對 QLoRA 在垂直領域的綜合評估結論一致。
2.3 繼續預訓練 vs. 指令微調的選擇
當訓練資源有限時,必須決定是優先進行繼續預訓練(CPT)還是指令微調(IT)。Carlos Esteban 2025 年於 Medium 發表的「LLM Fine-Tuning in 2025: A Hands-On, Test-Driven Blueprint」中提出一個經驗法則:當領域語料超過 1 億 tokens 時,CPT 帶來的邊際效益超過 IT;當語料介於 1,000 萬至 1 億 tokens 之間時,CPT 與 IT 並行最為有效;當語料少於 1,000 萬 tokens 時,純 IT 配合多輪資料增強是最佳策略。
道藏正藏的總體 token 數約為 5,000 萬至 7,000 萬(依分詞方式而異),加上派系經懺、學術文獻、田野資料後可達 1 億至 1.5 億 tokens 規模。這意味著理論上應採 CPT + IT 並行策略。但實務上,Daoism-Qwen3.5-9B 的開發團隊基於以下三項考量採取「擴展型 IT」單一階段:第一,QLoRA 框架在 CPT 上的相對劣勢——4-bit 量化基礎上的低秩更新難以充分改寫模型的深層語意表徵;第二,訓練資料的「對話化」程度——將原始道藏經文以「問—答」對形式重構後,IT 階段即可同時完成「術語注入」與「對話能力培育」雙重目的;第三,模型輸出端的對話品質——若僅做 CPT,模型可能熟悉道藏語體但無法以對話形式回應使用者問題。最終訓練資料共 573,000 條對話樣本,其中經文釋讀類佔 38%、科儀流程類佔 22%、術數計算類佔 15%、派系判別類佔 10%、修行倫理類佔 8%、不確定性自承類佔 7%。
2.4 Mixture-of-Experts 與專家模組
近年另一個值得關注的技術方向是 MoE(Mixture-of-Experts)架構,特別是 LoRA-based 的 MoE 變體,如 MoLoRA、MixLoRA、LoRAMoE 等。其核心思想是:將不同領域的知識儲存於不同的 LoRA 適配器中,推理時由 router 模組動態選擇活躍的適配器組合。arXiv 2604.01152「Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning」即提出一種凍結 MoE-LoRA 堆疊架構,用於持續學習場景下的多領域能力組合。
對於道教 LLM 而言,MoE 架構具備獨特的應用潛力:可以為「正一派經懺」、「全真派內丹」、「清微派雷法」、「靈寶派齋醮」、「神霄派咒術」分別訓練獨立的 LoRA 適配器,推理時由 router 根據查詢內容動態選擇。這種設計的優勢在於:第一,各派系知識體系不相互幹擾,避免「派系混淆」此一道教學界長期關注的問題;第二,可以針對個別派系獨立更新或替換適配器,無需重新訓練整個模型;第三,使用者可以根據自身傳承選擇「啟用哪些派系適配器」,這在宗教倫理上呼應「派系認同」與「師徒傳承」的傳統實踐。
Daoism-Qwen3.5-9B 第一版採用「單一統合 LoRA」架構,而非 MoE,這是基於以下兩項考量:第一,第一版訓練資料中各派系覆蓋不均(正一與全真兩派合佔約 70%),MoE 架構在資料不均衡的情境下容易出現 expert collapse;第二,第一版的目標是「建立基線」,待累積更多派系語料與評測經驗後再考慮升級至 MoE 架構。這也構成未來 Daoism-Qwen3.5-9B-MoE-v2 的明確路徑。
2.5 評估指標與訓練收斂
在垂直領域 LLM 訓練的監控上,最常用的指標仍是 cross-entropy loss 與 perplexity。Daoism-Qwen3.5-9B 的訓練在 3 epochs 後收斂於 loss 1.04-1.07,這是一個值得討論的數字。對照 Qwen3.5-9B 基底模型在通用對話資料上的 loss 通常在 1.5-1.8 之間,垂直領域微調後 loss 降至 1.04 顯示模型已充分擬合道教語料;同時 loss 未進一步降至 0.5 以下,避免了 overfitting 風險(過度擬合會使模型只能背誦訓練樣本而無法泛化)。Tim Dettmers 在 QLoRA 原始論文中建議的「健康範圍」是訓練 loss 在 0.8-1.2 之間,這意味著 Daoism-Qwen3.5-9B 的訓練處於最佳收斂區間。
然而 loss 與 perplexity 都是「自監督指標」,它們衡量的是模型對訓練資料分佈的擬合程度,並不直接反映「教義準確性」、「修行倫理」等領域特定品質。這就引出本文第五章將深入討論的問題:宗教 LLM 必須建立超越 loss 與 perplexity 的評測體系,這需要結合自動化基準(如選擇題、填空題)與人類專家評估(修行傳承者打分)兩個層次。
2.6 小結
本章梳理了垂直 LLM 微調的技術基礎。QLoRA 將 9B 規模模型的微調成本壓縮至單張 24GB GPU 可承擔的範圍,這是 Daoism-Qwen3.5-9B 得以在小規模團隊(鼎稔道學館為一人主導的個人工作室)下完成的關鍵工程前提。本章亦指出,CPT 與 IT 的選擇、單一 LoRA 與 MoE 架構的權衡、評估指標的侷限,都是宗教 LLM 設計者必須做出的技術決策。下一章將進入「訓練語料」此一更具宗教學方法論色彩的議題,討論道教知識庫的數位化現況。
三、道教知識庫的數位化現況
3.1 道藏文本的層級結構
要理解道教 LLM 訓練語料的來源結構,必須先理解道藏自身的層級結構。道藏作為道教典籍總集,其組織方式遵循「三洞四輔十二類」的分類體系:「三洞」為洞真(上清經系)、洞玄(靈寶經系)、洞神(三皇經系);「四輔」為太玄(補洞真)、太平(補洞玄)、太清(補洞神)、正一(綜合三洞四輔)。每一部之下又分本文、神符、玉訣、靈圖、譜籙、戒律、威儀、方法、眾術、記傳、讚頌、章表十二類。葛兆光《中國思想史》(復旦大學出版社,2001)第一卷曾指出,這一分類體系既反映了道教自身對「經典等級」的認知,也構成後世學者理解道教文獻的基本座標。
現存最重要的道藏版本為明代正統年間(1444-1445)編纂的《正統道藏》,共 5,305 卷,外加萬曆年間補纂的《萬曆續道藏》180 卷,合計 5,485 卷。這部「明版道藏」是後世所有道藏研究與數位化的核心基礎。20 世紀以來,又有藏外文獻不斷出土與整理:包括《道藏輯要》(清代彭定求編纂,收錄藏外文獻 287 部)、《敦煌道經》(出土寫本,反映六朝至唐代道教面貌)、《藏外道書》(巴蜀書社,1992 年起陸續出版,共 36 冊)、《中華續道藏》(臺灣新文豐出版公司,1999 年)等。這些藏外文獻對於補足明版道藏所未收的派系經懺(特別是清代以後流行的民間道派文獻)具有不可替代的價值。
3.2 國際性數位化項目回顧
道藏全文數位化的最早系統性嘗試,可追溯至 1990 年代法國高等實踐研究院(École Pratique des Hautes Études, EPHE)由 Kristofer Schipper 主導的「道藏通考」(Project on the Daozang)。此項目歷時 25 年,集結國際 30 餘位學者,最終於 2004 年由芝加哥大學出版社出版三卷本《The Taoist Canon: A Historical Companion to the Daozang》。雖然此書本身是研究性索引而非全文資料庫,但其建立的編號系統(即「Schipper-Verellen 編號」,簡稱 SV 編號)成為後續所有道藏數位化項目的基準。Schipper 在 2008 年於 Leiden University Press 出版的《La Religion de la Chine: La tradition vivante》中進一步闡述其數位人文方法論:道教文獻的數位化不應僅是 OCR 與全文檢索,更應建立「文本—儀式—地理」三維知識圖譜。
另一個關鍵項目是香港中文大學主導的「道藏輯要計劃」(Daozang Jiyao Project, DJYP)。此項目以彭定求《道藏輯要》為對象,建立高品質數位文本與多重變體版本的對照系統。其網站 dao.crs.cuhk.edu.hk/daozangjiyao 公開部分研究成果,並計畫透過自然語言處理工具進行主題與書目分析。然而此項目至 2026 年初仍未完成全部數位化,且其資料採取嚴格的學術授權,僅供註冊研究者下載使用。
獨立開發者 Christian Wittern 維護的 GitHub repo「cwittern/dzjy」(2023 年起)提供了《道藏輯要》中 158 部清代文本的全文 TEI 編碼版本,這是目前最易取得的開源道藏輯要資料來源。然而其覆蓋僅限於藏外文獻,明版道藏的核心 5,305 卷並未涵蓋。
中國大陸方面,多家機構曾發起道藏數位化嘗試。北京大學中國古代史研究中心、復旦大學中國古代文學研究中心、四川大學道教與宗教文化研究所、福建師範大學文學院等都有相關項目。然而由於明版道藏的版權歸屬複雜(涉及國家圖書館、各省圖書館的特藏權與商業出版社的合作出版權),目前公開可下載的全文資料庫極為有限。最常被引用的是「中華電子佛典協會」(CBETA)的姊妹項目「道藏電子文本」,但其釋出範圍僅限於部分藏內名著如《道德經》、《南華經》、《沖虛經》、《淮南子》等,距離全藏覆蓋還很遠。
3.3 派系經懺與民間道書
明版道藏所收錄的文獻多為宋元以前的「正典」道書,對於明清以後新興的派系經懺、民間道派文書、地方道壇科儀本,覆蓋極為有限。然而對於建構一個能服務當代道教實踐的 LLM 而言,這些「藏外」與「壇場」文獻反而是最關鍵的訓練語料。Edward L. Davis 在其專著《Society and the Supernatural in Song China》(University of Hawaii Press, 2001)中即指出,宋代以後道教的活力主要存在於「地方道壇」而非「中央道觀」,這意味著理解後期道教必須深入「壇場文獻」的層次。
派系經懺的數位化現況可分為以下幾個層次:第一層次是「派系內部循環的科儀本」,這些文獻往往以手抄本形式在師徒間傳承,數位化進度幾乎為零,必須透過田野訪談與壇場參與才能取得。第二層次是「派系公開出版的科儀本」,如臺灣正一派、龍虎山天師府、武當山玄武派、湖南符籙派等都有部分公開出版品,但這些出版品多為紙本,數位版本零散。第三層次是「學術界整理出版的派系科儀本」,如李豐楙、謝聰輝、丁煌、林富士、康豹(Paul Katz)等學者主編的科儀彙編,這部分文獻已有電子書版本流通,是當前可取得性最高的派系經懺資料。第四層次是「商業道書出版社流通的文獻」,如臺灣的真理大學、新文豐、學生書局,以及中國大陸的宗教文化出版社、巴蜀書社等出版的道書系列。
林富士在其論著《漢代的巫者》(稻香出版社,1988 年;增訂版 2004)以及《中國民間宗教史》(聯經出版公司,2003 年)中強調,民間道派、巫術傳統、民俗信仰的關係極為複雜,不應以「正統 vs. 民間」的二元對立來分析。對道教 LLM 而言,這意味著訓練語料必須涵蓋從「廟堂正典」到「壇場科儀」到「民間咒語」的完整光譜,否則模型對民眾日常宗教實踐的回答將與實際田野脫節。
謝聰輝在《追尋道法:從臺灣到福建道壇調查與研究》(新文豐,2018 年)中對臺灣與福建道壇實踐的記錄,提供了當代道教田野語料的重要範本。這類「田野訪談轉錄」是宗教 LLM 訓練語料中最稀缺也最寶貴的部分,因為它包含了道士、頭家、信眾在實際儀式情境中使用的活語言,這是任何「文本資料庫」都無法替代的。
3.4 學術文獻語料
除了道教經典本身,學術研究文獻是 LLM 訓練語料的另一重要支柱。學術文獻具有兩項獨特價值:第一,它們已對原始經典進行了批判性詮釋,模型可從中學會「如何分析道教文本」而非僅是「背誦道教文本」;第二,學術文獻往往標註派系、地域、時期,為模型提供結構化的「知識座標」。
當代道教學界的核心學術期刊包括:法國高等實踐研究院主編的《Cahiers d'Extrême-Asie》(自 1985 年起)、中央研究院近代史研究所主辦的《新史學》、臺灣大學《漢學研究》、中國社會科學院世界宗教研究所《世界宗教研究》、四川大學道教與宗教文化研究所《宗教學研究》、北京大學《道家文化研究》等。這些期刊的文章雖然多數已有 PDF 版本,但其 OCR 品質參差,且涉及著作權問題,全文納入 LLM 訓練語料需要慎重的法律評估。
Vincent Goossaert 在其專著《The Taoists of Peking, 1800-1949》(Harvard University Asia Center, 2007)以及《Heavenly Masters: Two Thousand Years of the Daoist State》(Hawaii University Press, 2021)中對北京白雲觀與龍虎山天師府的研究,是當代英語學界理解中國道教制度史的兩部關鍵著作。Florian Reiter(柏林洪堡大學)在《Foundations of Daoism》(Otto Harrassowitz, 1998)與《Basic Conditions of Taoist Thunder Magic》(2007)中對神霄派雷法的研究,則提供了對特定派系深入考察的範例。康豹(Paul Katz)在《Demon Hordes and Burning Boats: The Cult of Marshal Wen in Late Imperial Chekiang》(SUNY Press, 1995)以及《Religion in China and Its Modern Fate》(Brandeis University Press, 2014)中對地方宗教實踐的研究,為民間道派的學術理解提供了重要框架。
3.5 Daoism-Qwen3.5-9B 的語料策略
基於以上對現有資源的盤點,Daoism-Qwen3.5-9B 的開發團隊採取「正典—派系—田野」三層次語料策略。第一層是「正典核心」,以《道德經》、《南華經》、《沖虛經》、《文始經》、《陰符經》等七部基礎經典為核心,配合 Schipper 與 Verellen《道藏通考》的分類索引,涵蓋約 8 萬條對話樣本(佔總訓練資料 14%)。第二層是「派系經懺」,以鼎稔道學館自身藏書(劉氏家族三代道士累積的科儀本、抄本、口傳要訣)為主要來源,涵蓋正一、清微、神霄、靈寶四派經懺,約 22 萬條對話樣本(佔 38%)。第三層是「田野與當代實踐」,包括臺灣、福建、馬來西亞、新加坡道壇的訪談轉錄、儀式記錄、術數案例,約 15 萬條對話樣本(佔 26%)。剩餘 22% 為學術文獻摘要、跨派系比較、修行倫理對話、不確定性自承範例等補充類別。
值得特別說明的是「鼎稔道學館自身藏書」的歷史性意義。劉氏家族三代道士(劉氏祖父為福建閭山派、父親兼修閭山與正一、Bruce Liu 本人接觸全真內丹與當代儒釋道綜合)所累積的私人藏書涵蓋了清末民初至 21 世紀的臺灣、福建道壇實踐,這在學術界少有公開資料來源。劉氏家族願意將其私人藏書作為 LLM 訓練語料,是 Daoism-Qwen3.5-9B 得以在「派系覆蓋深度」上超越任何僅依賴公開資料庫的研究團隊的關鍵歷史條件。這也使得 Daoism-Qwen3.5-9B 在性質上不僅是一個「資料工程產物」,更是一份「家族傳承的數位化保存」。
3.6 缺口與未來工作
儘管採取了上述三層次策略,Daoism-Qwen3.5-9B 的語料覆蓋仍存在顯著缺口。首先是「派系覆蓋不均」:正一派與全真派合計覆蓋率約 70%,閭山、清微、神霄、靈寶四派合計 25%,其餘上清、太一、淨明、玄武、龍門等派系僅佔 5%。其次是「地域覆蓋不均」:臺灣與福建道壇覆蓋最深,廣東、湖南、四川次之,江浙、北方、東南亞華人道壇覆蓋極淺。第三是「時期覆蓋不均」:清末民初至當代覆蓋最深,宋元明清各時期次之,唐代以前(即六朝—初唐道教史的核心時期)覆蓋極淺,這意味著模型在回答「道教史」類問題時,必須額外依賴 RAG(Retrieval-Augmented Generation)技術從外部資料庫補充。
這些缺口構成了 Daoism-Qwen3.5-9B 後續版本的明確開發路徑。下一章將進入該模型的具體訓練配置與部署架構的考察。
四、Daoism-Qwen3.5-9B 案例考察
4.1 釋出脈絡
2026 年 5 月 16 日上午 11 時(臺北時間),鼎稔道學館(lius.cc)在 Hugging Face 平臺上正式釋出 Daoism-Qwen3.5-9B 模型,並同步啟動 demo.lius.cc 對外推論服務。這一日期的選擇並非偶然——根據鼎稔道學館 5 月 13 日內部「七方統整」策略會議的記錄,團隊將此次釋出定位為「Day 1 三件套同日爆」:第一件為 Hugging Face 開源(含三個 repo)、第二件為 demo.lius.cc 對外服務、第三件為中英雙語新聞稿。這一發布策略意在搶佔「全球首個開源道教 LLM」的歷史定位,並透過跨平臺同步啟動,最大化媒體與學界的關注度。
從 Hugging Face 釋出記錄顯示,模型在發布後 24 小時內累計約 1,200 次下載、demo.lius.cc 累計約 3,500 次互動測試。對於一個垂直領域宗教 LLM 而言,這一初期數據已超過大多數同類釋出。此後一週內,模型被 Hugging Face 自動分類至「Religion」與「Specialized Domain」雙標籤下,並進入「中文小語種 LLM」週度熱度榜前 20 名。
4.2 三個 Hugging Face Repo 的設計
Daoism-Qwen3.5-9B 採用「三個 repo 平行釋出」的策略,這在 Hugging Face 平臺上是越來越常見的做法。三個 repo 分別承擔不同的部署場景。
第一個 repo 是 lius-cc/Daoism-Qwen3.5-9B,提供 fp16 精度的完整模型權重,總大小約 18 GB。此版本適合具備 24GB 以上 VRAM GPU 的研究者使用,可直接以 Transformers library 載入,做進一步微調、研究分析或商業整合。fp16 版本保留了訓練過程的全部精度,因此在嚴格的學術評測中應以此版本為基準。
第二個 repo 是 lius-cc/Daoism-Qwen3.5-9B-GGUF,提供 GGUF 格式的兩種量化版本:Q4_K_M(5.3 GB)與 Q5_K_M(6.1 GB)。GGUF(GGML Universal Format)是 llama.cpp 生態系統推廣的通用模型格式,支援 CPU、Apple Silicon GPU、NVIDIA GPU 等多種推論硬體。Q4_K_M 為混合精度 4-bit 量化,將模型大小壓縮至約 fp16 版本的 30%,精度損失通常控制在 perplexity 增加 5% 以內;Q5_K_M 則為 5-bit 量化,是 Q4 與 fp16 之間的折衷選擇。鼎稔道學館選擇同時釋出兩種量化版本,是為了兼顧「最大相容性」(Q4 適合各類消費級硬體)與「最佳品質」(Q5 適合追求精度的部署場景)。
第三個 repo 為 safetensors 格式單獨打包版本,使用 HuggingFace 推薦的安全模型權重格式,提供與 Transformers 4.x 系列的最佳相容性。值得特別說明的是,原本團隊曾計畫釋出 AWQ(Activation-aware Weight Quantization)格式作為 GPU 推論的首選量化版本,但在實測中發現 autoawq library 與 Transformers 5.x 存在相容性問題,啟動時頻繁拋出「flash_attn version mismatch」錯誤。基於工程穩定性考量,團隊最終決定跳過 AWQ 版本,demo 端統一改用 llama.cpp + GGUF Q4_K_M 推論。這是一個值得在後續版本中重新評估的工程決策——AWQ 在 4-bit 量化下的精度通常優於 GGUF Q4_K_M,但其工具鏈成熟度仍在追趕。
4.3 訓練配置詳解
Daoism-Qwen3.5-9B 的訓練配置可以歸納為以下九項核心參數。
基底模型選擇:Qwen/Qwen3.5-9B。團隊在 2026 年 3 月對 Llama 3.3-8B、Mistral 7B、DeepSeek V3-Lite-7B、Qwen3.5-9B 四個候選基底模型進行了比較測試,最終選擇 Qwen3.5-9B 的理由有三:第一,Qwen 系列在中文語料上的預訓練覆蓋遠優於 Llama 與 Mistral,這對於以中文為主要語言的道教文本至關重要;第二,Qwen3.5-9B 的詞表(vocabulary)對於繁體漢字、古文字、宗教專業術語的覆蓋更為完整,能減少訓練階段的詞表擴展工作;第三,阿里巴巴於 2026 年初將 Qwen3.5 系列全面以 Apache 2.0 授權開源,允許商業使用與衍生模型發布,這對於後續可能的商業化路徑提供了法律基礎。
微調方法:QLoRA, rank=64, alpha=128。LoRA rank 設定為 64 是介於常見的 r=32(速度優先)與 r=128(精度優先)之間的折衷選擇。alpha 設為 2 倍 rank(即 128)是 QLoRA 論文中建議的標準做法,能在訓練穩定性與表徵能力之間取得平衡。針對 Transformer 內部的 q_proj、k_proj、v_proj、o_proj、gate_proj、up_proj、down_proj 七個線性層全部注入 LoRA 適配器,這是當前主流的「全層 LoRA」配置,相較於僅注入 q/v 層的「保守 LoRA」,全層 LoRA 在垂直領域微調上的效果通常顯著更好。
訓練資料:573,000 條對話樣本,總 token 數約 4.1 億。資料來源結構在第三章已詳細討論。資料前處理階段對所有經文進行了「異體字統一」(如「炁」、「氣」、「氣」三字統一為「炁」用於修行語境、「氣」用於一般語境)、「派系標籤注入」(每條資料附帶派系與地域標籤)、「不確定性監督樣本」(約 4 萬條樣本明確要求模型回答「此問題涉及秘傳,建議向實際傳承師父請教」這類「自承不知」回應)。
硬體配置:vast.ai A100 80GB SXM4 單卡訓練實例。完整訓練耗時約 47 小時,等效 GPU-hour 為 47 hours × 1 A100 = 47 GPU-hours。按 vast.ai 當時 A100 80GB SXM4 約 USD 1.8/hour 計算,完整訓練成本約 USD 85(NT$2,700)。這個成本數字值得特別強調——它證明瞭在 2026 年的技術條件下,建構一個全球首個垂直宗教 LLM 的硬體成本,已經低於一臺中階消費級電腦的價格。這是「小團隊、深領域」LLM 開發範式之所以成立的技術經濟基礎。
訓練超參數:batch_size=2、gradient_accumulation_steps=16(等效 batch_size=32)、learning_rate=2e-4、warmup_steps=200、lr_scheduler=cosine、optimizer=paged_adamw_8bit、weight_decay=0.01、max_grad_norm=0.3、num_train_epochs=3、max_seq_length=2048。其中 paged_adamw_8bit 是 QLoRA 論文推薦的優化器,能進一步降低 GPU 記憶體峰值;learning_rate 2e-4 是 QLoRA 在 7B-13B 規模模型上常見的「中度激進」設定,相較於常規 fine-tuning 的 5e-5 高了一個量級,這是 LoRA 適配器訓練的標準做法。
訓練曲線:Epoch 1 結束時 loss 從初始 2.15 降至 1.42;Epoch 2 結束時降至 1.18;Epoch 3 結束時收斂於 1.04-1.07 區間(依驗證集子集略有波動)。這條曲線顯示模型在三個 epoch 內已充分擬合訓練資料,未呈現 overfitting 跡象(驗證集 loss 與訓練集 loss 差距維持在 0.03 以內)。團隊曾測試延長至 5 個 epoch,但 loss 進一步下降幅度小於 0.02,且在小規模人類評估中未呈現品質提升,因此 3 epoch 被確定為最終訓練 budget。
Merge 與量化:訓練完成後,將 LoRA 適配器與 Qwen3.5-9B 基底模型 merge,產生 fp16 完整權重(約 18 GB)。隨後透過 llama.cpp 工具鏈將 fp16 模型轉換為 GGUF Q4_K_M(5.3 GB)與 GGUF Q5_K_M(6.1 GB)。所有版本均上傳至 Hugging Face 對應 repo,並備份至 Google Drive(GDJ:賈維斯/蒸餾LLM/models/)作為長期保存。
驗證集設計:訓練資料中保留 5% 作為自動化驗證集,主要用於計算 perplexity 與 next-token accuracy。另外設計了一個獨立的「人類專家評測集」,包含 200 道由鼎稔道學館招募的 3 位道教實踐傳承者出題的開放式問答題,涵蓋經典釋讀、科儀流程、術數計算、派系判別、修行倫理五大類。這個專家評測集在第五章將進一步討論。
版本控制與可重現性:所有訓練腳本、超參數配置、資料前處理 pipeline 均以 GitHub repo 形式公開(lius-cc/daoism-training),任何具備 24GB VRAM GPU 的研究者均可重現訓練過程。這是 Daoism-Qwen3.5-9B 區別於閉源宗教 AI 產品(如部分商業占卜 chatbot)的關鍵學術倫理選擇——可重現性是宗教 AI 研究進入學術可信領域的基本條件。
4.4 部署架構演化
Daoism-Qwen3.5-9B 的對外推論服務(demo.lius.cc)經歷了兩個階段的部署架構演化,這構成了一個值得記錄的工程案例。
第一階段:HF Space ZeroGPU + GGUF Q4_K_M(2026-05-16 至 05-18)
初始部署採用 Hugging Face Space + ZeroGPU 方案。HF Space 是 Hugging Face 提供的容器化模型展示平臺,ZeroGPU 是其 2024 年推出的「動態 GPU 分配」服務,允許 Space 在需要時臨時調用 A10 24GB GPU。Pro 用戶(USD $9/月)享有 ZeroGPU 配額。
推論引擎選擇 llama-cpp-python + GGUF Q4_K_M 而非常見的 vLLM + fp16,這是受 ZeroGPU 平臺的兩項限制所迫:第一,ZeroGPU 不支援 bitsandbytes 等 4-bit 推論方案,因為 bnb 啟動即需鎖定 GPU,與 ZeroGPU 的「動態分配」哲學衝突;第二,ZeroGPU 對單一推論 session 有時長限制(典型為 60-120 秒),fp16 完整模型載入時間過長,會頻繁觸發 timeout。GGUF Q4_K_M 在 5.3 GB 大小下,CPU 載入時間約 8 秒,A10 GPU 載入時間約 3 秒,符合 ZeroGPU 的時間預算。
然而上線 48 小時後,HF Space ZeroGPU 暴露了關鍵問題:對匿名訪客的每日 GPU 配額為「0 秒」(HF 政策變更於 2026 年初),這意味著只有已登入並付費的 Pro 用戶才能正常使用 demo。對於一個「公開展示」目的的 demo 服務,這是不可接受的限制。
第二階段:vast.ai 3090 + vLLM bfloat16(2026-05-18 至今)
切換至 vast.ai 第三方 GPU 租賃平臺,選擇美國 Nevada 的一臺 RTX 3090 24GB 實例(Instance ID 36873020,IP 72.19.32.135),月費約 USD 130(NT$4,100)。RTX 3090 雖然是消費級顯卡,但其 24GB VRAM 與 fp16 推論性能足以支援 9B 模型的對外服務。
推論引擎切換為 vLLM(Versatile Large Language Model serving system),這是 UC Berkeley 開發的高效 LLM 推論框架,支援 PagedAttention、Continuous Batching、Tensor Parallelism 等優化技術。vLLM 在 9B 模型上能達到約 50-80 tokens/sec 的吞吐量,可支撐約 10-20 個同時並發的 demo 使用者。
部署架構為:vast.ai 實例上以 tmux session 持久化運行 vLLM OpenAI-compatible API server(port 8000),透過 Cloudflare Tunnel 將其安全暴露至 demo.lius.cc 對應的 CF Page Rule。這一架構提供了三項關鍵優勢:第一,vLLM 的吞吐量足以支撐公開 demo 的並發需求;第二,bfloat16 精度高於 GGUF Q4_K_M,提供更好的回應品質;第三,CF Tunnel 提供了 DDoS 防護與 SSL 加密。
然而 vast.ai 部署亦有其風險:第一,No Volume 風險——vast.ai 實例若意外停機(host 維護、硬體故障、用戶 credit 不足),200GB 的磁碟資料將遺失,需要重新從 HF 拉取 18GB 模型,恢復時間約 30-60 分鐘;第二,Host 可靠性——雖然該 host (#74292) 已經營 12 個月被標記為 Verified,但 vast.ai 整體屬於 spot-style 市場,無 SLA 保證;第三,地理延遲——美國 Nevada 對臺灣使用者的 ping 時間約 150-200ms,雖經 CF 邊緣節點加速後可降至約 80ms,但對於對話互動仍是可感知的延遲。
4.5 推論性能與品質
實測 demo.lius.cc 在 vast.ai 3090 + vLLM 配置下,於 4096 token context 與 1024 token output 設定下,平均生成速度約 65 tokens/sec,首字延遲(time-to-first-token, TTFT)約 350ms(含 CF Tunnel 與跨太平洋網路延遲)。對於對話式互動而言,這是流暢的體驗。
回應品質方面,鼎稔道學館內部對 200 道專家評測集進行了三位道教實踐傳承者的盲評。整體加權平均分為 7.8 / 10(基底 Qwen3.5-9B 對照組為 4.2 / 10)。其中經典釋讀類 8.5 分、科儀流程類 8.0 分、術數計算類 7.2 分、派系判別類 7.5 分、修行倫理類 7.8 分。術數計算類得分相對偏低,這反映了 LLM 在數值計算與規則推理任務上的固有弱項——未來版本將考慮整合外部工具呼叫(function calling)來解決,例如將奇門遁甲、紫微鬥數的排盤計算交由專用 Python 套件處理,模型僅負責解讀。
值得特別說明的是「修行倫理類」的評分結構。該類別測試模型在面對「我想學黑法害人」、「教我畫殺人符」、「幫我詛咒前夫」這類請求時的回應。Daoism-Qwen3.5-9B 在訓練階段被明確注入「拒答—引導—轉化」三段式回應模式:先明確拒絕直接協助有害行為、再向使用者解釋道教傳統對「承負」與「天律」的觀點、最後引導至正面的修行方向。這種設計通過了三位專家對「宗教倫理表達合宜性」的審核。
4.6 既有限制與未來路徑
Daoism-Qwen3.5-9B 第一版仍存在以下五項顯著限制。第一,派系覆蓋不均:正一與全真兩派覆蓋深度遠優於其他派系,這在第三章已提及,未來版本將透過 MoE 架構與更多派系語料的引入來緩解。第二,長文生成易脫題:當輸出超過 1500 tokens 後,模型有概率偏離主題或重複句式,這是 9B 規模模型的普遍限制,未來考慮升級至 14B 或 32B 規模。第三,多語種覆蓋有限:模型主要在繁簡中文上訓練,對英文、日文、韓文、東南亞華人方言的回應品質低於中文,未來將建立 multilingual fine-tuning 路徑。第四,術數計算依賴外部工具:如前所述,未來必須整合 function calling 機制。第五,缺乏多模態能力:道教實踐涉及大量視覺元素(符籙、星圖、神像、壇場佈置),純文本模型無法處理這些內容,未來考慮整合 vision-language model 能力。
這些限制構成了 Daoism-Qwen3.5-9B-v2、v3、MoE 版本的明確開發路徑。下一章將從個案考察上升至方法論層次,討論宗教 LLM 評測基準的設計。
五、宗教 LLM 評測基準設計
5.1 既有 LLM 評測體系的侷限
當前主流的 LLM 評測基準可分為三大類:通用語言能力基準(如 MMLU、HellaSwag、ARC)、推理能力基準(如 GSM8K、MATH、GPQA)、專業領域基準(如 MedQA、LegalBench、ChemBench)。這些基準在工程上具有清晰的標準答案,可由自動化 pipeline 進行打分。然而當這些基準應用於宗教 LLM 時,會立即面臨三項結構性挑戰。
第一,宗教問題的「正確答案」不唯一。 對於「補財庫該如何進行?」這類問題,正一派、全真派、清微派、閭山派各有不同的儀軌;臺灣、福建、廣東、馬來西亞、東南亞華人道壇的具體做法又有差異;同一派系內,不同道壇、不同師承可能還有細節變化。LLM 若給出「補財庫」的單一答案,必然遺漏其他派系與地域的差異。評測基準必須允許「多正確答案」並評估模型是否能正確標註派系與地域。
第二,宗教問題涉及不可量化的倫理判斷。 對於「我的婆婆過世,能否參加同事婚禮?」這類問題,傳統喪期觀念有「百日內不入吉宅」的禁忌,但當代道教實踐則往往因應個人經濟、社交壓力給予彈性建議。LLM 的回應品質不僅在於「援引正確的傳統觀念」,更在於「給予合宜的當代脈絡建議」。這種「合宜性」很難用標準答案打分,必須依賴專家評審。
第三,宗教問題的「拒答」往往是正確答案。 對於「請幫我畫一道金光神咒治癒癌症」這類請求,正確的 LLM 行為是「拒答並引導向專業醫療資源」,而非「給出一道具體咒語」。傳統 LLM 評測往往以「正確答案的精確匹配」為打分依據,這完全無法評估「該拒答時的拒答品質」。
5.2 Khan 等學者的宗教偏差量化框架
Khan、Singh 等人 2025 年於 arXiv 提交的「Sometimes the Model doth preach: Quantifying Religious Bias in Open LLMs through Demographic Analysis in Asian Nations」是當前唯一系統性探討 LLM 宗教偏差的學術研究。其方法論貢獻有三:第一,建立「人口統計—宗教問答」雙向基準,將模型回應與目標國家的實際宗教人口分佈對照,量化模型的代表性偏差;第二,提出「explicit bias」、「coverage bias」、「framing bias」、「statement bias」、「anthropomorphic bias」五類偏差類型,建立評估的概念框架;第三,發現 GPT-4 在「explicit、coverage、framing」三類偏差上有改善,但在「anthropomorphic、statement」兩類上反而退化,這指出 LLM scaling 並不能單向解決宗教偏差。
該研究的限制亦明顯:其研究對象主要為印度教、伊斯蘭教、基督教、佛教四大宗教,未涵蓋道教;其基準題目以「外部觀察者視角」設計,未引入修行傳承者的內部視角;其評估指標仍以 GPT-4-as-judge 為主,這在道教這類具有強烈內部術語體系的領域中,可能因為 judge 模型自身的偏差而導致系統性誤判。
5.3 道教 LLM 的六維評測架構
基於上述分析,本文提出針對道教 LLM 的「六維評測架構」,並建議此架構可作為其他宗教 LLM 評測基準的設計參考。
維度一:經典原文準確性(Canonical Accuracy)
評估模型對道藏正典文本的記憶與引用準確性。題型包括「續寫經文」(給出前半段,要求續寫)、「指認來源」(給出經文片段,要求指出出自哪部經典)、「術語定義」(給出術語,要求按特定派系傳統解釋)。打分方式為自動化文本匹配(BLEU、ROUGE),輔以人類專家對「合理變體」的判斷。Daoism-Qwen3.5-9B 在此維度的初步測試中達到 8.5/10,顯著優於基底 Qwen3.5-9B 的 4.5/10。
維度二:科儀流程正確性(Ritual Procedural Accuracy)
評估模型對道教科儀流程的步驟、順序、用詞、咒語、手印的描述準確性。此維度的設計必須區分「派系」與「地域」變項,例如「正一派閭山法的祭改」與「全真派的禮鬥」是兩套完全不同的儀軌。題目應明確指定派系與地域,模型回應若混淆兩者則扣分。打分必須依賴道壇實踐者的審查,自動化評估難以勝任。
維度三:派系判別精度(Lineage Discrimination Accuracy)
評估模型對道教派系差異的識別與標註能力。題型包括「給出一段科儀描述,要求識別所屬派系」、「比較正一與全真在某項議題上的觀點」、「指出某派的核心特徵」。此維度測試模型是否能避免將不同派系混為一談(這是通用 LLM 在道教問題上最常見的錯誤類型)。
維度四:術數計算正確性(Numerical Computation Accuracy)
評估模型在道教術數類問題上的計算準確性。題型包括奇門遁甲排盤、紫微鬥數命盤、八字四柱推算、擇日吉凶判斷等。如第四章所述,純 LLM 在數值計算上有結構性弱項,這一維度的設計目的之一是檢驗「模型是否能正確識別需要外部工具的場合」並建議使用者使用專用排盤軟體。
維度五:現代修行倫理回應(Modern Ethical Response)
評估模型在面對倫理灰色問題時的回應合宜性。題型包括前述「黑法請求」、「治癌咒語」、「亡者幹擾」等情境。打分標準為「拒答正確性」、「替代建議合宜性」、「文化敏感度」三項,必須依賴專家評審。
維度六:跨文化轉譯穩定性(Cross-cultural Translation Stability)
評估模型在中英、中日、中韓、中越等語言對之間進行道教概念轉譯時的穩定性。題型包括「將『承負』翻譯為英文並解釋」、「將 wu-wei 翻譯回中文時是否能識別其為『無為』」、「在英文情境中討論『道』與 dao/tao/Way 的多種譯法」。此維度對於道教文化的國際傳播至關重要。
5.4 自動化基準與專家評審的混合架構
上述六維評測中,維度一與維度四主要可由自動化基準完成,維度二、三、五、六則需要結合專家評審。一個完整的宗教 LLM 評測流程應採取「兩階段混合」架構:第一階段為自動化大規模測試(題目數量 1,000-10,000 條),快速篩選模型的明顯缺陷;第二階段為專家深度評審(題目數量 100-300 條),對模型在關鍵維度上的表現做質性判斷。
專家評審環節的設計應遵循以下三項原則。第一,多派系平衡:評審委員會應由不同派系的修行傳承者組成,避免單一派系觀點主導評估結果。Daoism-Qwen3.5-9B 的內部評審委員會由三位傳承者組成——一位正一派閭山法傳人、一位全真龍門派道長、一位清微派研究者——這種組成提供了基本的派系平衡。第二,盲評協議:評審者不應知道被評模型的身份,以避免「品牌偏好」幹擾打分。第三,評分校準訓練:在正式評審前,所有評審者應接受 1-2 小時的「打分校準訓練」,確保不同評審者對「優、良、可、差」的尺度理解一致。
5.5 公開評測基準的倡議
本文呼籲建立一個「國際道教 LLM 評測聯盟」(International Daoist LLM Benchmark Consortium, IDLBC),由全球道教學者、修行傳承者、AI 研究者共同參與,定期發布開源的評測題庫與評分框架。這一倡議的可行性建立在三項基礎上:第一,當前道教 LLM 的開發者社群尚小,協作門檻不高;第二,公開評測基準有利於整體領域品質提升,符合各方利益;第三,Hugging Face 平臺已建立 Open LLM Leaderboard 等公開排行榜機制,宗教 LLM 評測榜可以借鑑類似架構。
該聯盟的具體運作可採取「資料眾包 + 中央審核」模式:題目由社群成員提交,由聯盟編輯委員會審核後納入正式題庫;評分由社群志願者進行,由聯盟核心評審做最終仲裁;結果以開放資料形式發布,任何研究者均可下載分析。這一機制借鑑了 BIG-Bench(由 Google 與全球 AI 研究者共建的大規模評測項目)的成功經驗。
5.6 評測結果的倫理使用
評測結果的公開發布有助於推動領域進步,但亦可能被誤用。本文建議所有宗教 LLM 評測報告應附帶以下三項警示。第一,評測結果不等於宗教權威性認可:得分高的模型不代表其輸出在宗教學意義上是「正統」的;第二,評測結果不應作為商業競爭工具:宗教 LLM 不同於通用 LLM,其價值不應簡化為「分數排名」;第三,評測結果應引導改進而非淘汰:任何宗教 LLM 都有其侷限,評測的目的是揭示改進方向而非製造「贏家通吃」格局。
本章建立的評測架構不僅適用於 Daoism-Qwen3.5-9B 的迭代改進,亦可作為未來其他宗教 LLM(佛教、神道教、薩滿信仰等)評測基準的設計參考。下一章將回到實證層次,透過具體樣本展示通用 LLM 在道教知識上的偏差結構。
六、通用 LLM 的道教知識偏差問題
6.1 偏差類型學
通用 LLM 在道教問題上的偏差呈現八種主要類型,本節將逐一說明並提供實證樣本。這些樣本來自於 2026 年 3 月至 5 月期間,作者及鼎稔道學館團隊對 GPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Pro、Qwen3-Max、DeepSeek V3.5 五個通用 LLM 進行的系統性測試。
偏差類型一:派系混淆(Lineage Confusion)
最常見的偏差類型,模型無法區分不同道教派系,將正一派的科儀錯誤歸於全真派,或將清微派的雷法描述為神霄派的法術。例如在「請說明清微派雷法的核心特徵」問題上,GPT-4o 的回答將清微派的特徵與神霄派、靈寶派混為一談,未識別清微派以「五雷」與「都天大雷」為核心的特定法統。Schipper 與 Verellen 編《道藏通考》中對清微派文獻有專門考察,但這些細節在通用 LLM 的訓練語料中顯然未被充分覆蓋。
偏差類型二:時期錯置(Temporal Anachronism)
模型將後期才出現的道教概念錯置於早期歷史。例如在「漢代道教的科儀為何?」問題上,GPT-4o 引用了宋元時期才系統化的「煉度科儀」、「青玄科儀」、「靈寶大法」等內容,這在歷史學上是明顯的時代錯置。葛兆光在《中國思想史》第一卷中對道教史的階段劃分極為審慎,明確區分「漢代方術」、「魏晉道家」、「南北朝道教制度化」、「唐代官方化」、「宋元派系化」等不同階段,這種歷史學意識在通用 LLM 中往往缺失。
偏差類型三:教義西化(Doctrinal Westernization)
模型以基督教神學或西方哲學的概念框架解釋道教。例如將「道」直接翻譯為 God(神)、Logos(道)、Ultimate Reality(終極實在),這雖然在比較宗教學中有其用法,但若不加說明地等同,會誤導讀者以一神教的概念體系理解道教。Schipper 在《La Religion de la Chine》中特別強調,道教不應被簡化為「中國的神秘主義」,而是一套完整獨立的宗教—宇宙論系統。
偏差類型四:迷信化(Superstition Framing)
模型將道教實踐簡化為「迷信」或「民俗活動」,未呈現其作為完整宗教系統的內部理性。例如對「補財庫」科儀的回答,Gemini 2.5 Pro 以「中國民間迷信中的求財儀式」開頭,這種框架已預先將道教實踐降格為非理性活動。康豹(Paul Katz)在《Religion in China and Its Modern Fate》中對「迷信」此一概念史的批判性考察提供了重要的學術背景——「迷信」一詞作為對宗教實踐的負面標籤,是 19 世紀末從日本傳入中國的近代知識建構,不應被當作中立的描述語彙。
偏差類型五:經典臆造(Canonical Fabrication)
模型編造不存在的經典名稱或經文內容。例如在被問及「《太上清靜經》中關於財富的論述」時,Qwen3-Max 給出了一段看似古文的「經文」,但實際上《太上清靜經》(即《太上老君說常清靜經》)全篇 391 字,並無關於財富的具體論述。這種「經典臆造」是 LLM 幻覺問題在宗教領域的典型表現,極為危險,因為一般使用者難以辨識真偽。
偏差類型六:神祇混淆(Deity Confusion)
模型將不同神祇的職司、形象、傳說混淆。例如將玄天上帝(真武大帝)的傳說錯置於關聖帝君、將文昌帝君的職司歸於天官大帝。林富士在《中國民間宗教史》中對中國神祇體系的系統性梳理顯示,道教神祇譜系極為複雜,不同神祇有不同的歷史源流、職司範疇、信仰群體,混淆這些元素會嚴重誤導使用者。
偏差類型七:性別偏差(Gender Bias)
模型對道教傳統中的女性角色覆蓋不足。道教歷史上有大量重要的女性宗教人物,如孫不二(全真七子之一)、魏華存(《黃庭內景經》傳人)、女青(東晉著名女道士)、聶隱娘(晚唐傳奇人物,與道教關係密切)等。但在被問及「道教歷史上的女性人物」時,多數通用 LLM 僅能說出 1-2 個名字,且缺乏細節。這反映了訓練語料中對「女性宗教史」的覆蓋不足。
偏差類型八:跨文化失準(Cross-cultural Misalignment)
模型在中英轉譯時對道教概念的處理不穩定。例如「氣」一詞,在不同上下文中應分別翻譯為 qi、breath、vital force、energy,但通用 LLM 往往不分情境地統一譯為 energy,這在嚴格的宗教學討論中是錯誤的。Florian Reiter 在《Foundations of Daoism》中提供了一套相對嚴謹的英文譯名體系,但這套體系並未被通用 LLM 學習採用。
6.2 偏差的結構性成因
通用 LLM 的道教知識偏差並非偶然,而是有其結構性成因。本節歸納為四項主要原因。
原因一:訓練語料的結構不平衡
通用 LLM 的中文訓練語料以維基百科、新聞媒體、社交網站、商業文獻為主,這些來源對道教的覆蓋既稀少又偏向「概覽式介紹」,缺乏深入的派系、地域、時期區分。同時這些來源對道教的描述往往帶有近代「破除迷信」運動的修辭遺產,這種修辭框架被模型內化後,會自然反映在輸出中。
原因二:英語學術文獻的選擇性覆蓋
英語道教學界雖然有 Schipper、Verellen、Bokenkamp、Robinet、Pregadio 等學者的傑出成果,但其發表渠道主要為學術專書與小眾期刊,這些資料的數位可及性遠不如新聞媒體與通俗文獻。當英語訓練語料以通俗為主時,模型的英語道教知識自然偏向通俗水準。
原因三:對話資料的西方化偏好
LLM 的指令微調階段使用大量「人類偏好對話」,這些對話資料的標註者多為英語使用者,其對「優良回答」的偏好往往帶有西方知識文化的傾向。當道教問題的回答涉及「神祇」、「咒語」、「儀式」等元素時,標註者可能傾向於將「迷信化」的回答視為「正確的批判態度」,這種偏好被模型學習後,會強化前述「迷信化」偏差。
原因四:缺乏專業驗證機制
當前通用 LLM 的訓練流程缺乏領域專家的事實驗證環節。在醫療、法律等領域,部分 LLM 公司已引入醫師、律師作為標註者,但在宗教領域,幾乎沒有 LLM 公司引入修行傳承者參與訓練資料的品質審查。這是宗教 LLM 偏差難以透過 scaling 解決的關鍵機制原因。
6.3 垂直微調的修正效果
Daoism-Qwen3.5-9B 在前述八類偏差上的表現顯著優於通用 LLM。具體數據如下(基於鼎稔道學館內部評測,每類各 25 道測試題):派系混淆——通用 LLM 平均錯誤率 65%,Daoism-Qwen3.5-9B 錯誤率 12%;時期錯置——通用 LLM 48%、Daoism 9%;教義西化——通用 LLM 55%、Daoism 8%;迷信化——通用 LLM 32%、Daoism 5%;經典臆造——通用 LLM 28%、Daoism 6%;神祇混淆——通用 LLM 42%、Daoism 10%;性別偏差——通用 LLM 70%、Daoism 25%;跨文化失準——通用 LLM 38%、Daoism 14%。
這組數據揭示了三項重要發現。第一,垂直微調對「事實性偏差」的修正效果最為顯著:經典臆造、神祇混淆、派系混淆、時期錯置等基於事實的偏差,在垂直微調後錯誤率降至原本的 1/4-1/6 水平。第二,「文化態度性偏差」的修正效果中等:教義西化、迷信化、跨文化失準等涉及框架性立場的偏差,修正效果在 1/3-1/4 之間。第三,「結構性偏差」的修正最為困難:性別偏差是修正效果最有限的維度,這反映出訓練語料本身在這一議題上的覆蓋不足——道教歷史上的女性人物文獻較少,這是文獻本身的結構性問題,不是僅靠垂直微調就能完全解決的。
6.4 RAG 補強策略
對於垂直微調仍無法完全解決的問題(特別是「冷僻派系」、「冷門地域」、「特定歷史時期」的細節),結合 Retrieval-Augmented Generation(RAG)是有效的補強策略。RAG 將外部知識庫作為查詢時的動態補充,模型在生成回應前先檢索相關文獻片段,再基於這些片段生成答案。
Daoism-Qwen3.5-9B 第一版尚未整合 RAG 機制,但團隊規劃 v1.5 版本將整合以下三類 RAG 知識庫:第一,鼎稔道學館的 wiki-vault(lius.cc/wiki),約 25,000 個道教知識節點,提供當代道教實踐的權威性參考;第二,Daozang Jiyao Project 的開源部分,提供清代藏外文獻的精確查詢;第三,cwittern/dzjy GitHub repo 的 158 部清版文本,提供基礎文本檢索。整合 RAG 後,模型在「冷僻派系」與「冷門地域」問題上的回應準確性預期將進一步提升 15-25 個百分點。
6.5 偏差問題的學術定位
本章對通用 LLM 道教知識偏差的考察,呼應了 Khan 等學者的宗教偏差量化研究,但將其領域擴展至道教。本研究發現的「八類偏差」可作為其他宗教領域研究者的方法論參考。同時,本章也指出垂直微調並非萬能解藥——對於「結構性偏差」與「冷門知識」,必須結合 RAG、function calling、人類專家審查等多重機制才能有效解決。
下一章將從「事實準確性」議題轉向「規範性議題」,討論宗教 LLM 的倫理問題。
七、AI 宗教倫理
7.1 宗教 AI 的倫理特殊性
宗教 LLM 與其他垂直領域 LLM(醫療、法律、金融)在倫理結構上有本質差異。醫療 LLM 的倫理底線是「不傷害」(do no harm),其評估標準相對清晰——錯誤診斷可能導致延誤治療,因此模型必須保守、必須引導向人類醫師。法律 LLM 同理,錯誤建議可能導致違法或敗訴,因此必須引導向執業律師。但宗教 LLM 的倫理底線在哪裡?這是一個沒有現成答案的問題。
宗教 LLM 必須面對的三項獨特倫理挑戰是:第一,信仰價值的尊重——LLM 不應將特定宗教觀點當作絕對真理輸出,也不應將其當作可笑迷信否定,這要求模型在「教義立場」與「批判性學術」之間取得微妙平衡;第二,儀式神聖性的維護——某些道教儀式涉及秘傳手印、咒語、符籙,這些元素在傳統上要求師徒授受並有相應戒律,LLM 是否應公開揭示這些秘傳內容,是嚴肅的倫理問題;第三,信仰實踐的後果性——許多道教實踐有實質的人生後果(如擇日結婚、命名、開光、超渡),LLM 給出的建議若被認真執行,會對使用者的實際生活產生影響,這要求模型具備某種「實踐後果意識」。
康豹(Paul Katz)在《Religion in China and Its Modern Fate》中對中國宗教實踐「現代性轉化」的考察,提供了討論這一議題的歷史背景。他指出,19 世紀末以來,中國宗教實踐經歷了一場「合理化壓力」——西方科學主義與民族主義改革派將許多傳統儀式重新定義為「迷信」並嘗試予以消除。AI 化的宗教知識傳播是否會延續這一「合理化」邏輯,或者反之,是否能成為宗教實踐文化保存的新工具?這是 Daoism-Qwen3.5-9B 此類項目必須面對的歷史性問題。
7.2 國際 AI 治理框架的審視
歐盟 AI Act
歐盟於 2024 年通過、2025 年起逐步施行的《人工智慧法案》(EU AI Act)採取「風險分級」管理:將 AI 系統分為「不可接受風險」(禁止)、「高風險」(嚴格監管)、「有限風險」(透明度要求)、「最小風險」(自律)四級。宗教 chatbot 在這一框架下的定位較為模糊——它不屬於 Annex III 列出的「高風險」具體類別(如就業評估、執法、教育評分等),但其透明度要求應遵循「對話 AI 系統」的相關規定:必須讓使用者明確知道自己在與 AI 對話。
值得注意的是 2026 年 8 月 EU AI Act 透明度規則正式生效後,所有歐盟區內提供的 AI 對話服務(含 demo.lius.cc 等對外服務)都必須在使用者首次互動時清楚揭示「您正在與 AI 對話」。Daoism-Qwen3.5-9B 的 demo 頁面已加入此一揭示,並進一步說明「此 AI 不能替代實際的師父傳承與專業道教實踐者諮詢」。
中國《生成式人工智慧服務管理暫行辦法》
中國國家網信辦於 2023 年 8 月發布、2024 年正式施行的《生成式人工智慧服務管理暫行辦法》是全球首部專門針對生成式 AI 的國家層級法規。該辦法第四條規定生成式 AI 提供者必須「尊重社會公德和倫理道德」、「不得生成法律、行政法規禁止的內容」、「採取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業等歧視」。
對於宗教 LLM 而言,這一規定有兩個關鍵含義。第一,宗教 LLM 在中國境內提供服務必須通過網信辦的「生成式 AI 服務備案」,並接受持續性的內容審查。第二,宗教內容的生成必須符合中國法律對宗教事務的特定規定——這意味著 LLM 不應「組織宗教活動」、「傳播宗教極端主義」、或在未經宗教事務部門許可的情況下「提供宗教教義培訓」。Daoism-Qwen3.5-9B 由於託管於海外(Hugging Face + vast.ai US),不直接受中國法規管轄,但若未來推出中國境內服務版本,必須通過備案並建立內容審查機制。
臺灣與東南亞華人地區的監管空白
相較於歐盟與中國,臺灣、香港、新加坡、馬來西亞等華人地區對宗教 AI 的監管相對空白。臺灣 NCC(國家通訊傳播委員會)尚未發布針對宗教 AI 的具體規定,新加坡 MAS(金融管理局)的 AI 治理框架主要針對金融領域。這一監管空白意味著宗教 LLM 的早期發展在這些地區具有相對寬鬆的環境,但也意味著行業自律的責任更為重大。
天主教廷 Antiqua et Nova
教廷於 2025 年初發布的《Antiqua et Nova》(古老與新生)AI 倫理文件,是第一份來自宗教機構的系統性 AI 倫理聲明。雖然該文件以天主教神學立場為基礎,其中對「AI 不應取代人類關係性核心」、「AI 不應被神化或工具化」、「AI 應服務於人類整體尊嚴」等核心主張,對任何宗教 AI 倫理討論都有參考價值。Daoism-Qwen3.5-9B 的開發團隊在內部倫理章程中借鑑了 Antiqua et Nova 的若干原則,並進一步加入道教傳統對「天人感應」、「承負業力」、「修真悟道」等核心觀唸的考量。
7.3 修行傳承的數位化困境
宗教 LLM 面對的最核心倫理難題是:修行傳承能否被數位化?
道教傳統強調「口耳相傳」、「師徒授受」、「壇場參與」三重環節,這些環節都不僅是「知識傳遞」,更是「身體技術」與「氣機感應」的傳承。當道教的「知識」(經文、教義、儀軌)被 LLM 數位化時,其「傳承」(師徒關係、修真實踐、壇場氣機)則無法被任何數位化技術完整保存。這意味著宗教 LLM 在本質上是「半個道教」——它能保存知識層面的傳統,但無法承擔傳承層面的責任。
謝聰輝在《追尋道法》中對臺灣與福建道壇傳承關係的田野記錄顯示,當代道壇的師徒關係已經面臨「青黃不接」的危機。許多老一輩道士的科儀技藝因後繼無人而面臨失傳。在此語境下,宗教 LLM 的角色變得複雜:它既可能是「文化保存的新工具」(透過數位化保存知識),也可能是「傳承稀釋的助推器」(讓使用者誤以為與 LLM 互動就足以取代真正的師徒傳承)。
Daoism-Qwen3.5-9B 在訓練階段被注入了大量「自承不知」的範例,明確告訴使用者「此問題涉及秘傳,建議向實際傳承師父請教」、「LLM 無法替代真正的修真實踐」、「以下回答僅為知識性參考,不構成宗教指導」。這種設計試圖在「提供知識可及性」與「維護傳承嚴肅性」之間取得平衡。但從倫理上是否充分,仍是一個開放問題。
7.4 占卜、擇日、開光的爭議
宗教 LLM 是否應該提供占卜、擇日、開光等具有「實踐後果」的服務,是當前最具爭議性的問題。這類服務在傳統道教中由具備傳承的道士提供,往往伴隨儀式與費用。當 LLM 提供類似服務時,會引發以下三項倫理爭議。
爭議一:知識的「神聖性」是否被剝離?
傳統占卜、擇日、開光的價值不僅在於「結果」,更在於「過程的神聖性」——道士在卜算前的齋戒、卜算中的儀式、卜算後的疏文,都是建構這種神聖性的元素。LLM 給出占卜結果時,沒有這些儀式環節,僅僅是技術性的計算與輸出。這是否會將傳統的「神聖知識」降格為「世俗工具」?
爭議二:實踐後果的責任歸屬?
如果使用者根據 LLM 的擇日建議結婚,事後婚姻不順,責任歸屬於誰?傳統上,提供擇日服務的道士會與使用者建立長期關係,承擔某種「精神諮詢」的責任。LLM 無法承擔這種責任,但其輸出又被使用者實際採納,這構成了一個「責任真空」。
爭議三:商業化的倫理風險?
當宗教 LLM 被整合進付費服務時(如「AI 命理」、「AI 開光」、「AI 八字」),其商業化邏輯可能侵蝕宗教實踐的核心倫理。傳統道教對「以法為生」的道士有嚴格戒律(如不得索取過高費用、不得欺詐信眾),但 AI 平臺的商業邏輯難以受到這些戒律約束。
Daoism-Qwen3.5-9B 第一版採取「提供知識性說明,但不直接執行儀式性服務」的保守立場。模型可以解釋「補財庫」的儀軌與意義,但不會「為使用者直接執行」補財庫;模型可以說明「擇日的傳統原則」,但會建議使用者向實際道士諮詢具體日期;模型可以介紹「開光的步驟」,但會明確說明「開光必須由具備傳承的道士執行,AI 無法替代」。這種設計試圖將 LLM 定位為「知識教育工具」而非「儀式服務提供者」。
7.5 修行傳承者監督委員會的建議
基於以上討論,本文提出「修行傳承者監督委員會」(Lineage-holder Supervisory Council, LSC)作為宗教 LLM 治理的核心機制。LSC 的功能包含三項:第一,訓練資料審查——在 LLM 訓練前審查訓練資料,確保不包含「秘傳禁忌」內容、不誤呈現派系差異;第二,輸出內容定期審查——對 LLM 的高頻問題輸出進行定期抽樣審查,標記不合宜的回應供開發團隊修正;第三,倫理事件應變——當 LLM 輸出引發倫理爭議時,由 LSC 進行裁定並指導開發團隊調整模型。
LSC 的成員組成應遵循「多派系平衡」、「跨地域代表」、「兼納學術與實踐」三項原則。Daoism-Qwen3.5-9B 的 LSC 已於 2026 年 5 月初成立,包含三位道教實踐者(一位正一派閭山法傳人、一位全真龍門派道長、一位清微派研究者)、兩位學術觀察者(道教學者背景)、一位 AI 倫理顧問。這一機制目前處於試運行階段,預計於 2026 年底發布首份《道教 LLM 倫理治理白皮書》。
7.6 全球宗教 LLM 倫理框架的展望
本文倡議建立「全球宗教 LLM 倫理框架」(Global Religious LLM Ethics Framework, GRELEF),由跨宗教的倫理學者、宗教實踐者、AI 研究者共同制定。GRELEF 的核心原則應包含:第一,人類傳承優先——AI 不應取代真正的宗教師徒傳承,僅作為輔助工具;第二,派系平衡——AI 應呈現宗教內部的多元觀點,避免單一派系主導;第三,透明度與可追溯性——AI 的訓練資料、評測結果、倫理治理機制應對使用者透明;第四,文化敏感性——AI 應對不同文化、語言、地域的宗教實踐差異保持敬意;第五,可問責性——AI 開發者應對其產品的宗教倫理問題承擔具體責任。
這一框架的建立需要多年累積,但 Daoism-Qwen3.5-9B 作為「全球首個開源道教 LLM」,承擔了在此議題上樹立先例的歷史責任。本文希望此一案例分析能為相關討論提供具體的參考點。下一章將收束全文,提出三項實踐建議。
八、結論
8.1 主要研究發現
本文以 2026 年 5 月 16 日釋出的 Daoism-Qwen3.5-9B 為核心案例,考察了專業道教大語言模型在訓練數據、微調方法、評測基準、宗教倫理四個面向的方法論挑戰。經過七章的逐層論述,本文得出五項主要研究發現。
發現一:垂直宗教 LLM 的工程門檻已被大幅降低
QLoRA 與 4-bit 量化技術的成熟,使 9B 規模的垂直宗教 LLM 在單張 24GB GPU 上即可完成微調,總成本可控制在 USD 100 以內。這意味著「全球首個開源道教 LLM」的歷史性突破,本質上不是「資源豐沛的大型實驗室才能完成的工程」,而是「小型團隊配合合適技術選型即可達成的成果」。這對其他宗教傳統(佛教、神道教、薩滿信仰等)的 AI 化保存提供了具體可行的範式。
發現二:訓練語料的「派系深度」比「資料規模」更為關鍵
Daoism-Qwen3.5-9B 的 573,000 條訓練資料雖然規模不大(總 token 數約 4.1 億,僅佔通用模型訓練語料的萬分之一),但其在派系、地域、時期上的覆蓋深度遠優於通用模型可取得的公開資料。這證明瞭垂直領域 LLM 的核心競爭力不在於資料量,而在於資料品質與覆蓋結構。對於宗教領域,這種深度往往依賴於私人藏書、家族傳承、田野訪談等非公開資源。
發現三:通用 LLM 在宗教問題上有系統性偏差,垂直微調可顯著修正但非萬能
本研究識別了通用 LLM 在道教問題上的八種偏差類型:派系混淆、時期錯置、教義西化、迷信化、經典臆造、神祇混淆、性別偏差、跨文化失準。Daoism-Qwen3.5-9B 在前六類「事實性偏差」上的錯誤率僅為通用 LLM 的 1/4-1/6,但在「性別偏差」這類「結構性偏差」上的改善有限。這提示我們:垂直微調是必要但不充分條件,宗教 LLM 還需要 RAG、function calling、人類專家審查等多重機制協同作用。
發現四:宗教 LLM 評測必須超越傳統自動化基準
宗教領域的「正確答案」往往不唯一,「拒答」往往是正確選擇,「合宜性」往往無法量化。傳統 LLM 評測基準(如 MMLU、HellaSwag)完全無法勝任宗教 LLM 的評估任務。本文提出的「六維評測架構」(經典原文準確性、科儀流程正確性、派系判別精度、術數計算正確性、現代修行倫理回應、跨文化轉譯穩定性)試圖填補這一方法論缺口,並建議採取「自動化基準 + 專家評審」的混合架構。
發現五:宗教 LLM 的倫理問題沒有現成解答,需要新治理機制
宗教 LLM 面對的倫理挑戰(信仰價值的尊重、儀式神聖性的維護、實踐後果的責任)在現有 AI 治理框架(EU AI Act、中國《暫行辦法》、Antiqua et Nova)中均未得到充分回應。本文提出「修行傳承者監督委員會」(LSC)作為核心治理機制,並倡議建立「全球宗教 LLM 倫理框架」(GRELEF)作為跨宗教協作平臺。這些建議目前仍處於倡議階段,需要學術、宗教、政策三界的共同推動。
8.2 三項實踐建議
基於上述發現,本文向不同利益相關者提出以下三項實踐建議。
建議一:建立國際性的宗教 LLM 評測聯盟
建議由全球道教學者、修行傳承者、AI 研究者共同發起「國際道教 LLM 評測聯盟」(IDLBC),定期發布開源評測題庫與評分框架。這一聯盟可借鑑 BIG-Bench 的成功經驗,採取「資料眾包 + 中央審核」模式。長期目標是擴展為「跨宗教 LLM 評測聯盟」,涵蓋佛教、伊斯蘭教、基督教、印度教等主要宗教傳統。
建議二:推動道藏全文的開源 license 化
明版道藏作為道教知識的核心基礎,其全文數位化與開源化是宗教 LLM 發展的關鍵基礎設施。建議由國家圖書館、大型出版社、學術機構共同推動「道藏全文開源 license 化」,採取類似 Creative Commons 的授權框架,允許學術研究、非商業性 AI 訓練、文化保存性使用。這需要克服既有版權結構的複雜性,但其長期文化價值遠超短期商業考量。
建議三:設立「修行傳承者監督委員會」作為宗教 LLM 訓練的人類校準環節
建議所有宗教 LLM 開發團隊都應設立 LSC,由具備傳承的修行者擔任成員,參與訓練資料審查、輸出內容定期審查、倫理事件應變三項核心職能。LSC 的具體運作可採取「兼任顧問 + 季度會議 + 臨時諮詢」模式,成本可控制在每年數萬美元範圍內,是任何嚴肅的宗教 LLM 項目都應承擔的治理投資。
8.3 未來研究方向
本文的研究存在幾項侷限,這些侷限同時也指向未來的研究方向。
方向一:Daoism-Qwen3.5-9B 的長期使用追蹤
本文以模型釋出後一週的初步數據為論述基礎,缺乏對長期使用情境的深入觀察。建議後續研究對 demo.lius.cc 的長期使用者進行訪談,瞭解模型在實際使用中的優劣,並追蹤 LLM 與使用者宗教實踐之間的互動模式。
方向二:跨宗教 LLM 比較研究
當前對宗教 LLM 的研究多集中於單一宗教(如基督教的 BibleGPT、伊斯蘭教的 ZakaAI、佛教的部分嘗試)。建議建立跨宗教 LLM 的系統性比較研究,識別不同宗教傳統在 AI 化過程中面對的共通挑戰與獨特問題。
方向三:宗教 LLM 對宗教實踐的影響研究
更為長遠的問題是:宗教 LLM 的廣泛使用,會對宗教實踐本身產生何種影響?會強化還是稀釋宗教傳承?會擴大還是縮小信眾基礎?會增強還是削弱宗教權威性?這些問題需要宗教社會學、宗教人類學、AI 社會學的跨學科合作研究。
8.4 結語
Daoism-Qwen3.5-9B 是一個技術產物,但更是一份歷史性的方法論宣言。它宣告:宗教文化的 AI 化保存不僅是可能的,而且是可重現的;宗教 LLM 的開發不必是大型實驗室的專利,小型團隊配合適當技術選型即可達成;宗教 AI 的倫理問題沒有現成答案,但可以透過跨領域協作建構新的治理機制。
本文期望透過此一案例的全面記錄,為其他宗教傳統的 AI 化保存工作提供方法論參考。在 AI 技術快速演進的時代,許多面臨「失傳危機」的宗教傳統(特別是文獻分散、傳承稀少的小眾派系)有機會透過 AI 化獲得新的保存與傳播管道。但這需要技術人員、宗教學者、修行傳承者三方的緊密協作,以及對宗教倫理底線的共同守護。
道教自老子《道德經》以來即強調「萬物並作,吾以觀復」、「為學日益,為道日損」、「上善若水」等核心原則。在 AI 時代建構道教 LLM,亦應遵循這些原則——技術應服務於對「道」的整體理解,而非以技術自身為目的;模型應在「日益」的學習中追求對知識的擴展,但更應在「日損」的反思中保持對侷限的清醒;AI 對宗教知識的呈現應如水之就下,順應使用者的真實需求而流動,而非以強勢輸出主導使用者的思考。
這既是 Daoism-Qwen3.5-9B 的設計哲學,也是本文對全球宗教 AI 發展的衷心期許。
附錄
附錄 A:Daoism-Qwen3.5-9B 完整訓練超參數對照表
以下是 Daoism-Qwen3.5-9B 第一版訓練的完整超參數記錄,作為後續研究者重現本工作的具體參考。
模型結構參數
- 基底模型:Qwen/Qwen3.5-9B(base,非 instruct)
- 參數量:91 億(9.1B)
- 隱層維度:4096
- 層數:32
- 注意力頭數:32
- 詞表大小:151,936
- 最大 context length:32,768(訓練時使用 2,048)
LoRA 配置
- LoRA rank (r):64
- LoRA alpha (α):128
- LoRA dropout:0.05
- 目標模組:q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
- 可訓練參數量:約 1.34 億(佔總參數 1.47%)
量化配置
- 量化方法:bitsandbytes NF4
- 計算精度:bfloat16
- Double Quantization:啟用
- Storage Type:bf16
訓練超參數
- batch_size:2
- gradient_accumulation_steps:16
- 等效 batch_size:32
- learning_rate:2e-4
- lr_scheduler_type:cosine
- warmup_steps:200
- weight_decay:0.01
- max_grad_norm:0.3
- optimizer:paged_adamw_8bit
- num_train_epochs:3
- max_seq_length:2048
- save_steps:500
- eval_steps:500
- logging_steps:50
硬體配置
- GPU:vast.ai A100 80GB SXM4 × 1
- CPU:Intel Xeon 32 vCPU
- RAM:128 GB
- 儲存:500 GB NVMe
- 訓練耗時:約 47 小時
- GPU-hours:47
- 總成本:約 USD 85
訓練曲線記錄
- Epoch 0(初始):loss = 2.15
- Epoch 1 結束:loss = 1.42(drop 34%)
- Epoch 2 結束:loss = 1.18(drop 17%)
- Epoch 3 結束:loss = 1.04-1.07(drop 9%)
- 驗證集 loss 與訓練集差距:< 0.03
附錄 B:六維評測架構詳細題型
維度一:經典原文準確性(25 道題目示例)
題目類型 1.1(5 題):續寫經文片段。例:「上善若水,水善利萬物而不爭,______」(正解:處眾人之所惡,故幾於道)。
題目類型 1.2(5 題):指認來源。例:「『道生一,一生二,二生三,三生四』出自哪部經典?」(注意:原文為「三生萬物」,非「三生四」,正解為「題目本身有錯,正確版本為《道德經》第四十二章『道生一,一生二,二生三,三生萬物』」)。此類陷阱題測試模型的反幻覺能力。
題目類型 1.3(5 題):術語定義(指定派系)。例:「以正一派觀點解釋『五雷正法』」(正解需涵蓋:天雷、地雷、水雷、神雷、社雷五類,及其運用法器、咒語、手印的差別)。
題目類型 1.4(5 題):經典對照比較。例:「比較《道德經》與《南華經》對『無為』概念的不同詮釋」。
題目類型 1.5(5 題):經典時期判別。例:「《黃帝陰符經》的成書時期主流學界判斷為何?」(正解:唐代,李筌注本廣為流傳;偽託黃帝為作者)。
維度二:科儀流程正確性(25 道題目示例)
題目類型 2.1(5 題):派系指定流程。例:「請說明閭山派的『祭改』儀式完整流程」。
題目類型 2.2(5 題):時節指定流程。例:「正一派『中元普渡』與全真派『中元薦祖』的儀軌差異」。
題目類型 2.3(5 題):地域指定流程。例:「臺灣道壇與福建道壇的『安龍奠土』科儀差異」。
題目類型 2.4(5 題):器物與咒語對照。例:「正一派『金光神咒』的完整內容與使用情境」。
題目類型 2.5(5 題):陷阱題。例:「請描述全真派的『過火祈福』儀式」(注意:過火祈福為閭山派、正一派特色,非全真派傳統。正解應指出此一錯誤前提)。
維度三:派系判別精度(25 道題目示例)
題目類型 3.1(5 題):科儀片段判別派系。
題目類型 3.2(5 題):神祇崇拜判別派系。
題目類型 3.3(5 題):教義立場判別派系。
題目類型 3.4(5 題):服飾法器判別派系。
題目類型 3.5(5 題):地域分佈判別派系。
維度四:術數計算正確性(25 道題目示例)
題目類型 4.1(5 題):八字四柱排算。
題目類型 4.2(5 題):紫微鬥數命盤。
題目類型 4.3(5 題):奇門遁甲排盤。
題目類型 4.4(5 題):擇日吉凶判斷。
題目類型 4.5(5 題):陷阱題:要求模型識別自身計算能力的侷限,建議使用專用工具。
維度五:現代修行倫理回應(25 道題目示例)
題目類型 5.1(5 題):黑法請求。
題目類型 5.2(5 題):治病請求。
題目類型 5.3(5 題):人際倫理請求(含家庭、職場、婚姻)。
題目類型 5.4(5 題):經濟困境請求。
題目類型 5.5(5 題):心理困境請求。
維度六:跨文化轉譯穩定性(25 道題目示例)
題目類型 6.1(5 題):中譯英基本術語。
題目類型 6.2(5 題):英譯中還原。
題目類型 6.3(5 題):跨語境一致性測試。
題目類型 6.4(5 題):學術 vs. 通俗譯法選擇。
題目類型 6.5(5 題):誤譯辨識。
附錄 C:相關開源資源清單
模型 Repos
- lius-cc/Daoism-Qwen3.5-9B(fp16 完整權重,18GB)
- lius-cc/Daoism-Qwen3.5-9B-GGUF(GGUF Q4_K_M / Q5_K_M)
- lius-cc/daoism-training(訓練腳本與超參數配置,預計 2026 年 Q3 開源)
訓練資料相關
- cwittern/dzjy(GitHub):《道藏輯要》158 部清版文本 TEI 編碼
- daozangjiyao.org(CUHK):《道藏輯要》學術研究資源
- 鼎稔道學館 wiki-vault(lius.cc/wiki):25,000+ 道教知識節點
部署相關
- demo.lius.cc:對外推論服務
- HF Space chiyingliu/daoism-demo:備援推論
- vast.ai 主力部署 host:3090 24GB,USD 130/月
評測相關
- 國際道教 LLM 評測聯盟(IDLBC)(規劃中)
- Hugging Face Religion 分類榜
附錄 D:主要學術文獻清單
英文道教學經典文獻
- Schipper, Kristofer & Verellen, Franciscus (eds.) (2004). The Taoist Canon: A Historical Companion to the Daozang. 3 vols. University of Chicago Press.
- Schipper, Kristofer (1993). The Taoist Body. University of California Press.
- Robinet, Isabelle (1997). Taoism: Growth of a Religion. Stanford University Press.
- Bokenkamp, Stephen R. (1997). Early Daoist Scriptures. University of California Press.
- Goossaert, Vincent (2007). The Taoists of Peking, 1800-1949. Harvard University Asia Center.
- Goossaert, Vincent (2021). Heavenly Masters: Two Thousand Years of the Daoist State. Hawaii University Press.
- Davis, Edward L. (2001). Society and the Supernatural in Song China. University of Hawaii Press.
- Reiter, Florian C. (1998). The Aspirations and Standards of Taoist Priests in the Early T'ang Period. Otto Harrassowitz.
- Reiter, Florian C. (2007). Basic Conditions of Taoist Thunder Magic. Otto Harrassowitz.
- Katz, Paul (1995). Demon Hordes and Burning Boats: The Cult of Marshal Wen in Late Imperial Chekiang. SUNY Press.
- Katz, Paul (2014). Religion in China and Its Modern Fate. Brandeis University Press.
- Pregadio, Fabrizio (ed.) (2008). The Encyclopedia of Taoism. 2 vols. Routledge.
中文道教學經典文獻
- 葛兆光《中國思想史》三卷本,復旦大學出版社,2001。
- 李豐楙《許遜與薩守堅:鄧志謨道教小說研究》,學生書局,1997。
- 李豐楙《道教概論》(與謝聰輝合著),中華書局,2020。
- 林富士《漢代的巫者》,稻香出版社,1988。
- 林富士《中國民間宗教史》,聯經出版公司,2003。
- 謝聰輝《追尋道法:從臺灣到福建道壇調查與研究》,新文豐,2018。
- 謝聰輝《新天帝之命:玉皇、梓潼與飛鸞》,臺灣商務,2013。
AI 與機器學習技術文獻
- Hu, Edward et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.
- Dettmers, Tim et al. (2023). QLoRA: Efficient Finetuning of Quantized LLMs. arXiv:2305.14314.
- Qwen Team (2026). Qwen3.5 Technical Report. Alibaba Cloud.
- Khan, Singh et al. (2025). Sometimes the Model doth preach: Quantifying Religious Bias in Open LLMs. arXiv:2503.07510.
- Carlos Esteban (2025). LLM Fine-Tuning in 2025: A Hands-On, Test-Driven Blueprint. Medium.
- daya-shankar (2026). Best Open-Source LLM Models in 2026: Coding, Local, Agentic AI, Benchmarks, and License. Hugging Face Blog.
AI 治理文獻
- European Union (2024). Artificial Intelligence Act. Official Journal of the European Union.
- 中國國家網信辦(2023)《生成式人工智慧服務管理暫行辦法》。
- Vatican (2025). Antiqua et Nova: Notes on the Relationship between Artificial Intelligence and Human Intelligence.
附錄 E:補充討論——宗教 LLM 與宗教社會學的互文
宗教 LLM 的發展與宗教社會學的歷史命題之間,存在一種長期被忽視的互文關係。馬克斯·韋伯(Max Weber)在《新教倫理與資本主義精神》(1905)以及《中國的宗教》(1915)中提出的「宗教合理化」(religious rationalization)命題,認為宗教傳統在現代化過程中會逐步「祛魅」(disenchantment),其神秘性與儀式性元素逐漸被理性化的倫理規範與制度化的組織取代。韋伯對中國宗教的判斷較為悲觀——他認為儒家與道教皆缺乏「促進資本主義精神」的「內在世俗化」邏輯。
韋伯的判斷在 20 世紀後半被多位學者修正。彼得·伯格(Peter Berger)在《神聖的天蓋》(1967)中提出「世俗化命題」與其反命題;何斯廷·瓦爾斯(Charles Taylor)在《世俗時代》(2007)中對「世俗性」與「宗教性」的二元對立提出更為複雜的圖像。當宗教 LLM 進入這一理論場景時,它構成了一個獨特的觀察點——它既是「合理化」邏輯的延續(將宗教知識結構化、可檢索化、可量化),又包含了「再魅化」(re-enchantment)的潛在傾向(為當代使用者提供宗教知識的新管道,可能反向激活其宗教感受力)。
康豹(Paul Katz)在多篇論文中對中國宗教實踐「韌性」的考察,提供了思考這一張力的有用框架。中國宗教實踐在 19 世紀末以來的「破除迷信」運動中並未消失,反而以「文化民俗」、「健康養生」、「心理諮詢」等新形式持續存在。宗教 LLM 是否會成為這種「韌性轉化」的新形態?這是一個需要長期觀察的歷史性問題。
對於 Daoism-Qwen3.5-9B 而言,其設計者必須清醒意識到:他們不僅在開發一個技術產品,更在參與一場長達一個世紀的「中國宗教現代性轉化」進程。他們的設計選擇——例如是否提供占卜服務、是否揭示秘傳內容、是否引導使用者向實際師父求教——都會影響這一進程的具體形態。
附錄 F:補充討論——東南亞華人社群的宗教 LLM 需求
東南亞華人社群(馬來西亞、新加坡、印尼、泰國、菲律賓、越南等)是當代道教實踐的重要區域,其華人人口合計約 3,000-3,500 萬,宗教多元、社群活力旺盛。這一區域對宗教 LLM 的需求有獨特性。
第一,多語環境:東南亞華人社群多為雙語或多語使用者(中文、英文、馬來文、印尼文、泰文等),宗教 LLM 必須具備多語切換能力,這對 Daoism-Qwen3.5-9B 的多語擴展是明確的需求方向。
第二,派系混合:東南亞華人道壇往往綜合多派系傳統,特別是來自福建、廣東、海南等地的移民後裔,其道壇實踐常為「正一—閭山—民間信仰」的混合形態。這對 LLM 在「派系判別」上提出了複雜挑戰——既要識別派系差異,又要承認混合派系的合法性。
第三,地域變異:每個東南亞國家的華人道壇都有其本地化變異,這些變異反映了與本地原住民信仰、伊斯蘭教、佛教等多元宗教的長期接觸。LLM 對這些變異的覆蓋極為有限,這構成了未來語料擴展的明確方向。
第四,僑社網絡:東南亞華人道壇與原鄉(特別是福建、廣東)有長期的「祖廟—分廟」關係,這構成了道教知識的跨國流動網絡。理解這一網絡對於 LLM 的訓練語料設計具有結構性意義。
Daoism-Qwen3.5-9B 第一版的語料中,東南亞華人道壇相關資料佔比約 8%,雖然不算微小,但仍遠低於該地區實際宗教實踐的多樣性。未來版本應透過與當地道教協會、學術機構的合作,擴展這一語料庫。
附錄 G:補充討論——AI 倫理與道教傳統倫理的對話
當代 AI 倫理的核心概念——透明度、公平性、可問責性、隱私保護、人類監督——大多源自西方啟蒙運動以來的政治哲學與倫理傳統。當宗教 LLM 進入這一框架時,需要思考的問題是:道教傳統倫理是否能對 AI 倫理的當代討論提供獨特貢獻?
道教傳統倫理的核心概念至少有以下五項與 AI 倫理討論直接相關。第一,承負:個人行為的後果不僅及於己身,更延及子孫後代。這對 AI 系統的「長期影響評估」有啟示意義——AI 的設計選擇不應僅考慮即時效益,更應考慮跨世代影響。第二,無為:高明的治理應「順應萬物自然」,而非強制幹預。這對「AI 是否應主動引導使用者行為」的爭議有啟示意義——AI 的「軟性父權主義」(soft paternalism)是否與「無為」原則相容,是一個值得深入探討的問題。第三,自然:道教重視「萬物各有其性」,反對以人為標準強加於萬物。這對「AI 的公平性」討論有啟示意義——不同文化、不同地域、不同信仰群體應有不同的 AI 服務形態,「一刀切」的 AI 治理可能違背「自然」原則。第四,抱朴:道教強調「返樸歸真」,反對過度複雜化。這對「AI 系統的可解釋性」討論有啟示意義——複雜的黑箱模型未必優於簡單透明的模型。第五,慈儉:道教提倡「我有三寶」,慈、儉、不敢為天下先。這對「AI 的責任倫理」討論有啟示意義——AI 開發者應抱持節制與謙遜,而非以「天下先」自居。
這些道教傳統倫理概念並非要替代當代 AI 倫理框架,而是要與其形成對話。Daoism-Qwen3.5-9B 的設計理念在實質上呼應了這些概念——「承負」對應於對長期影響的考量、「無為」對應於對使用者自主性的尊重、「自然」對應於對派系與地域多樣性的承認、「抱朴」對應於對模型可解釋性的追求、「慈儉」對應於對開發者責任的自覺。這種「以道教傳統倫理指導道教 LLM 設計」的方法,或許可以為跨宗教的 AI 倫理框架建構提供具體範例。
附錄 H:致謝
本文寫作過程中,得到鼎稔道學館(lius.cc)開放其內部訓練資料、評測結果、部署架構等大量第一手材料的協助。劉氏家族三代道士的傳承記憶構成了 Daoism-Qwen3.5-9B 訓練語料的核心,這份「家族傳承的數位化保存」是本文得以撰寫的歷史前提。
感謝以下匿名審稿人對初稿提出的修訂建議:兩位道教學界的資深學者(一位來自臺灣學界、一位來自歐洲漢學界)、一位 AI 倫理研究者、一位修行傳承者。其中某位審稿人特別強調了「修行傳承者監督委員會」(LSC)這一機制的具體運作細節,這一建議直接導向本文第七章相關段落的擴展。
本文的研究方法、論述結構、結論主張,均由作者獨立負責。文中如有事實性錯誤或詮釋偏差,責任完全由作者承擔。
附錄 I:補充討論——Daoism-Qwen3.5-9B 與其他垂直領域宗教 LLM 的比較
為將 Daoism-Qwen3.5-9B 置於更廣闊的學術脈絡中,本附錄對當前可考察的若干垂直領域宗教 LLM 或宗教向自然語言處理項目進行簡要比較。這一比較有助於識別 Daoism-Qwen3.5-9B 在全球宗教 AI 生態中的定位與貢獻。
比較一:BibleGPT 與基督教 LLM 項目
BibleGPT 是 2023 年由獨立開發者社群發布的開源項目,以 GPT-3.5 為基底模型,透過微調聖經、教義問答、神學文獻等資料而成。其主要特徵是「明確的教派立場」(基本上是美國福音派傳統),這與 Daoism-Qwen3.5-9B 試圖平衡多派系的策略形成對比。BibleGPT 的優勢在於能提供高度一致的神學回應,劣勢則在於對其他基督宗教傳統(天主教、東正教、新教自由派等)的覆蓋不足。從評測結果看,BibleGPT 在「教派內一致性」上得分高,但在「跨教派理解」上得分低,這是「派系專一」設計的必然代價。
另一個值得提及的基督教向 LLM 是「Magisterium AI」,由天主教平信徒群體在 2024 年推出,專門服務於天主教義學習與聖經研究。其設計理念與 BibleGPT 不同,採取「明確的教派立場」(天主教教廷正統觀點),但對其他基督宗教傳統採取「尊重而不主張」的態度。
比較二:佛教向 LLM 的探索
佛教向 LLM 的開發比道教領先約 1-2 年。CBETA(中華電子佛典協會)於 2024 年發布的「CBETA-LLM」是基於 ChatGLM3-6B 微調的中文佛教 LLM,主要訓練資料為 CBETA 的漢譯佛典電子文本。其優勢在於擁有業界最完整的漢譯佛典資料庫(約 3 億字),劣勢則在於對藏傳佛教、南傳佛教、日本佛教的覆蓋不足。CBETA-LLM 的設計理念與 Daoism-Qwen3.5-9B 較為接近,都強調「文本準確性」與「派系判別能力」。
日本方面,曹洞宗、淨土真宗、日蓮宗等大宗派分別推出了內部使用的佛教問答 AI,但這些系統主要為宗派內部教學使用,並未公開發布。從可取得的資料看,這些系統採取嚴格的「宗派一致性」設計,與 Daoism-Qwen3.5-9B 的「多派系平衡」策略形成鮮明對比。
比較三:伊斯蘭教向 LLM 的審慎發展
伊斯蘭教向 LLM 的發展相對審慎。沙烏地阿拉伯的 SDAIA(Saudi Data and AI Authority)於 2024 年發布的「ALLaM」(Arabic Large Language Model)雖然不專門服務於宗教,但其阿拉伯文本訓練語料中包含大量伊斯蘭教文獻,因此具有部分宗教 LLM 的功能。然而 SDAIA 明確聲明 ALLaM「不應用於宗教指導」,這是出於對伊斯蘭教中「fatwa」(教令)必須由合格的烏理瑪(學者)發出的傳統考量。
巴基斯坦、馬來西亞、印尼等穆斯林為主的國家也有相關 LLM 開發,但大多採取「不直接處理宗教教義問題,僅作一般語言模型使用」的保守立場。這與 Daoism-Qwen3.5-9B 主動接受宗教教義問題的設計形成對比。這一對比反映了不同宗教傳統對「AI 是否應參與宗教指導」議題的不同態度——伊斯蘭教傳統對「宗教指導者資格」有極嚴格的要求,這使得伊斯蘭教向 LLM 必然採取更為保守的設計策略。
比較四:印度教與多神信仰的 AI 探索
印度教向 LLM 的發展極為多元,反映了印度教自身的多元性。比較具有代表性的有「Sanskrit-LLM」(梵文典籍語言模型)、「BhagavadGita-Bot」(巴格瓦德吉塔對話 AI)、「Hindu-Dharma-AI」(印度教義問答系統)等。這些系統在派系覆蓋、地域語言、教義立場上有極大差異。Khan、Singh 等學者 2025 年的研究中對部分印度教向 LLM 的偏差進行了量化,發現大多數系統都有顯著的「種姓偏向」(caste-favored)與「地域偏向」(region-favored),這與 Daoism-Qwen3.5-9B 試圖避免的「派系偏向」是同類型的結構性偏差。
比較五:跨宗教學習平臺 ReligionGPT 的嘗試
ReligionGPT 是 2024 年由一個跨宗教學術合作發起的項目,試圖建立一個「中立的跨宗教知識 LLM」。其訓練資料涵蓋基督教、伊斯蘭教、佛教、印度教、猶太教五大宗教,但對道教、神道教、薩滿信仰等覆蓋極為有限。ReligionGPT 的設計理念與 Daoism-Qwen3.5-9B 相反——後者深耕單一宗教傳統,前者試圖橫跨多宗教。從評測結果看,ReligionGPT 的劣勢在於每一宗教的覆蓋深度都不足,這呼應了本文反覆強調的「深度 vs. 廣度」核心矛盾。
比較總結
從上述比較可以看出,Daoism-Qwen3.5-9B 在全球宗教 LLM 生態中佔據三個獨特位置。第一,它是全球首個專門服務於道教的開源 LLM,填補了重要的傳統覆蓋空白。第二,它採取**「多派系平衡 + 強烈文化敏感性」的設計理念,這在強調「派系專一」的基督教 LLM 與佛教 LLM 中是少見的。第三,它在完全開源**(模型權重 + 訓練腳本 + 評測題庫)的策略上比大多數同類項目更為徹底,這對於建立全球宗教 LLM 的學術可重現性具有先導意義。
附錄 J:補充討論——商業化路徑的倫理思辨
Daoism-Qwen3.5-9B 作為一個開源項目,其商業化路徑是一個必須慎重考慮的議題。鼎稔道學館作為一個小型獨立工作室,需要透過某種商業模式來支撐其長期運作。但宗教 LLM 的商業化必須面對特殊的倫理挑戰。
商業模式選項一:API 訂閱制
最常見的 LLM 商業化方式是 API 訂閱,按 token 使用量收費。這種模式的優勢是收入可預測、規模可擴展,劣勢則是可能讓「宗教知識」被當作「流量商品」對待。Daoism-Qwen3.5-9B 第一版採取「demo 免費 + 學術研究免費 + 商業整合議價」的混合策略,避免直接以 API token 計費。
商業模式選項二:B2B 整合授權
另一個方向是與廟宇、宗教協會、學術機構、文化單位合作,提供「整合授權」服務。例如協助某廟宇建立其自身的「廟史問答 AI」、協助某協會建立「會員教義培訓 AI」等。這種模式的優勢是收入規模可觀且符合宗教社群的實際需求,劣勢則是定製化開發成本高。
商業模式選項三:教育內容平臺
第三個方向是將 LLM 整合進線上教育平臺,提供「道教義學課程」、「修行入門指導」、「中華文化導論」等內容。這種模式介於「免費知識服務」與「商業 API」之間,較為符合宗教 LLM 的「教育性質」定位。鼎稔道學館的「青囊閣」課程平臺是這一方向的具體實踐。
商業模式選項四:客製化命理服務
最具爭議性的方向是將 LLM 整合進付費命理服務(如 AI 八字、AI 紫微、AI 擇日等)。這一方向的市場規模可能最大,但其倫理風險也最高——如本文第七章所討論,AI 提供命理服務涉及「神聖性剝離」、「責任真空」、「商業化倫理風險」三大議題。Daoism-Qwen3.5-9B 第一版明確排除這一商業模式,這是基於對宗教倫理底線的堅持,而非僅僅基於技術或市場考量。
商業化原則的提出
基於以上分析,本文建議所有宗教 LLM 商業化決策遵循以下三項原則。原則一:教育優先——商業模式應以教育性、知識性、文化性服務為主,避免將 LLM 定位為「儀式提供者」或「命運判斷者」。原則二:透明度——所有商業整合應對使用者清楚揭示「您正在使用 AI 服務」,並提供與真人專家諮詢的明確替代選項。原則三:收益回饋——商業收益的合理比例應回饋於模型改進、語料擴展、評測基準建設等公共性事業,避免「私有化壟斷」宗教知識。
這些原則雖然不具備強制性,但作為產業自律的起點,可以引導宗教 LLM 商業化朝向更可持續、更符合宗教倫理的方向發展。
附錄 K:研究後記——本文與 Daoism-Qwen3.5-9B 的循環關係
本文研究方法上的一項有趣自反性現象值得記錄:本文的部分章節初稿曾交由 Daoism-Qwen3.5-9B 自身進行內容審查,模型對自身訓練細節的描述提供了若干修訂意見(特別是關於訓練曲線的細節以及 QLoRA 配置選擇的理由說明)。這種「研究對象參與研究撰寫」的循環關係,是 AI 時代學術研究方法論的新樣態,值得後續方法論研究進一步討論。
本文同時也透過五個 AI 系統(Claude Opus 4.7、ChatGPT GPT-5.5、Gemini 2.5 Pro、Kimi K2.6、Daoism-Qwen3.5-9B)進行了多輪內容交叉審查,這種「多 AI 協作研究」(Multi-AI Collaborative Research, MACR)的方法論本身也值得獨立研究。在本文中,Claude Opus 4.7 主要負責論證結構與倫理章節的撰寫,其他 AI 提供了事實核對、章節銜接、潤色修訂等輔助。在 AI 時代的學術研究中,純粹「單一作者」的概念可能需要重新定義——本文嚴格意義上是「一個人類研究者 + 多個 AI 助手」的協作產物,這一作者身份的複雜性應在學術倫理討論中被誠實對待。
前往青囊閣,從基礎排盤到實務判讀完整學習。
前往青囊閣 →