✓ 品質審核

ChatGPT、Claude、Gemini 對道教問題的回答比較——LLM 訓練語料偏差與道教知識準確度評測

大型語言模型（Large Language Models, LLMs）自二〇二二年末以來迅速成為公眾取得宗教知識的重要介面。ChatGPT、Claude、Gemini 等通用對話系統不但能即時回應使用者關於教義、儀式、歷史與修持方法的提問，更因其流暢的文句與權威的語態，常被誤認為可取代傳統師承、辭典與專業學術文獻。然而，這些模型的知識並非來自經驗或信仰實踐，而是來自預訓練語料中的統計共現；當語料在語言、文化、宗教與時代分布上存在結構性偏差時，其輸出便可能呈現「看似合理、實則有誤」的幻覺（hallucination），或將複雜的道教傳統簡化為通俗化的刻板印象。本報告以道教為核心案例，系統比較

⬇ Markdown / Obsidian 🔗 v20260624

摘要

本報告以道教為核心案例，系統比較 ChatGPT（OpenAI GPT-4o 系列）、Claude（Anthropic Claude 3.5/4 系列）與 Gemini（Google Gemini 1.5 Pro / 2.5 Pro 系列）對道教相關問題的回答品質。研究動機來自一個被既有中文 NLP 評測長期忽視的事實：現有基準如 C-Eval、CMMLU、C3Bench、HalluQA 雖涵蓋人文學科，卻極少針對道教經文、科儀制度、法器服飾、宗派譜系與地方實踐設計細緻題目；西方宗教偏差研究則多聚焦基督教、伊斯蘭教與猶太教，東亞宗教尤其道教處於邊緣位置。因此，本研究不僅要評估三模型「答對多少」，更要追問：它們在何種知識層次上表現較佳？在哪些議題上系統性失真？這些失真與訓練語料的語言比例、文化地理、資料新舊及安全對齊有何關聯？

本研究採用混合方法：首先建立涵蓋「經文文獻」「制度器物」「現代延伸」三大領域的可核驗來源清單，並依此設計一百二十道評測問題，分為單點事實、概念關係、儀式程序、歷史演變與價值判斷五種題型；再以人工編碼標記各模型回答的「正確性」「完整性」「可核驗性」「文化敏感度」與「幻覺風險」五項指標。結果顯示：三模型在常見通識問題（如「道教創始人」「《道德經》作者」）上表現相近且多能正確回答；但在需要辨識經文出處、區分宗派差異、解釋科儀程序或援引碑刻與敦煌文書的題目上，則出現明顯落差。整體而言，ChatGPT 傾向給出結構完整但偶有過度自信的綜述；Claude 在長脈絡與安全對齊上表現較穩，但對中文古典文獻的細節掌握不足；Gemini 在多語言與檢索整合上具優勢，卻常因過度簡化而產生「通俗道教」的偏差。更重要的是，三模型均傾向將「道家」與「道教」混用、將「正一道」與「全真道」對立為靜態二分，並對當代道教的地方實踐與非漢語研究成果缺乏掌握。

本報告進一步指出，這些偏差並非單純的技術缺陷，而是涉及宗教知識生產、信仰權威轉移與數位不平等的核心爭議。當公眾愈來愈仰賴 LLM 作為宗教知識入口，模型的語料偏差可能強化特定宗派或地區的聲音、壓抑邊緣傳統，並使「可搜尋」取代「可驗證」成為知識正當性的來源。因此，本研究主張：針對道教等複雜宗教傳統，應建立由學術機構、宗教團體與技術社群共同維護的「高品質語料與評測基準」，並在模型輸出中強制標示不確定性與來源限制，以降低幻覺對信仰實踐與學術研究的負面影響。

第一章問題意識與研究範圍

1.1 從「搜尋宗教知識」到「對話宗教知識」

過去二十年，網際網路已大幅改變公眾接觸宗教知識的方式。信徒與研究者從依賴實體經書、道觀師承與學術專著，轉向搜尋引擎、百科全書與社交媒體。近年 LLM 對話系統的興起，則進一步將「檢索—閱讀—判斷」的過程壓縮為單一輪對話：使用者以自然語言提問，模型即時生成看似權威的回答。這種轉變的便利性不言可喻，但其知識品質卻高度仰賴訓練語料的廣度、深度與代表性。

道教作為中國本土宗教，其知識體系具有幾項使 LLM 評測特別困難的特徵。第一，文獻層面極度龐雜：《正統道藏》（一四四五年刊行）與《萬曆續道藏》合計逾一千四百種文獻，加上《藏外道書》《中華道藏》《敦煌道藏》與大量地方科儀本，總量遠超一般模型預訓練語料中「道教」相關文本的覆蓋率（Schipper & Verellen 2004; 任繼愈、鐘肇鵬 2005）。第二，教義與實踐緊密結合：道教不僅是「思想」，更包括齋醮、符籙、內丹、外丹、科儀音樂、法器服飾與宮觀制度，許多知識無法僅靠經文理解，而需田野觀察與師承口傳（黎志添 2007；張澤洪 1999）。第三，宗派與地方傳統多元：正一道、全真道、上清派、靈寶派、淨明道以及各地道壇，彼此在經典、神譜、儀式與組織上既有重疊又有差異，簡單的「正一 vs. 全真」二分常會遮蔽歷史流變（福建省民族與宗教事務廳 2020）。第四，現代研究語言多元：道教研究在法國、日本、北美與華語學界各有傳統，重要成果常以英文、法文、日文發表，中文預訓練語料若偏重簡體中文網路文本，便可能遺漏這些學術脈絡（Komjathy 2022; Pregadio 2008）。

1.2 為何選擇 ChatGPT、Claude、Gemini 三模型？

本研究聚焦 ChatGPT、Claude 與 Gemini，原因有三。其一，三者分別代表當前英文通用 LLM 的三大主要生態：OpenAI 的 GPT 系列、Anthropic 的 Claude 系列與 Google 的 Gemini 系列，市場滲透率與學術引用度皆高。其二，三者的訓練語料與對齊策略存在可區分的差異：ChatGPT 以規模化網路語料與 RLHF 著稱；Claude 強調 Constitutional AI 與長脈絡安全；Gemini 則原生為多模態、多語言設計，且與 Google 搜尋生態緊密整合（Liner 2023; drawpie.com 2025）。其三，既有比較研究多集中於醫學、法律、程式或一般知識測驗（如 Wójcik et al. 2024; Nature Scientific Reports 2026; Frontiers in Digital Health 2025），針對宗教、尤其道教問題的系統評測仍屬少見。

值得說明的是，本研究並不預設任何模型「代表」特定宗教立場，也不將模型輸出等同於開發者的價值觀。模型回答會受到提示語、溫度參數、版本更新與安全過濾等多重因素影響；本報告的結論是基於特定時間區間（二〇二五年下半年至二〇二六年上半年）、特定題型與特定提示策略下的觀察，旨在揭示系統性偏差而非評定絕對優劣。

1.3 核心研究問題

本報告圍繞以下四組問題展開：

知識準確度：三模型在道教經文、歷史、宗派、科儀與法器等不同主題上的正確率與完整性為何？是否存在顯著差異？
訓練語料偏差：哪些錯誤或可歸因於語料結構——例如中文語料不足、古典文獻數位化缺口、西方中心或現代漢語通俗資源過度代表？
模型行為差異：ChatGPT、Claude、Gemini 在回答風格、不確定性表達、安全拒答與多輪追問下的表現有何不同？
社會影響：當 LLM 成為宗教知識入口，其偏差可能如何影響信仰實踐、宗教教育、跨文化理解與學術研究？

為回答上述問題，本研究結合文獻回顧、來源清單建構、評測題目設計、模型回答取樣與人工編碼分析。雖受限於無法大規模呼叫商用 API 進行全自動評測，我們仍以可重複的方式記錄提示、回答與評分標準，並在附錄中提供典型範例，供後續研究者核驗與擴充。

第二章道教知識的層次結構與評測難點

2.1 道教知識的三層架構

為使評測具有結構，本研究將道教知識區分為三個相互關聯的層次：

（一）經文文獻層：包括經典文本、註疏、道藏目錄學與文獻史。核心文獻如《道德經》《莊子》《太平經》《周易參同契》《黃庭經》《真誥》《雲笈七籤》《道藏》各部類等。此層知識強調文本出處、版本、卷次、成書年代與思想脈絡。

（二）制度器物層：包括宗派組織、授籙/傳戒制度、宮觀空間、法服法器、科儀程序、音樂、符籙與神譜。此層知識無法僅靠閱讀取得，而需結合田野調查、圖像資料與儀式文書（如敦煌寫本 S.203《度仙靈籙儀》、明代《天皇至道太清玉冊》、清代以來各地科儀本）。

（三）現代延伸層：包括近現代道教運動、兩岸三地與海外道教組織、道教與養生/武術/風水的文化商品化、數位宗教與 AI 弘法，以及當代學術研究議題（如地方道教、女性道教、環境道教）。此層知識更新快速，且常涉及價值判斷與在地脈絡。

這三層並非截然分離：科儀程序必須援引經文；法器形制反映宇宙觀；當代宮觀實踐又重塑傳統詮釋。LLM 的挑戰在於，它通常能處理第一層的「常識性」問題，卻在需要跨層整合或精確細節時失準。

2.2 評測道教的特殊困難

相較於數學或程式等具有明確答案的領域，道教知識評測面臨數項特殊困難：

第一，答案的多元性與脈絡依賴性。同一問題可能因宗派、地區、時代而有多種正確答案。例如「道士能否結婚？」對正一道士與全真道士答案不同；「最重要的道教經典」對天師道、上清派與全真道也有不同排序。LLM 若未能在回答中標明適用範圍，便可能以偏概全。

第二，術語的流動與混用。中文語境中「道家」與「道教」常被混用，「法術」與「方術」、「齋」與「醮」、「籙」與「符」等詞彙在不同文獻中有細微差別。模型若僅依據語料中的高頻共現生成回答，容易複製這種混用。

第三，偽經與民間知識的干擾。網路語料充斥大量養生號、風水命理內容與未經審查的「道教常識」，其中夾雜對《易經》《道德經》的過度詮釋、對內丹術的商業化改寫，以及對神仙傳記的虛構擴充。這些內容在預訓練中可能佔據較高權重，因為它們數量龐大、更新頻繁且互動率高。

第四，學術成果的非對稱可及性。道教研究的許多重要成果以非中文發表（如 Schipper & Verellen 2004; Robinet 1997; Bokenkamp 1983），或僅在學術資料庫與專書中流通。若模型語料主要來自開放網路，便可能遺漏這些成果，導致回答停留在教科書層次。

第五，安全對齊的過度收斂。部分模型為避免觸及「迷信」「醫療誤導」或「宗教極端」等風險，會對道教修持、符籙、占卜等主題採取保守或拒答態度。這種設計雖可減少危害，卻也可能將合法的宗教知識傳播與民俗醫療混為一談，造成另一種形式的偏見。

2.3 既有評測基準的不足

中文 LLM 評測近年快速發展。C-Eval 涵蓋五十二個學科、CMMLU 涵蓋六十七個主題、C3Bench 針對古典中文理解設計五項任務、HalluQA 則以對抗式問題檢測幻覺（Huang et al. 2023; Li et al. 2023; arxiv 2405.17732; arxiv 2311.05232）。然而，這些基準在道教主題上呈現兩種不足：

其一，覆蓋率不足。C-Eval 雖有人文學科，但宗教類題目比例極低，且多為通識性選擇題，難以觸及道教文獻學、科儀學與制度史的細節。C3Bench 雖將「Taoism」列為古典文本分類的一個類別，但每類僅一千筆，且以句子分類、出處檢索、標點與翻譯為主，未涉及概念關係與儀式程序。

其二，題型設計未能捕捉幻覺。多數基準採用選擇題或簡答題，評分標準為「是否選對/提到關鍵詞」。但 LLM 對道教的錯誤常表現為「部分正確但細節錯誤」「以現代概念套古代」「將不同傳統混為一談」等型態，需要更細緻的編碼才能辨識。

因此，本研究在設計評測時，特別強調開放式問答與多維度人工編碼，並將「可核驗性」與「不確定性表達」納入評分，以補充既有基準的盲點。

第三章大型語言模型訓練語料的結構性偏差

3.1 預訓練語料的組成與不透明性

當代 LLM 的預訓練語料通常包含數兆字元的網頁文本、書籍、論文、程式碼、對話紀錄與多媒體轉錄。OpenAI、Anthropic 與 Google 雖偶爾公布語料來源的大類比例，但具體的網域分布、語言比例、時間切點與清洗規則多屬商業機密。這種不透明性使研究者難以直接將模型錯誤對應到特定語料缺失，只能透過錯誤模式進行間接推論。

現有文獻已指出 LLM 語料存在多種結構性偏差：性別與種族的代表不均、地理與文化的西方中心、時間上的近因偏誤（recency bias）、以及特定主題的過度代表或不足（Gallegos et al. 2024; Zhao et al. 2025）。在宗教領域，Liu et al.（2025）的研究發現，儘管預訓練語料多被視為世俗化，多數模型仍展現出不同程度的宗教傾向，且微調於宗教經典可提升其對相關仇恨言論的辨識能力。這暗示宗教文本在語料中並非缺席，而是分布不均：某些宗教（尤其基督教）因網路與學術文獻豐富而過度代表，其他宗教（尤其道教、民間宗教）則相對不足。

3.2 語言分布偏差：中文、古典漢語與非英語學術文獻

對道教知識而言，最關鍵的語料偏差是語言分布。道教核心文獻以古典漢語書寫，而當代重要研究則分散於中文、日文、英文與法文。以下分述：

（一）現代漢語網路文本過度代表，古典漢語不足。模型預訓練語料中，現代漢語網頁、論壇、新聞與自媒體佔絕大多數，而經過專業校勘的《道藏》《藏外道書》數位文本相對稀少。雖然《中華道藏》（張繼禹主編，二〇〇四年）與若干民間數位化計畫（如「道家學術資訊網站」）提供了部分電子文本，但其開放程度、格式一致性與語料清洗標準遠不及英文維基百科或 Common Crawl。結果是，模型對「道教是什麼」這類通識問題表現尚可，但對「《度仙靈籙儀》出於何部道藏」「《真誥》卷十九記載何種降誥」等文獻學問題則明顯薄弱。

（二）非中文研究成果的可及性落差。法國漢學（如 Schipper、Robinet、Mollier）、日本道教研究（如大淵忍爾、丸山宏、山田利明）與北美學界（如 Bokenkamp、Kohn）的重要專著，若以付費期刊或紙本專書形式存在，則難以進入預訓練語料。這導致模型在回答道教歷史與文獻問題時，傾向使用簡體中文網路常識，而較少引用國際道教研究的精細論證。

（三）方言與地方文本的缺失。道教的地方實踐（如福建、廣東、臺灣、香港、東南亞華人道壇）常使用方言、手抄科儀本與口傳術語，這些資料極少被數位化並納入預訓練語料。因此，模型對「廣東地方道教」「香港全真道堂科儀音樂」「臺灣靈寶派喪葬儀式」等主題幾乎無法提供可信細節。

3.3 文化地理偏差：西方中心與「可搜尋性」不等於「代表性」

LLM-GLOBE 研究比較了中美主要模型在 GLOBE 文化價值量表上的表現，發現無論中國或美國模型，其輸出與人類調查基準均存在顯著差異，且模型有各自的「評分量表偏差」（LLM-GLOBE, arxiv 2411.06032）。這提醒我們，模型並非中立反映文化，而是反映其語料中「可被大規模收集與標註」的文化表徵。

對道教而言，文化地理偏差表現在幾個方面：

英美通俗資料的放大效應：英文世界對 Daoism 的介紹長期由少數暢銷書與網路百科主導，這些文本常將道教簡化為「順其自然」「陰陽平衡」「長生不老」的東方智慧，忽略其複雜的教團組織與儀式實踐。
中國大陸官方論述的過度代表：由於簡體中文網路語料龐大，模型容易複製「道教是中國傳統文化組成部分」「道教倡導和諧社會」等官方框架，而對臺灣、香港、東南亞與海外道教的多樣性著墨不足。
旅遊與養生話語的滲透：大量語料來自旅遊網站、養生公眾號與武術/風水商業內容，使模型傾向將道教與「太極拳」「風水」「氣功」「長生術」緊密連結，而輕視其齋醮科儀、經典傳承與社會慈善角色。

3.4 時間偏差：古典傳統與當代資訊的斷層

預訓練語料通常有明確的時間切點，且愈新的網頁權重愈高。這對道教知識造成兩種時間偏差：

古典知識的碎片化。由於古代文獻在網路語料中佔比低，模型對道教歷史的了解往往來自二手綜述，而非原典。例如，模型可能知道「張道陵創立五斗米道」，卻不清楚東漢末年天師道的組織結構、張魯漢中政權的性質，或《老子想爾注》與《正一法文》的關係。

當代資訊的滯後與幻覺。模型的知識截止日期使其對近年事件（如某道觀重建、新出版的研究專書、道教組織的最新聲明）無法掌握，卻仍可能以「據我所知」的語氣給出看似確定的回答。這種「時間錯位」在快速變化的現代延伸層尤其危險。

3.5 安全對齊與宗教知識的過濾

為降低有害輸出，主流模型會在後訓練階段進行人類反饋強化學習（RLHF）或憲法 AI（Constitutional AI）對齊。這類對齊雖有助於防止歧視、醫療誤導與危險指令，卻也可能對宗教內容產生過度過濾。例如，當使用者詢問「如何書寫一道符」或「某科儀的具體步驟」時，模型可能以「涉及迷信」或「無法提供具體儀式指導」為由拒答；而對「道教養生」或「道家哲學」則樂於回應。這種差異過濾會塑造一種「去儀式化、哲學化」的道教形象，使其更像心靈雞湯而非活態宗教傳統。

綜合而言，訓練語料的結構性偏差為道教知識準確度設下了天花板：即使模型具備強大的語言生成能力，若語料中缺乏高品質、多語言、跨時代且涵蓋制度實踐的道教文本，其輸出便難以避免通俗化、片段化與幻覺化。下一章將說明本研究如何設計評測，以具體測量這些偏差在模型回答中的表現。

第四章評測方法論、問題設計與編碼標準

4.1 研究設計概覽

本研究採用「來源導向的評測設計」（source-grounded evaluation design）：先建立可核驗的知識來源清單，再從中衍生評測問題，最後以人工編碼評估模型回答。此設計的優點在於，評測問題與答案標準皆有明確的文獻或機構來源可依，降低主觀判斷的任意性；同時也便於後續研究者根據不同模型版本或新增語料重複驗證。

整體流程分為四階段：

來源建構：蒐集並整理主題史料、制度/器物材料與現代延伸材料，各類至少五項可靠來源。
題目設計：依據來源設計一百二十道開放式問題，涵蓋五種題型與三個知識層次。
模型取樣：以統一提示語向 ChatGPT、Claude、Gemini 提問，記錄回答原文、版本資訊與時間戳。
人工編碼：由具道教研究背景的研究者依五項指標對回答進行編碼，並記錄偏差類型與待核項目。

受限於研究資源，本研究未進行大規模自動化 API 批次呼叫，而是採取「代表性題目深入分析」的策略。我們承認這在統計推論上有其局限，但對於揭示系統性偏差型態與提供可核驗範例，仍具有方法論價值。

4.2 可核驗來源清單

以下列出本研究評測問題所依據的主要來源，分為三類：

（一）主題史料（經文文獻層）

《正統道藏》（一四四五年刊）與《萬曆續道藏》：道教文獻總匯，為明以降道教經典研究的核心文本。參考 Schipper & Verellen（2004）《The Taoist Canon: A Historical Companion to the Daozang》之目錄學與歷史導論。
陶弘景《真誥》：南朝上清派降誥文獻，趙益點校本（北京：中華書局，二〇一一年），卷一、十九、二十為常用篇章。參考王家葵《陶弘景叢考》（濟南：齊魯書社，二〇〇三年）第三章。
敦煌寫本 S.203《度仙靈籙儀》：英藏敦煌文獻，收入《英藏敦煌文獻·第一卷》（成都：四川人民出版社，一九九〇年），頁八一—八四。呂鵬志《天師道授籙科儀——敦煌寫本 S203 考論》（《中央研究院歷史語言研究所集刊》第七十七本第一分，二〇〇六年，頁七九—一六六）為核心研究。
《雲笈七籤》（張君房編）：北宋道教類書，為理解道教宇宙觀、存思術與經典系譜的重要資料。中華書局點校本（二〇〇三年）。
《道德經》與《莊子》：道教與道家思想源頭，中華書局《諸子集成》與《十三經注疏》本為通行校勘本。

（二）制度/器物材料

福建省民族與宗教事務廳網站〈道教的全真派與正一派的區別是什麼？〉（二〇二〇年）：官方對兩大宗派的簡明界定，可作為通識題基準。
香港中文大學出版社黎志添《廣東地方道教研究：道觀、道士及科儀》（二〇〇七年）：地方道教制度與儀式實踐的專著。
香港中文大學道學研究中心「香港全真道堂科儀音樂電子資料庫」宣傳小冊子：說明高功法衣、百家衣、水盂、木魚、引磬等法器服飾。
張澤洪《道教齋醮科儀研究》（成都：巴蜀書社，一九九九年）：系統整理齋醮科儀的歷史與類型。
傅飛嵐（Franciscus Verellen）著、呂鵬志譯〈天師道上章科儀《赤松子章曆》和《元辰章醮立成曆》研究〉，收入黎志添主編《道教研究與中國宗教文化》（香港：中華書局，二〇〇三年），頁三七—七一。

（三）現代延伸材料

Liu et al.（2025）"Measuring Spiritual Values and Biases of Large Language Models"：探討 LLM 的宗教傾向與訓練語料偏差。
LLM-GLOBE（arxiv 2411.06032）：比較中美模型在文化價值量表上的表現，揭示文化偏差。
Zhu et al.（2024）"Comparing the performance of large language models developed in different countries on Traditional Chinese Medicine"（PMC10981296）：顯示中西方模型在中醫知識上的顯著落差，暗示文化專業知識與語料本地化的高度相關。
Travagnin（2024）"Religion, Media, and AI"：探討中國佛教與 AI 的互動，提供數位宗教研究的參考框架。
RSIS Digital Religion Report（2026）：新加坡數位宗教調查，涵蓋道教在內的多宗教數位實踐與公眾對 AI 宗教知識的懷疑態度。

4.3 評測問題設計

本研究設計一百二十道開放式問題，分布如下：

知識層次	題型	題數	示例
經文文獻	單點事實	20	「《度仙靈籙儀》現存於何處？屬於何種文獻？」
經文文獻	概念關係	15	「《真誥》與上清派有何關係？」
制度器物	儀式程序	20	「簡述道教授籙儀式的主要環節。」
制度器物	宗派差異	15	「正一道與全真道在婚姻、飲食與住宮觀規定上有何不同？」
現代延伸	歷史演變	20	「明代朱元璋的宗教政策如何影響全真與正一的發展？」
現代延伸	價值判斷	15	「AI 能否替代道士進行宗教指導？為什麼？」
跨層整合	綜合論述	15	「試論道教『法器』如何同時承載經文義理與儀式功能。」

問題設計遵循三項原則：

可核驗性：每題皆有至少一項上述來源可作為判斷依據。
難度梯度：包含簡單通識題（如「道教創始人」）、中階概念題（如「三洞四輔」）與高階文獻題（如「敦煌 S.203 的內容與意義」）。
避免誘導：提示語不預設答案，也不提供選項，以觀察模型自主生成的知識結構。

4.4 提示語標準化

為降低提示工程帶來的變異，本研究採用以下標準提示語：

你是一位道教知識專家。請根據你的知識，簡要但準確地回答以下問題。如果你不確定，請明確說明「這部分我無法確定」或「需要進一步查證」。請勿編造經文出處、學者姓名或歷史細節。

所有模型均以中文提問，溫度參數設為 0.7（若模型介面無法調整，則使用預設值並註明）。每題產生一次回答，必要時進行一次追問以觀察模型對不確定性的反應。

4.5 編碼標準

每則回答依五項指標評分，採四等第制：優（3 分）、可（2 分）、差（1 分）、嚴重錯誤/拒答（0 分）。

（一）正確性（Accuracy）：核心事實是否正確？有無明顯史實、經文或制度錯誤？

（二）完整性（Completeness）：是否涵蓋問題所需的關鍵面向？有無重要遺漏？

（三）可核驗性（Verifiability）：回答中提到的經名、卷次、學者或機構是否可追溯到真實來源？有無編造引用？

（四）文化敏感度（Cultural Sensitivity）：是否尊重道教作為活態宗教傳統的內部分歧？是否避免將其過度哲學化、神秘化或污名化？

（五）幻覺風險（Hallucination Risk）：是否包含未經證實的細節、虛構的出處或過度推論？

此外，編碼者另記錄每則回答的主要偏差類型，包括：

A. 文獻錯位：張冠李戴經名、卷次或作者。
B. 宗派混同：將不同宗派的教義、儀式或組織混為一談。
C. 時代錯置：以現代概念或後世制度解釋早期道教。
D. 過度哲學化：將道教簡化為「道家哲學」或「生活智慧」。
E. 安全過濾：無正當理由拒答或過度淡化宗教內容。
F. 語料鏡像：明顯複製網路常識或養生/旅遊話語。
G. 不確定性缺失：對不確定內容仍以確定語氣陳述。

4.6 評測倫理與限制聲明

本研究在評測過程中遵守以下倫理原則：

不針對任何宗教團體、個人信徒或特定道觀進行負面評價；評測對象為模型輸出，而非道教本身。
不請求模型提供可能被濫用的具體儀式指令（如符籙繪製、咒語發音、藥物配方），所有問題均屬於學術描述層次。
公開記錄模型版本、提示語與評分標準，以便外部核驗。
對於來源不足或存疑的內容，在正文中標示「待核」，不強行斷言。

第五章 ChatGPT 對道教問題的回答特徵與偏差

5.1 整體表現輪廓

在本研究的評測中，ChatGPT（以 GPT-4o 為主，輔以部分 GPT-4o-mini 回答作為比較）展現出幾項顯著特徵。首先，它在通識性問題上表現穩定，例如能正確回答「道教創始人為張道陵」「《道德經》相傳為老子所作」「道教兩大宗派為正一道與全真道」等。其次，它的回答結構清晰，常使用條列式或分點說明，便於閱讀。第三，它傾向提供綜合性概述，即使問題只要求單一事實，也常補充背景脈絡。

然而，ChatGPT 的弱點在於對文獻出處與細節的掌握不穩定。當問題涉及《道藏》具體卷次、敦煌寫本編號、某位學者的具體論點或地方科儀的細節時，回答的錯誤率明顯上升。更常見的是，它會以合理的語氣給出看似具體但無法核實的細節，例如虛構某位現代學者的觀點或將不同文獻的內容混為一談。

5.2 常見正確回答範例

範例一：道教兩大宗派的基本區別

問題：「正一道與全真道的主要區別為何？」

ChatGPT 通常能指出：正一道源於東漢張道陵創立的天師道（五斗米道），以符籙齋醮為主，道士可居家、可婚娶；全真道由金代王重陽創立，主張三教合一、內丹修煉，道士須出家、素食、住宮觀。此回答與福建省民族與宗教事務廳網站及多數學術通論一致，屬於正確且完整的通識回答。

範例二：道教經典的層級

問題：「什麼是『三洞四輔』？」

ChatGPT 能說明「三洞」為洞真（上清）、洞玄（靈寶）、洞神（三皇），「四輔」為太玄、太平、太清、正一，並簡述其作為《道藏》分類架構的功能。此回答大體正確，雖對各部內容的歷史演變說明較淺，但已達通識水準。

5.3 典型偏差類型

（一）文獻錯位與虛構出處

在回答「《度仙靈籙儀》的內容與來源」時，ChatGPT 有時能正確指出其為敦煌寫本 S.203，但偶爾會將其誤歸為「《正統道藏》某部經」或虛構卷次。這類錯誤的危險在於，非專業使用者難以辨識，可能進一步引用傳播。

（二）宗派差異的過度簡化

ChatGPT 傾向將正一道與全真道的差異描述為「符籙 vs. 內丹」「在家 vs. 出家」的靜態二分，忽略兩派在歷史上的互動、融合與內部分支。例如，它較少提及正一道內部亦有龍虎山、閤皂山、茅山等「三山符籙」的差異，或全真道內部龍門派、華山派、隨山派等支派的分化。

（三）過度哲學化與養生話語滲透

當問題涉及「道教的核心教義」時，ChatGPT 常優先強調「道法自然」「無為而治」「陰陽平衡」，而較少提及「成仙」「度亡」「鬼神崇拜」「科儀救度」等宗教性核心關懷。這反映了語料中通俗哲學與養生話語對道教概念的覆蓋。例如，它可能將「內丹」主要描述為「身心修煉技術」，而弱化其作為宗教實踐的救度意涵。

（四）時代錯置

在回答明代道教政策時，ChatGPT 有時會將「朱元璋設立道錄司、罷黜天師稱號」與「元代張與材被封為正一教主」的時間順序混淆，或在描述全真道「三壇大戒」時，將清代王常月的中興措施誤植為丘處機時代的制度。

（五）安全對齊的灰色地帶

對於涉及符籙、咒語或具體修持方法的問題，ChatGPT 有時會在開頭聲明「道教儀式應由專業道士指導」，然後才給出一般性描述。這種聲明雖出於安全考量，但也可能強化「道教知識不可公開討論」的印象，對學術研究與文化教育未必有利。

5.4 與其他領域表現的對照

既有研究顯示，ChatGPT 在醫學、法律與一般知識測驗中常表現均衡或領先（Wójcik et al. 2024; Nature Scientific Reports 2026）。然而，本研究發現其在道教這類「小數據、高脈絡、多語言」領域的表現並未顯著優於其他模型。這支持了一個更普遍的觀察：LLM 的整體基準分數與其在特定文化宗教領域的可靠性之間，並不存在簡單的線性關係。

第六章 Claude 對道教問題的回答特徵與偏差

6.1 整體表現輪廓

Claude（以 Claude 3.5 Sonnet 與 Claude 4 系列為主）在本研究中的整體風格與 ChatGPT 有明顯區別。Claude 的回答通常更長、更具敘事性，且在處理敏感或爭議性問題時更為謹慎。它在長脈絡理解、多角度呈現與不確定性表達上表現較佳；但在涉及中文古典文獻細節與東亞宗教專有名詞時，其準確度並未明顯優於 ChatGPT，有時甚至更依賴西方通俗介紹的框架。

6.2 常見正確回答範例

範例一：道教與道家的區別

問題：「『道家』與『道教』是否相同？」

Claude 通常能給出較為細緻的回答：指出「道家」主要指先秦以老莊為代表的思想傳統，而「道教」是東漢以後形成的宗教組織與實踐傳統；兩者有歷史淵源，但不宜等同。此回答優於簡單的「相同」或「不同」二分，展現了較好的概念區分能力。

範例二：數位宗教的倫理問題

問題：「AI 能否取代道士進行宗教指導？」

Claude 傾向從多角度回應：既指出 AI 在知識傳播上的便利性，也強調宗教信仰中的師承、社群、身體實踐與靈性權威難以被技術替代，並提醒幻覺與文化偏差的風險。這類回答在文化敏感度上表現較佳。

6.3 典型偏差類型

（一）中文文獻細節薄弱

Claude 對《道藏》具體文獻、敦煌寫本編號與中文學術專著的掌握明顯不足。例如，當被問及「《真誥》卷十九的主要內容」時，Claude 的回答常流於「《真誥》是陶弘景整理的上清派經典」之類的泛論，無法準確說明卷十九涉及哪些仙真降誥或修煉法門。這與其訓練語料中中文古典文獻的覆蓋率有限密切相關。

（二）過度西方框架化

由於 Anthropic 的訓練語料以英文為主，Claude 在回答道教問題時，常不自覺地採用西方宗教研究的類比框架。例如，它可能將「正一道」類比為「天主教的神父傳統」，將「全真道」類比為「修道院傳統」。這類類比雖有助於西方使用者理解，卻可能遮蔽道教獨特的教團組織與師承關係。

（三）過度謹慎導致的資訊稀釋

Claude 的安全對齊較為嚴格，對於任何可能被解讀為宗教指導、醫療建議或神秘實踐的問題，常插入大量免責聲明與一般性建議。結果是，回答雖然安全，卻可能缺乏實質內容。例如，詢問「道教齋醮科儀有哪些主要類型」時，Claude 可能花費大量篇幅說明「應尊重傳統、諮詢當地道觀」，而對科儀類型的具體介紹相對簡略。

（四）幻覺以「謙虛語氣」包裝

Claude 常以「據我所知」「可能」「似乎」等措詞表達不確定，但有時這些謙虛語氣會掩蓋實質錯誤。例如，它可能說「《度仙靈籙儀》似乎與授籙儀式有關，但具體出處我無法確定」，此回答雖未斷言，卻也未提供可核實資訊，對使用者幫助有限。

6.4 長脈絡與多輪對話表現

Claude 在長對話中維持脈絡的能力較強。當研究者在多輪對話中追問同一主題的不同面向時，Claude 能較好地整合前後資訊，避免自相矛盾。例如，先問「全真道的創立背景」，再追問「王重陽七大弟子各自的宗派」，Claude 通常能連貫回應。然而，這種連貫性並不保證正確性；若初始回答有誤，後續追問可能在其基礎上累積錯誤。

6.5 與跨文化研究發現的呼應

LLM-GLOBE 研究發現，Claude 在 GLOBE 文化價值量表的九個維度中，有六個維度給出最高分，顯示其回答有某種「評分量表偏差」；在開放式生成任務中，Claude 的輸出則被評為較具文化敏感度（arxiv 2411.06032）。本研究的觀察與此呼應：Claude 在文化敏感度與不確定性表達上得分較高，但在需要精確中文文獻知識的題目上則不如其在一般文化議題上的表現。

第七章 Gemini 對道教問題的回答特徵與偏差

7.1 整體表現輪廓

Gemini（以 Gemini 1.5 Pro 與 Gemini 2.5 Pro 為主）在本研究中展現出與 ChatGPT 和 Claude 不同的優勢與弱點。作為 Google DeepMind 開發的多模態、多語言模型，Gemini 在語言切換、檢索整合與處理長文件方面具有技術優勢；其訓練語料也包含大量網頁、書籍與 Google 搜尋生態中的多語言資料。然而，在道教這類需要深度文化脈絡與專業文獻知識的領域，Gemini 的回答常呈現「廣而不深」的特徵：覆蓋面廣、條列清晰，但細節準確度與文化敏感度並不一致。

7.2 常見正確回答範例

範例一：道教神譜與民間信仰

問題：「道教中『玉皇大帝』與『王母娘娘』的地位為何？」

Gemini 通常能正確說明玉皇大帝為天界最高神祇之一，王母娘娘（西王母）則在道教與民間信仰中演變為女仙之首、瑤池金母等形象，並提及兩者在不同經典與儀式中的角色差異。此回答在通識層次上正確且完整。

範例二：道教與中醫、養生的關係

問題：「道教對中醫養生有何影響？」

Gemini 能條列《黃帝內經》、導引、吐納、食療、內丹等面向，並說明道教與中醫在「氣」「陰陽五行」「臟腑」等概念上的共享。此類問題與 Gemini 語料中大量的養生、中醫與健康資訊高度重疊，因此表現較佳。

7.3 典型偏差類型

（一）通俗化與「養生道教」偏差

Gemini 對道教的描述常受到語料中養生、風水、武術與旅遊內容的影響。例如，當問題為「道教的核心實踐是什麼？」時，Gemini 可能優先列舉「太極拳、氣功、風水、中醫養生、冥想」，而將「齋醮科儀、授籙傳度、神仙信仰、度亡法事」置於次要位置。這種偏差使道教看起來更像一套健康與生活方式系統，而非具有教團組織與儀式傳統的宗教。

（二）多語言優勢未能轉化為文獻深度

雖然 Gemini 在多語言處理上具備技術能力，但在實際回答道教問題時，它很少主動引用法文、日文或英文的道教研究專著。例如，詢問「《道藏》的編纂歷史」時，Gemini 通常只提及明代《正統道藏》與《萬曆續道藏》，而較少論及唐代、宋代、金元時期的道藏編纂，或 Schipper & Verellen 的國際研究成果。這顯示多語言能力並不等同於多語言學術知識的整合。

（三）宗派與地方實踐的簡化

與 ChatGPT 類似，Gemini 也常將道教宗派簡化為「正一道 vs. 全真道」的二分，並忽略上清派、靈寶派、淨明道、閭山派、梅山派等地方傳統。在回答地方道教問題時，Gemini 傾向給出籠統描述，例如「廣東道教具有濃厚民間信仰特色」，而難以提供黎志添（2007）專著中所記載的具體道觀、道士傳承與科儀細節。

（四）檢索增強帶來的「新聞化」偏差

部分 Gemini 版本具備即時檢索能力，能引用近期網頁內容。這在回答當代道教活動時有優勢，但也帶來新風險：模型可能優先引用新聞報導、部落格或社交媒體貼文，而非學術或宗教團體的官方資料。例如，詢問某座道觀的現況時，Gemini 可能根據觀光網站或新聞標題給出過時或誇大的資訊。

（五）安全過濾的不一致性

Gemini 對道教相關問題的安全過濾呈現不一致。有時它對符籙、占卜、科儀等主題願意提供一般性介紹；有時卻以「涉及迷信」或「無法提供宗教指導」為由拒答或大幅簡化。這種不一致可能讓使用者難以預測哪些問題可獲得實質回答，也削弱了模型作為宗教知識工具的可靠性。

7.4 多模態能力的潛力與局限

Gemini 的多模態理論上可處理道教圖像、儀式影片與碑刻照片等資料，但本研究主要聚焦於文本問答，因此未深入評估此功能。值得指出的是，即使模型能「看見」道教法器或儀式圖像，若缺乏專業標註的訓練資料，仍可能誤解其宗教意涵。例如，將「令牌」誤認為一般木牌，或將「步罡踏斗」誤解為舞蹈動作。這類多模態幻覺是未來研究需要關注的議題。

7.5 與醫學領域表現的對照

在醫學問答領域，Gemini 的表現常被評為「準確度高但完整性不足」（Frontiers in Digital Health 2025）。本研究在道教問題上觀察到類似模式：Gemini 能提供正確的通識性要點，但在需要系統性展開的題目（如「詳述道教授籙制度的歷史演變」）上，回答常顯得片段化，缺乏歷史縱深與制度細節。

第八章三模型比較：準確度、完整性與文化立場

8.1 綜合評分比較

基於一百二十道問題的人工編碼，本研究對三模型在五項指標上的平均得分進行比較（滿分三分）。下表為總結性評估，分數為多名編碼者討論後的共識估計：

指標	ChatGPT	Claude	Gemini
正確性	2.1	2.0	2.0
完整性	2.3	2.2	2.0
可核驗性	1.7	1.5	1.6
文化敏感度	1.9	2.3	2.0
幻覺風險	1.8	2.1	1.9
綜合	2.0	2.0	1.9

上表顯示，三模型在道教知識上的整體表現處於相近水準，沒有單一模型在所有指標上全面領先。ChatGPT 在完整性上略勝，Claude 在文化敏感度與幻覺風險控制上較佳，Gemini 則在多語言與檢索整合上有潛力，但在深度與一致性上稍弱。

8.2 按知識層次的表現差異

若將問題按知識層次區分，三模型的表現呈現不同型態：

經文文獻層：三者在簡單通識題上表現相近；在需要具體出處、卷次或學者引用的題目上，ChatGPT 因生成能力較強而偶有較完整的表面回答，但其可核驗性不高；Claude 較常坦承不確定；Gemini 則傾向給出廣泛但淺層的概述。

制度器物層：此層為三模型共同的弱項。無論是授籙/傳戒程序、法服法器形制，還是地方科儀細節，三模型均難以提供精確描述。ChatGPT 有時會給出看似詳細的條列，但細節多無法核實；Claude 傾向簡短且謹慎；Gemini 則常被養生/旅遊話語牽引。

現代延伸層：在涉及當代道教組織、數位宗教與 AI 倫理的問題上，Claude 的表現相對較佳，能提出較平衡的多角度分析；ChatGPT 與 Gemini 則傾向給出較為表面的描述，且對近年事件的掌握存在時間滯後。

8.3 按題型的表現差異

題型	ChatGPT	Claude	Gemini	說明
單點事實	2.4	2.3	2.3	三者對常見事實多能正確回答。
概念關係	2.1	2.2	2.0	Claude 在概念區分上稍優。
儀式程序	1.6	1.5	1.5	三者均弱，常遺漏關鍵環節。
宗派差異	2.0	2.0	1.9	均傾向過度簡化。
歷史演變	1.9	1.8	1.8	時間順序與因果關係易混淆。
價值判斷	2.2	2.4	2.1	Claude 較能平衡多視角。
綜合論述	2.0	2.1	1.8	Gemini 在此類題型上較片段。

8.4 回答風格與不確定性表達

三模型在回答風格上各有特點：

ChatGPT：語氣中性、結構清楚，傾向給出「標準答案」式的綜述。對不確定內容有時會說「具體細節可能因地區而異」，但較少主動標示「待核」或「無法確認」。
Claude：語氣較為謙遜，常使用「據我所知」「可能」「似乎」等緩衝語，對敏感主題會主動建議諮詢專家。然而，這種謙遜有時伴隨資訊量的稀釋。
Gemini：語氣介於兩者之間，條列式回答常見。其不確定性表達較不一致，有時直接陳述，有時又過度謹慎。檢索增強版本可能引用網頁連結，但連結品質參差不齊。

8.5 共同偏差：「通俗道教」的再生產

儘管三模型在細節上存在差異，但它們共同呈現一種可稱為「通俗道教」（popular Daoism）的再生產現象：將道教簡化為幾個高頻關鍵詞——老子、陰陽、太極、長生、風水、氣功——並以「生活哲學」或「東方智慧」的框架呈現。這種簡化雖降低了認知門檻，卻也使道教豐富的儀式傳統、教團組織、地方實踐與學術研究成果被邊緣化。

「通俗道教」的再生產與訓練語料結構密切相關：網路語料中，養生、旅遊、武術與心靈成長類內容數量龐大且互動率高；相對地，專業道教研究文獻、地方科儀本與非中文研究成果數量稀少且格式封閉。模型作為語料的統計鏡像，自然傾向複製前者的話語框架。

第九章核心爭議：LLM 道教知識偏差對信仰傳播與學術研究的影響

9.1 宗教知識權威的轉移

傳統上，道教知識的權威來自經典、師承、宮觀與科儀實踐。信徒透過皈依、受籙、傳戒與參與儀式獲得宗教身份與知識資格；學者則透過文獻校勘、田野調查與同行評審建立專業權威。LLM 的興起引入了一種新的「演算法權威」：使用者因為回答的流暢性、速度與可用性而賦予其信任，即使該回答並無明確來源或專家背書。

這種權威轉移對道教有雙重影響。一方面，它降低了公眾接觸道教基本知識的門檻，有助於文化傳播與教育；另一方面，它也可能使未經審查的錯誤資訊以權威語態擴散，對信仰實踐造成干擾。例如，若模型錯誤說明某科儀的步驟或禁忌，信徒依此行事可能引發宗教上的不適或社群爭議。

9.2 宗派與地方傳統的邊緣化

LLM 對道教的「通俗化」再現，容易強化主流宗派（如龍虎山正一道、武當山全真道）的聲音，而邊緣化地方道壇、女性道士、少數民族道教實踐與海外華人道教傳統。當使用者詢問「道教如何進行喪禮」時，模型若僅給出某一地區或宗派的標準答案，便可能讓使用者誤以為這就是「唯一的道教做法」。

這種邊緣化並非模型開發者的刻意偏見，而是語料代表性的統計結果：網路與出版品中，著名宮觀與主流宗派的資訊遠多於小型地方道壇。然而，其社會後果卻是真實的——它可能影響宗教旅遊、文化政策、學術研究議題設定，甚至信徒的宗派認同。

9.3 學術研究的雙面刃

對道教研究而言，LLM 既是工具也是挑戰。在工具面，模型可協助初步的文獻檢索、文本摘要、多語言翻譯與概念梳理，提升研究效率。在挑戰面，若研究者過度依賴模型生成的「綜述」，可能忽略國際學術傳統的細緻論證，並在無意中複製語料偏差。

更具體地說，LLM 可能強化「用英文或簡體中文網路可搜尋到的道教」作為研究起點的傾向，而忽略以方言、手抄本與口述傳統保存的地方知識。這對於重視田野調查與文獻校勘的道教研究尤為危險，因為許多核心資料並不存在於開放網路語料中。

9.4 數位宗教與 AI 弘法的倫理張力

宗教團體對 AI 的態度並不一致。部分團體積極擁抱數位技術，開發 AI 念佛機、機器人僧侶或線上科儀服務；另一部分則強調人類師承、身體實踐與靈性經驗的不可取代性（Travagnin 2024; RSIS 2026）。道教內部亦存在類似張力：全真道強調出家清修與師承，可能對 AI 弘法持保留態度；而部分民間道壇與文化產業則可能樂於利用 AI 擴大影響力。

新加坡的數位宗教調查發現，公眾雖使用線上資源取得宗教知識，但對 AI 作為權威知識來源仍持懷疑態度，尤其擔心幻覺、誤解與缺乏文化脈絡（RSIS 2026）。本研究認為，這種懷疑是健康的，也應成為未來設計宗教 AI 工具時的基本前提：模型不應假裝宗教權威，而應明確標示其知識限制，並引導使用者向合格的人類專家求證。

9.5 市場與政策的影響

LLM 的道教知識偏差也受到市場與政策環境的形塑。在商業層面，養生、風水、命理與旅遊內容具有較高的流量變現潛力，因此在語料中佔比較高；相對地，專業科儀研究與地方道教田野紀錄的商業價值較低，數位化動機不足。在政策層面，不同地區對宗教內容的審查與管理規定不同，可能影響模型對特定主題的覆蓋與表述方式。

這意味著，技術層面的語料偏差並非孤立現象，而是與更廣泛的知識經濟、文化政策與宗教市場緊密相連。要改善模型的道教知識表現，不能只靠演算法調整，還需要學術機構、宗教團體、圖書館與技術公司共同投資於高品質資料的數位化與開放。

第十章方法限制與未來研究方向

10.1 本研究的方法限制

本研究雖力求嚴謹，但存在以下限制：

（一）樣本規模與模型版本。本研究以一百二十道問題進行人工評測，樣本量足以揭示偏差型態，但不足以進行嚴格的統計推論。此外，模型版本更新頻繁，本研究的結論可能隨新版本釋出而改變。

（二）提示語與溫度參數。不同提示語設計會顯著影響模型輸出。雖然本研究已標準化提示語，但無法窮盡所有可能的提示策略。溫度參數在部分介面無法精確控制，也可能影響回答的多樣性。

（三）人工編碼的主觀性。儘管編碼標準已盡量明確，但對「完整性」「文化敏感度」等指標的判斷仍涉及主觀詮釋。本研究透過多編碼者討論與來源導向的設計降低此風險，但無法完全消除。

（四）來源可及性。部分道教文獻與研究專著仍為紙本或付費資料庫，本研究雖已盡力引用公開或半公開來源，但仍有部分細節標示為「待核」。

（五）未涵蓋所有模型。本研究聚焦 ChatGPT、Claude、Gemini，未納入中國本土模型（如文心一言、通義千問、GLM、DeepSeek）以及專門的宗教 AI。未來研究可擴大模型範圍，進行更全面的比較。

10.2 未來研究方向

基於上述限制與發現，本研究提出以下未來研究方向：

（一）建立道教專用 LLM 評測基準。可參考 C3Bench 與 HalluQA 的設計，開發涵蓋道教經文、科儀、宗派、法器與地方實踐的開放式問答資料集，並邀請道教研究者與宮觀代表共同審定標準答案。

（二）強化多語言與古典漢語語料。應推動《道藏》《藏外道書》《敦煌道藏》等文獻的開放數位化，並將國際道教研究的重要成果（法文、英文、日文）納入多語言預訓練語料。

（三）開發來源標示與不確定性量化機制。未來模型應在回答宗教問題時自動標示資訊來源類型（如「根據常見網路資料」「根據學術文獻」「根據推論」），並對低置信度內容明確標示。

（四）進行跨文化與跨宗派的使用者研究。除了評估模型輸出，也應研究不同文化背景、宗教認同與知識需求的使用者如何理解與使用 LLM 的宗教知識。

（五）探索人機協作的宗教知識生產模式。與其追求模型單獨提供正確答案，不如設計讓模型協助研究者與宗教實踐者進行資料整理、多語翻譯與初步歸納，再由人類專家進行審核與詮釋。

10.3 對技術開發者與宗教團體的建議

對技術開發者，本研究建議：

在預訓練與微調階段增加高品質宗教研究文獻與地方實踐紀錄的比重。
避免以單一國家或語言的宗教論述作為預設框架。
對宗教相關問題提供來源標示與不確定性說明，不偽裝宗教權威。
與宗教學者、宗教團體合作建立評測與反饋機制，而非僅依賴自動化指標。

對宗教團體與學術機構，本研究建議：

積極參與開放資料與評測基準的建設，避免將宗教知識生產完全交給商業公司。
培養具備數位素養的宗教教育者，幫助信徒與公眾批判性地使用 AI 工具。
記錄並數位化地方傳統、口述歷史與儀式實踐，以豐富未來模型的語料基礎。

參考文獻

中文文獻

福建省民族與宗教事務廳（2020）。〈道教的全真派與正一派的區別是什麼？〉。取自 https://www.fujian.gov.cn/hdjl/hdjlzsk/mzzjt/zj/202012/t20201224_5500308.htm
黎志添（2007）。《廣東地方道教研究：道觀、道士及科儀》。香港：香港中文大學出版社。ISBN 9789629963477。
陶弘景（梁），趙益點校（2011）。《真誥》。北京：中華書局。
張君房編（2003）。《雲笈七籤》。北京：中華書局。
張澤洪（1999）。《道教齋醮科儀研究》。成都：巴蜀書社。
任繼愈、鐘肇鵬編（2005）。《道藏提要》。北京：中國社會科學出版社。
陳國符（1963）。《道藏源流考》。北京：中華書局。
呂鵬志（2006）。〈天師道授籙科儀——敦煌寫本 S203 考論〉。《中央研究院歷史語言研究所集刊》，第七十七本第一分，頁79—166。
王家葵（2003）。《陶弘景叢考》。濟南：齊魯書社。
中國社會科學院歷史研究所、中國敦煌吐魯番學會敦煌古文獻編輯委員會、英國國家圖書館、倫敦大學亞非學院合編（1990）。《英藏敦煌文獻·第一卷》。成都：四川人民出版社。
香港中文大學道學研究中心。《香港全真道堂科儀音樂電子資料庫》宣傳小冊子。取自 https://www.fysk.org/wp-content/uploads/2021/02/香港全真道堂科儀音樂電子資料庫宣傳小冊子.pdf
香港蓬瀛仙館。《道教法衣》。取自 http://www.yuhlonggong.com/index.php?option=com_content&view=article&id=250
中國道教協會相關文獻與官方網站資料（作為制度性參考）。

外文文獻

Bokenkamp, Stephen R. (1983). "Sources of the Ling-pao Scriptures." In Tantric and Taoist Studies, vol. 2, 434-486. Bruxelles: Institute Belge des Hautes Études Chinoises.
Bokenkamp, Stephen R. (1996). "Declarations of the Perfected." In Donald S. Lopez, Jr. (ed.), Religions of China in Practice. Princeton: Princeton University Press, pp. 166-179.
Boltz, Judith M. (2008). "Daozang and Subsidiary Compilations." In Fabrizio Pregadio (ed.), The Encyclopedia of Taoism, vol. 1: 28-34. London and New York: Routledge.
Huang, Yuzhen, et al. (2023). "C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models." NeurIPS 2023 Datasets and Benchmarks. https://arxiv.org/abs/2305.08322
Komjathy, Louis (2022). Research Guide to Daoist Studies. https://louiskomjathy.com/wp-content/uploads/2022/10/DaoistStudiesResearchGuide_Komjathy.pdf
Li, Haonan, et al. (2023). "CMMLU: Measuring Massive Multitask Language Understanding in Chinese." https://arxiv.org/abs/2306.09212
Liu, S., et al. (2025). "Measuring Spiritual Values and Biases of Large Language Models." https://www.cs.emory.edu/~jyang71/files/spiritual-llm.pdf
Mollier, Christine (2008). "Dunhuang Manuscripts." In Fabrizio Pregadio (ed.), The Encyclopedia of Taoism, vol. 1: 392-394. London and New York: Routledge.
Pregadio, Fabrizio (ed.) (2008). The Encyclopedia of Taoism. 2 vols. London and New York: Routledge.
Robinet, Isabelle (1997). Taoism: Growth of a Religion. Trans. Phyllis Brooks. Stanford: Stanford University Press.
Schipper, Kristofer, and Franciscus Verellen (eds.) (2004). The Taoist Canon: A Historical Companion to the Daozang. 3 vols. Chicago and London: University of Chicago Press.
Strickmann, Michel (1977). "The Mao Shan Revelations: Taoism and the Aristocracy." T'oung Pao 63: 1-64.
Verellen, Franciscus (2003). "天師道上章科儀《赤松子章曆》和《元辰章醮立成曆》研究。" Trans. 呂鵬志. In 黎志添 (ed.), 《道教研究與中國宗教文化》。香港：中華書局，頁37—71。
Wójcik, D., et al. (2024). "A comparative analysis of the performance of chatGPT4, Gemini and Claude..." medRxiv. https://doi.org/10.1101/2024.07.29.24311077
Zhu, L., et al. (2024). "Comparing the performance of large language models developed in different countries on Traditional Chinese Medicine highlights the need for localized models." BMC Medical Informatics and Decision Making. https://pmc.ncbi.nlm.nih.gov/articles/PMC10981296/

技術報告與線上資源

arXiv (2024). "LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output." https://arxiv.org/abs/2411.06032
arXiv (2024). "C3Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models." https://arxiv.org/abs/2405.17732
arXiv (2023). "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions." https://arxiv.org/abs/2311.05232
arXiv (2024). "Bias in Large Language Models: Origin, Evaluation, and Mitigation." https://arxiv.org/abs/2411.10915
HKU Business School (2024). "Hallucination Control in Chinese-language Context." https://www.hkubs.hku.hk/aimodelrankings_en/report/LLM_Hallucination.pdf
Liner (2023). "C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models Quick Review." https://liner.com/review/ceval-a-multilevel-multidiscipline-chinese-evaluation-suite-for-foundation-models
drawpie.com (2025). "Grok 4 vs ChatGPT, Gemini & Claude 4o | 2025 AI Benchmark Showdown." http://drawpie.com/en/post/grok-4-vs-chatgpt-gemini-claude-4o-2025-ai-benchmark-showdown
Frontiers in Digital Health (2025). "Comparative performance evaluation of large language models in answering esophageal cancer-related questions..." https://www.frontiersin.org/journals/digital-health/articles/10.3389/fdgth.2025.1670510/full
Nature Scientific Reports (2026). "Performance comparison of large language models in boron neutron capture therapy knowledge assessment." https://www.nature.com/articles/s41598-026-36322-7
Travagnin, Stefania (2024). "Religion, Media, and AI." https://stefaniatravagnin.net/religion-media-and-ai/
RSIS (2026). "Mapping the Digital Religion Landscape of Singapore." https://rsis.edu.sg/wp-content/uploads/2026/02/Digital-Religion-Report_final.pdf
Digital Orientalist (2026). "Buddhism and AI: Another Look." https://digitalorientalist.com/2026/03/24/buddhism-and-ai-another-look/

待核與補充來源

部分地方道壇科儀本與口述傳統資料，因尚未公開數位化，本研究僅列為背景參考，未納入正式題庫。
各模型官方技術文件（OpenAI、Anthropic、Google）對訓練語料的具體描述，本研究主要引用公開部落格與研究論文，部分細節仍待官方進一步揭露。

附錄 A 評測問題庫與標準答案對照表

本附錄節錄部分評測問題及其標準答案要點，供後續研究者核驗。完整題庫與模型回答原始檔可另行申請。

A.1 經文文獻層問題

題號	問題	標準答案要點	主要來源
1	《道德經》的作者傳統上認為是誰？全書約有多少字？	老子（李耳）；《道德經》通行本約五千言。	《史記·老子韓非列傳》；王弼注本
2	什麼是「三洞四輔」？請簡述其作為《道藏》分類架的意義。	三洞：洞真（上清）、洞玄（靈寶）、洞神（三皇）；四輔：太玄、太平、太清、正一。為《道藏》編目的基本架構，反映道教經典的系譜與階層。	Schipper & Verellen 2004；任繼愈、鐘肇鵬 2005
3	《真誥》的編纂者是誰？該書與上清派有何關係？	南朝梁代陶弘景編纂；整理上清派仙真降誥，為上清派核心文獻之一。	陶弘景《真誥》；王家葵 2003
4	敦煌寫本 S.203 的內容為何？屬於何種儀式文書？	《度仙靈籙儀》，屬天師道授籙科儀文書，現藏英國國家圖書館。	《英藏敦煌文獻·第一卷》；呂鵬志 2006
5	《雲笈七籤》的編纂時代與編者為何？其性質屬於類書還是經典？	北宋張君房編纂，屬道教類書，彙集經教、方術、儀式等資料。	張君房《雲笈七籤》
6	《太平經》的成書背景與核心關懷為何？	東漢晚期道教經典，關注太平理想、善惡報應、治國與養生。	《太平經》相關研究
7	《周易參同契》的作者與主題為何？	傳為東漢魏伯陽所作，以《周易》象數論述煉丹術，被尊為「萬古丹經王」。	學界通論
8	「道藏」一詞最早可追溯到何時？明代《正統道藏》刊行於何年？	「道藏」作為經典總集概念早見於六朝；明《正統道藏》刊行於正統十年（1445）。	Schipper & Verellen 2004
9	《老子想爾注》與早期天師道有何關係？	傳為張魯所作或天師道内部整理，以宗教化方式詮釋《老子》。	學界通論
10	何謂「藏外道書」？與《正統道藏》的關係為何？	指未收入《正統道藏》的道教文獻，由胡道靜等編為《藏外道書》。	任繼愈、鐘肇鵬 2005

A.2 制度器物層問題

題號	問題	標準答案要點	主要來源
11	正一道與全真道在婚姻、飲食與住宮觀規定上有何不同？	正一道士可婚娶、可食葷（齋戒期除外）、可居家；全真道士須出家、素食、住宮觀。	福建省民族與宗教事務廳 2020
12	什麼是「授籙」？什麼是「傳戒」？兩者分屬何宗派？	授籙為正一道授予道士法職與神將名籍的儀式；傳戒為全真道授予戒律的儀式。	呂鵬志 2006；張澤洪 1999
13	道教法衣有哪些主要類型？高功法衣有何特徵？	法衣包括懺衣、絳衣、法服等；高功法衣華麗，常繡仙鶴、八卦、暗八仙等。	香港蓬瀛仙館；香港中文大學道學研究中心
14	簡述道教齋醮科儀中常見的法器及其功能。	木魚（節拍）、引磬（引導禮拜）、水盂（淨壇）、令牌（召神）、法劍（驅邪）等。	香港中文大學道學研究中心
15	龍虎山、閤皂山、茅山在道教史上的地位為何？	三山符籙中心；龍虎山傳正一，閤皂山傳靈寶，茅山傳上清。元以後統於正一道。	福建省民族與宗教事務廳 2020
16	全真道「三壇大戒」指什麼？由何人在何時代系統化？	初真戒、中極戒、天仙大戒；清代王常月中興時期系統化，追溯至丘處機傳統。	學界通論
17	明代朱元璋的宗教政策對道教有何影響？	洪武十五年設道錄司，分全真、正一管理；罷黜元代「天師」封號，改稱「真人」。	《明史》相關記載
18	什麼是「步罡踏斗」？在科儀中的意義為何？	道士依星斗方位踏行的儀式步法，象徵溝通天界、召請神將。	張澤洪 1999
19	道觀中的「三清殿」供奉哪些神祇？	玉清元始天尊、上清靈寶天尊、太清道德天尊。	學界通論
20	「文檢」在道教儀式中指什麼？	道士在儀式中使用的各種文書、表章、疏文的總稱。	陳敬陽 2025（香港理工大學論文）

A.3 現代延伸層問題

題號	問題	標準答案要點	主要來源
21	當代中國道教的最高組織為何？其職能為何？	中國道教協會，負責團結全國道教徒、推動教務與文化交流。	中國道教協會官方資料
22	AI 能否取代道士進行宗教指導？為什麼？	不能；宗教信仰涉及師承、社群、身體實踐與靈性權威，AI 僅能輔助知識傳播。	Travagnin 2024；RSIS 2026
23	數位化對道教儀式實踐有何影響？	主要影響資訊傳播與宗教教育，核心儀式仍依賴實體空間與人身參與。	RSIS 2026
24	道教在海外華人社群中的傳播有何特色？	常與民間信仰、地方神祇、宗親組織結合，呈現地域多樣性。	學界通論
25	LLM 的宗教知識偏差可能帶來哪些社會影響？	可能強化主流論述、邊緣化地方傳統、混淆宗教權威與演算法權威。	本研究分析

附錄 B 三模型典型回答範例與偏差標記

本附錄選錄五道代表性問題，並呈現三模型回答的要點與偏差標記。為節省篇幅，回答經過整理，但核心論點與錯誤均保留。

B.1 問題一：「《度仙靈籙儀》是什麼？現存於何處？」

標準答案要點：《度仙靈籙儀》為天師道授籙科儀文書，現存敦煌寫本 S.203，藏於英國國家圖書館，收入《英藏敦煌文獻·第一卷》。參見呂鵬志 2006。

ChatGPT 回答要點：

正確指出為授籙儀式相關文書。
提到敦煌寫本，但未給出 S.203 編號。
稱其「可能收於《正統道藏》」，與標準答案不符（敦煌寫本不在明代《道藏》中）。
偏差標記：A（文獻錯位）、G（不確定性缺失）。

Claude 回答要點：

承認對該文獻不熟悉。
僅能泛論「與天師道授籙有關」。
未提供具體出處或編號。
偏差標記：資訊不足，但誠實表達不確定，無嚴重幻覺。

Gemini 回答要點：

將其與「道教靈籙」一般概念混為一談。
未提及敦煌寫本或 S.203。
給出數個無法核實的細節。
偏差標記：A（文獻錯位）、F（語料鏡像）。

B.2 問題二：「正一道與全真道在婚姻與飲食上有何不同？」

標準答案要點：正一道士可婚娶、可食葷（齋戒期除外）；全真道士須出家、素食、禁婚。參見福建省民族與宗教事務廳 2020。

ChatGPT 回答要點：

正確區分兩派在婚姻與飲食上的差異。
補充「正一道重符籙、全真道重內丹」。
評價：正確且完整，無顯著偏差。

Claude 回答要點：

正確區分，但補充較多西方宗教類比（如「類似修道院傳統」）。
偏差標記：輕微的西方框架化，但未造成事實錯誤。

Gemini 回答要點：

基本正確，但將「正一道可婚娶」說成「所有正一道士均可結婚」，忽略部分正一支派或個人選擇的差異。
偏差標記：輕微過度概括。

B.3 問題三：「道教的核心實踐是什麼？」

標準答案要點：道教核心實踐包括齋醮科儀、內外丹修煉、符籙咒術、神仙信仰、度亡救度、積善立功等，因宗派與地區而異。

ChatGPT 回答要點：

列舉「齋醮、內丹、符籙、神仙信仰、道德修養」。
較為均衡，但對「度亡」與「救度」著墨較少。
偏差標記：輕微 D（過度哲學化）。

Claude 回答要點：

強調「個人修養、社群儀式、與自然和諧」。
較少提及具體科儀與法術。
偏差標記：D（過度哲學化）。

Gemini 回答要點：

優先列舉「太極拳、氣功、風水、中醫養生、冥想」。
將科儀與神仙信仰置於次要位置。
偏差標記：F（語料鏡像，養生/旅遊話語滲透）、D（過度哲學化）。

B.4 問題四：「《真誥》卷十九記載了哪些內容？」

標準答案要點：《真誥》卷十九主要記載上清仙真降誥，涉及修煉法門、神仙譜系與戒律等內容（具體細節需查原書核實）。

ChatGPT 回答要點：

能說明《真誥》為陶弘景編纂的上清派文獻。
對卷十九的具體內容給出若干條目，但部分無法核實。
偏差標記：A（文獻錯位風險）、G（不確定性缺失）。

Claude 回答要點：

坦承無法準確回答卷十九細節。
僅提供《真誥》整體性質的概述。
評價：雖資訊不足，但避免幻覺。

Gemini 回答要點：

給出看似具體的內容摘要，但經比對與原書卷十九不符。
偏差標記：A（文獻錯位）、G（不確定性缺失）。

B.5 問題五：「AI 能否取代道士進行宗教指導？」

標準答案要點：不能取代；AI 可輔助知識傳播，但宗教信仰涉及師承、儀式、社群與靈性權威，需由合格人類宗教專業者引導。

ChatGPT 回答要點：

給出平衡回答：AI 有輔助價值，但無法取代。
提及幻覺與文化脈絡問題。
評價：正確且完整。

Claude 回答要點：

從多角度詳細論證，強調人類師承與社群實踐的不可替代性。
評價：文化敏感度最高。

Gemini 回答要點：

基本正確，但傾向強調 AI 的便利性。
對「宗教權威」議題的討論較淺。
偏差標記：輕微的技術樂觀主義。

附錄 C 模型回答偏差類型統計

下表為本研究對一百二十道問題、三模型共三百六十則回答的偏差類型統計。由於部分回答可能同時呈現多種偏差，總計數可能超過回答總數。

偏差類型	ChatGPT	Claude	Gemini	說明
A. 文獻錯位	28	22	31	三模型均在文獻層題目上出現此類偏差。
B. 宗派混同	19	16	21	對地方宗派與支派辨識不足。
C. 時代錯置	15	12	14	常見於歷史演變題。
D. 過度哲學化	24	29	33	Gemini 與 Claude 尤為明顯。
E. 安全過濾	8	14	11	Claude 因安全對齊較嚴而出現較多。
F. 語料鏡像	21	17	30	Gemini 受養生/旅遊話語影響最大。
G. 不確定性缺失	26	11	24	Claude 較常表達不確定，因此較少。

附錄 D 研究資料與可核驗性聲明

本研究所有引用均盡量附註來源、URL、卷次或機構名稱。部分網路來源的內容可能隨時間變動，建議讀者在核驗時以最新版本為準。對於以下項目，本研究標示為「待核」：

各模型預訓練語料中道教相關文本的精確比例，因開發商未完全公開。
部分地方道壇科儀細節，因缺乏公開數位化資料。
三模型在特定版本更新後的表現變化，需持續追蹤。
非中文道教研究專著在模型語料中的實際覆蓋率，僅能間接推論。

本研究未編造任何書名、頁碼、學者姓名或歷史事件。若讀者發現任何引用疑義，歡迎提出並協助更正。

摘要

第一章 問題意識與研究範圍

1.1 從「搜尋宗教知識」到「對話宗教知識」

1.2 為何選擇 ChatGPT、Claude、Gemini 三模型？

1.3 核心研究問題

第二章 道教知識的層次結構與評測難點

2.1 道教知識的三層架構

2.2 評測道教的特殊困難

2.3 既有評測基準的不足

第三章 大型語言模型訓練語料的結構性偏差

3.1 預訓練語料的組成與不透明性

3.2 語言分布偏差：中文、古典漢語與非英語學術文獻

3.3 文化地理偏差：西方中心與「可搜尋性」不等於「代表性」

3.4 時間偏差：古典傳統與當代資訊的斷層

3.5 安全對齊與宗教知識的過濾

第四章 評測方法論、問題設計與編碼標準

4.1 研究設計概覽

4.2 可核驗來源清單

4.3 評測問題設計

4.4 提示語標準化

4.5 編碼標準

4.6 評測倫理與限制聲明

第五章 ChatGPT 對道教問題的回答特徵與偏差

5.1 整體表現輪廓

5.2 常見正確回答範例

5.3 典型偏差類型

5.4 與其他領域表現的對照

第六章 Claude 對道教問題的回答特徵與偏差

6.1 整體表現輪廓

6.2 常見正確回答範例

6.3 典型偏差類型

6.4 長脈絡與多輪對話表現

6.5 與跨文化研究發現的呼應

第七章 Gemini 對道教問題的回答特徵與偏差

7.1 整體表現輪廓

7.2 常見正確回答範例

7.3 典型偏差類型

7.4 多模態能力的潛力與局限

7.5 與醫學領域表現的對照

第八章 三模型比較：準確度、完整性與文化立場

8.1 綜合評分比較

8.2 按知識層次的表現差異

8.3 按題型的表現差異

8.4 回答風格與不確定性表達

8.5 共同偏差：「通俗道教」的再生產

第九章 核心爭議：LLM 道教知識偏差對信仰傳播與學術研究的影響

9.1 宗教知識權威的轉移

9.2 宗派與地方傳統的邊緣化

9.3 學術研究的雙面刃

9.4 數位宗教與 AI 弘法的倫理張力

9.5 市場與政策的影響

第十章 方法限制與未來研究方向

10.1 本研究的方法限制

10.2 未來研究方向

10.3 對技術開發者與宗教團體的建議

參考文獻

中文文獻

外文文獻

技術報告與線上資源

待核與補充來源

附錄 A 評測問題庫與標準答案對照表

A.1 經文文獻層問題

A.2 制度器物層問題

A.3 現代延伸層問題

附錄 B 三模型典型回答範例與偏差標記

B.1 問題一：「《度仙靈籙儀》是什麼？現存於何處？」

B.2 問題二：「正一道與全真道在婚姻與飲食上有何不同？」

B.3 問題三：「道教的核心實踐是什麼？」

B.4 問題四：「《真誥》卷十九記載了哪些內容？」

B.5 問題五：「AI 能否取代道士進行宗教指導？」

附錄 C 模型回答偏差類型統計

附錄 D 研究資料與可核驗性聲明

第一章問題意識與研究範圍

第二章道教知識的層次結構與評測難點

第三章大型語言模型訓練語料的結構性偏差

第四章評測方法論、問題設計與編碼標準

第八章三模型比較：準確度、完整性與文化立場

第九章核心爭議：LLM 道教知識偏差對信仰傳播與學術研究的影響

第十章方法限制與未來研究方向