☯️ 概念✓ 品質審核

資料預處理

# 資料預處理 ## 概述在資訊科學領域，[[資料預處理]] 是指對原始資料執行 [[數據清洗]]、轉換、過濾與結構化等前置工作，目的是去除雜訊、统一格式，使資料適合後續的[[機器學習]] 或[[自然語言處理]] 分析。 ## 主要步驟 1. **數據清洗**：移除缺失值、修正錯誤、刪除重複項目，通常使用腳本或專門的 [[數據清洗]] 工具。 2. **資料轉換**：將不同來源的資料格點統一起

⬇ Markdown / Obsidian 🔗 v20260605

資料預處理

概述

在資訊科學領域，資料預處理是指對原始資料執行 數據清洗、轉換、過濾與結構化等前置工作，目的是去除雜訊、统一格式，使資料適合後續的機器學習 或自然語言處理分析。

主要步驟

數據清洗：移除缺失值、修正錯誤、刪除重複項目，通常使用腳本或專門的 數據清洗 工具。
資料轉換：將不同來源的資料格點統一起來，如將紙本掃描影像轉為文本數位化可編輯的文字，或將Timestamp轉換為統一時區。
資料過濾：依據研究需求篩選特定條件的記錄，例如限定時間範圍或特定道教文獻的出處。
結構化：將處理後的資料存入資料庫 或Metadata 系統，以便檢索與查詢。

應用場景

在數位人文研究中，常需將古籍手稿數位化並進行文本數位化；而在道教文獻資料庫的建置過程中，亦必須先完成上述預處理，以確保資料完整性與可用性。這些步驟不僅提升檢索效率，也為未來的機器學習 模型提供可靠的訓練素材，降低模型偏差與過擬合風險。

◇法緣留言（—）

載入中…