鼎稔道學館
☯️ 概念✓ 品質審核

TF-IDF

TF-IDF(詞頻-逆文檔頻率)是一種常用於[[資訊檢索]]與[[文字探勘]]的統計數值,用以衡量單一詞彙在文件集合中的重要程度。它同時考慮詞在該文件出現的次數(TF)以及該詞在整個[[語料庫]]中出現的稀有程度(IDF),兩者相乘得到的數值越高,表示該詞越具有區分度,常用於[[關鍵字抽取]]與[[搜尋排序]]。計算時,TF 取該詞在文件中的出現頻率,IDF 取總文件數除以包含該詞的文件數的對數(

⬇ Markdown / Obsidian🔗 v20260605

TF-IDF(詞頻-逆文檔頻率)是一種常用於資訊檢索文字探勘的統計數值,用以衡量單一詞彙在文件集合中的重要程度。它同時考慮詞在該文件出現的次數(TF)以及該詞在整個語料庫中出現的稀有程度(IDF),兩者相乘得到的數值越高,表示該詞越具有區分度,常用於關鍵字抽取搜尋排序。計算時,TF 取該詞在文件中的出現頻率,IDF 取總文件數除以包含該詞的文件數的對數(即 log(N/df)),兩者相乘即得 TF‑IDF 值。此數值在向量空間模型、文本分類與相似度比對中被廣泛採用,亦是現今大多數搜尋引擎排序演算法的核心之一。

法緣留言(

載入中…

ID: forager:concept:4b53a291542d · 最後更新:2026/6/5· 版本:20260605 · 版本歷史

其他資料:學術論文(個別著作權)、本派傳承(CC0 1.0)。