鼎稔道學館
☯️ 概念✓ 品質審核

BM25

BM25(Best Matching 25)是資訊檢索領域中用來衡量文件與查詢相關性的核心排名函數。1990年代中期由 Stephen Robertson 與 Karen Spärck Jones 研發,旨在改進傳統的 [[TF-IDF]] 模型。它在計算相關性分數時同步考量三項要素:詞彙頻率(TF)、逆文檔頻率(IDF)以及文件長度的正規化。透過引入平均文件長度的概念,BM25 能避免短文件因詞

⬇ Markdown / Obsidian🔗 v20260605

BM25(Best Matching 25)是資訊檢索領域中用來衡量文件與查詢相關性的核心排名函數。1990年代中期由 Stephen Robertson 與 Karen Spärck Jones 研發,旨在改進傳統的 TF-IDF 模型。它在計算相關性分數時同步考量三項要素:詞彙頻率(TF)、逆文檔頻率(IDF)以及文件長度的正規化。透過引入平均文件長度的概念,BM25 能避免短文件因詞彙稀少而被低估,同時抑制長文件因詞彙重複產生的過度權重。

典型的 BM25 評分公式如下: score(D,Q)=∑ IDF(q_i)·\frac{f_i·(k_1+1)}{f_i+k_1·(1-b+b·|D|/avgdl)} 其中 f_i 為詞彙 q_i 在文件 D 中的出現次數,|D| 為文件實際長度,avgdl 為集合的平均文件長度,k_1 與 b 為可調參數,常取 k_1≈1.5、b=0.75。此參數化使檢索系統能根據不同領域的文件特性自行微調,已成為多数 搜尋引擎全文檢索 系統的預設模型。

相較於原始的 tf*idf,BM25 在大規模語料庫上更具魯棒性,因而廣泛應用於問答系統、推薦排序乃至資訊抽取等相關性評分模組。簡而言之,BM25 是當代 排名函數 的標配,亦是 資訊檢索 研究與實務不可或缺的關鍵技術。

法緣留言(

載入中…

ID: forager:concept:dc33aec08c53 · 最後更新:2026/6/5· 版本:20260605 · 版本歷史

其他資料:學術論文(個別著作權)、本派傳承(CC0 1.0)。