BM25とは？

BM25

Updated:19 มีนาคม 2569Published:11 มีนาคม 2569

BM25 (Best Matching 25) คือ อัลกอริทึมการค้นคืนสารสนเทศเชิงความน่าจะเป็น ที่ทำการให้คะแนนความเกี่ยวข้องระหว่างเอกสารกับ query โดยพิจารณาจากความถี่ของคำในเอกสารและความยาวของเอกสาร

ในฐานะรูปแบบพัฒนาต่อยอดจาก TF-IDF

BM25 คือฟังก์ชันการจัดอันดับที่ขยายแนวคิดของ TF-IDF และถูกใช้เป็นอัลกอริทึมเริ่มต้นของเครื่องมือค้นหาข้อความแบบ full-text search ชั้นนำอย่าง Elasticsearch และ Apache Solr มาอย่างยาวนาน จุดเด่นของมันคือการใช้ฟังก์ชันอิ่มตัว (saturation function) เพื่อปรับแก้สัญชาตญาณที่ว่า "ยิ่งคำปรากฏในเอกสารมากเท่าไหร่ ความเกี่ยวข้องก็ยิ่งสูงขึ้น" กล่าวคือ แม้จำนวนครั้งที่คำปรากฏจะเพิ่มขึ้น คะแนนก็จะไม่เพิ่มขึ้นอย่างไม่มีขีดจำกัด แต่จะเริ่มคงที่เมื่อถึงจุดหนึ่ง

พารามิเตอร์หลักมีอยู่ 2 ตัว ได้แก่ k1 ซึ่งควบคุมอัตราการอิ่มตัวของความถี่คำ และ b ซึ่งปรับความแรงของการ normalize ตามความยาวเอกสาร โดยส่วนใหญ่มักใช้ค่าเริ่มต้น (k1=1.2, b=0.75) แต่สำหรับ corpus ที่เฉพาะเจาะจงในแต่ละโดเมน การปรับจูนค่าเหล่านี้อาจช่วยเพิ่มความแม่นยำในการค้นหาได้

บทบาทใน RAG Pipeline

แม้ว่าการค้นหาแบบ vector search (semantic search) จะได้รับความสนใจอย่างมาก แต่ BM25 ยังคงมีความแข็งแกร่งในการค้นหาแบบ exact match ของคีย์เวิร์ดและคำศัพท์เฉพาะทาง ในทางปฏิบัติ การใช้ BM25 ร่วมกับ vector search และรวมคะแนนด้วย RRF (Reciprocal Rank Fusion) ในรูปแบบ hybrid search ได้กลายเป็นรูปแบบมาตรฐานที่นิยมใช้กัน

สำหรับ query ที่ให้ความสำคัญกับ "การจับคู่สตริง" มากกว่า "ความหมาย" เช่น ชื่อเฉพาะหรือหมายเลขรุ่นสินค้า การใช้โครงสร้างแบบ hybrid ที่รวม BM25 ไว้ด้วยจะให้ผลลัพธ์ที่เสถียรกว่าการใช้ vector search เพียงอย่างเดียว

BM25

ในฐานะรูปแบบพัฒนาต่อยอดจาก TF-IDF

บทบาทใน RAG Pipeline

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)