โมเดลพื้นฐาน (Foundation Model) คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

Base Model (Foundation Model) คือโมเดล AI อเนกประสงค์ที่ผ่านการ Pre-training ด้วยชุดข้อมูลขนาดใหญ่ โดยไม่ได้เฉพาะเจาะจงสำหรับงานใดงานหนึ่ง แต่ทำหน้าที่เป็น "รากฐาน" ที่สามารถปรับใช้กับงานที่หลากหลายได้ผ่าน Fine-tuning หรือ Prompt Engineering

โมเดลในฐานะ "รากฐาน"

ชื่อเรียก "Foundation Model" ที่มหาวิทยาลัย Stanford เสนอขึ้นในปี 2021 นั้น ได้รับแรงบันดาลใจจากการเปรียบเทียบกับรากฐาน (foundation) ของสถาปัตยกรรม แนวคิดคือการสร้างแอปพลิเคชันที่หลากหลายบนรากฐานเดียว ไม่ว่าจะเป็น chatbot, การสร้างโค้ด, การแปลภาษา หรือการสรุปความ

LLM หลักอย่าง GPT, Claude, Llama และ Gemini ล้วนเป็น base model ที่ผ่านการ pre-training ด้วยข้อมูลข้อความหลายล้านล้าน token การ pre-training นี้ทำให้โมเดลได้รับ "พื้นฐาน" ของโครงสร้างภาษา ความรู้เกี่ยวกับโลก และความสามารถในการใช้เหตุผล

วิธีการปรับแต่ง

มีหลายวิธีในการปรับ base model ให้เหมาะกับงานเฉพาะด้าน

วิธีที่ง่ายที่สุดคือ prompt engineering ซึ่งเป็นการปรับแต่งคำสั่งโดยไม่แก้ไขตัวโมเดล ถัดมาคือ fine-tuning ซึ่งเป็นการปรับ weight ของโมเดลด้วยข้อมูลเฉพาะทางของงาน โดย LoRA และ QLoRA เป็นเทคนิคที่ช่วยลดต้นทุนของ fine-tuning ลงได้อย่างมาก

หากต้องการปรับแต่งในเชิงลึกยิ่งขึ้น สามารถทำ Continued Pre-training เพื่อเพิ่มความรู้เฉพาะโดเมนให้กับโมเดล วิธีนี้มักถูกนำมาใช้ในสาขาที่มีศัพท์เฉพาะจำนวนมาก เช่น การแพทย์หรือกฎหมาย

Open-weight vs Proprietary

Base model แบ่งออกเป็นสองประเภทหลัก ได้แก่ "open-weight model" ที่เปิดเผย weight ของโมเดลให้สาธารณะ เช่น Llama ของ Meta และ Mistral และ proprietary model ที่ใช้งานได้ผ่าน API เท่านั้น เช่น GPT ของ OpenAI และ Claude ของ Anthropic

หากต้องการทำ fine-tuning หรือรัน local LLM ด้วยตนเอง open-weight model จะเป็นตัวเลือกที่จำเป็น แต่หากการใช้งานผ่าน API เพียงพอแล้ว proprietary model อาจมีต้นทุนในการดำเนินงานที่ต่ำกว่าในบางกรณี

โมเดลพื้นฐาน (Foundation Model)

โมเดลในฐานะ "รากฐาน"

วิธีการปรับแต่ง

Open-weight vs Proprietary

คำศัพท์ที่เกี่ยวข้อง

โมเดลแบบกระจาย (Sparse Model)

PEFT

Dense Model (โมเดลแบบหนาแน่น)

Let's discuss your needs

ข้อมูลสังเคราะห์ (Synthetic Data)