Base Model (Foundation Model) คือโมเดล AI อเนกประสงค์ที่ผ่านการ Pre-training ด้วยชุดข้อมูลขนาดใหญ่ โดยไม่ได้เฉพาะเจาะจงสำหรับงานใดงานหนึ่ง แต่ทำหน้าที่เป็น "รากฐาน" ที่สามารถปรับใช้กับงานที่หลากหลายได้ผ่าน Fine-tuning หรือ Prompt Engineering
## โมเดลในฐานะ "รากฐาน" ชื่อเรียก "Foundation Model" ที่มหาวิทยาลัย Stanford เสนอขึ้นในปี 2021 นั้น ได้รับแรงบันดาลใจจากการเปรียบเทียบกับรากฐาน (foundation) ของสถาปัตยกรรม แนวคิดคือการสร้างแอปพลิเคชันที่หลากหลายบนรากฐานเดียว ไม่ว่าจะเป็น chatbot, การสร้างโค้ด, การแปลภาษา หรือการสรุปความ LLM หลักอย่าง GPT, Claude, Llama และ Gemini ล้วนเป็น base model ที่ผ่านการ pre-training ด้วยข้อมูลข้อความหลายล้านล้าน token การ pre-training นี้ทำให้โมเดลได้รับ "พื้นฐาน" ของโครงสร้างภาษา ความรู้เกี่ยวกับโลก และความสามารถในการใช้เหตุผล ## วิธีการปรับแต่ง มีหลายวิธีในการปรับ base model ให้เหมาะกับงานเฉพาะด้าน วิธีที่ง่ายที่สุดคือ prompt engineering ซึ่งเป็นการปรับแต่งคำสั่งโดยไม่แก้ไขตัวโมเดล ถัดมาคือ fine-tuning ซึ่งเป็นการปรับ weight ของโมเดลด้วยข้อมูลเฉพาะทางของงาน โดย LoRA และ QLoRA เป็นเทคนิคที่ช่วยลดต้นทุนของ fine-tuning ลงได้อย่างมาก หากต้องการปรับแต่งในเชิงลึกยิ่งขึ้น สามารถทำ Continued Pre-training เพื่อเพิ่มความรู้เฉพาะโดเมนให้กับโมเดล วิธีนี้มักถูกนำมาใช้ในสาขาที่มีศัพท์เฉพาะจำนวนมาก เช่น การแพทย์หรือกฎหมาย ## Open-weight vs Proprietary Base model แบ่งออกเป็นสองประเภทหลัก ได้แก่ "open-weight model" ที่เปิดเผย weight ของโมเดลให้สาธารณะ เช่น Llama ของ Meta และ Mistral และ proprietary model ที่ใช้งานได้ผ่าน API เท่านั้น เช่น GPT ของ OpenAI และ Claude ของ Anthropic หากต้องการทำ fine-tuning หรือรัน local LLM ด้วยตนเอง open-weight model จะเป็นตัวเลือกที่จำเป็น แต่หากการใช้งานผ่าน API เพียงพอแล้ว proprietary model อาจมีต้นทุนในการดำเนินงานที่ต่ำกว่าในบางกรณี


Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ

PEFT (Parameter-Efficient Fine-Tuning) คือชื่อเรียกรวมของวิธีการ fine-tuning ที่ปรับโมเดลให้เข้ากับงานเฉพาะด้วยทรัพยากรการคำนวณและข้อมูลที่น้อยลง โดยอัปเดตเพียงบางส่วนของพารามิเตอร์ในโมเดลภาษาขนาดใหญ่ แทนที่จะอัปเดตพารามิเตอร์ทั้งหมด

Dense Model (โมเดลแบบเชื่อมต่อหนาแน่น) คือสถาปัตยกรรมเครือข่ายประสาทเทียมที่ใช้พารามิเตอร์ทั้งหมดของโมเดลในการคำนวณระหว่างการอนุมาน ต่างจาก MoE (Mixture of Experts) ที่เปิดใช้งานเฉพาะบางส่วนของ Expert Dense Model จะให้ weight ทั้งหมดมีส่วนร่วมในการประมวลผลเสมอ ไม่ว่า input จะเป็นอะไรก็ตาม
