MLOps คือแนวปฏิบัติที่มุ่งทำให้วงจรชีวิตทั้งหมดของการพัฒนา การเทรน การ deploy และการติดตามตรวจสอบโมเดล machine learning เป็นแบบอัตโนมัติและมีมาตรฐาน เพื่อให้สามารถดำเนินการโมเดลในสภาพแวดล้อม production ได้อย่างต่อเนื่อง
แม้จะสามารถสร้างโมเดลที่มีความแม่นยำสูงใน Jupyter Notebook ได้ แต่การนำโมเดลนั้นไปรันในสภาพแวดล้อม Production อย่างมีเสถียรภาพต่อเนื่องนั้น ต้องการชุดทักษะที่แตกต่างออกไปโดยสิ้นเชิง ไม่ว่าจะเป็นการอัปเดตข้อมูลการเรียนรู้ การ Retrain โมเดล การจัดการเวอร์ชัน A/B Testing และการตรวจจับความเสื่อมถอยของความแม่นยำ หากดำเนินการทั้งหมดนี้ด้วยมือ ระบบจะล่มสลายไม่ว่าทีมจะมีขนาดเล็กหรือใหญ่เพียงใด
MLOps คือการนำแนวคิดของ DevOps มาประยุกต์ใช้กับ Machine Learning แต่มีความท้าทายเฉพาะตัวที่แตกต่างจากการ Deploy ซอฟต์แวร์ทั่วไป ได้แก่ ความจำเป็นในการจัดการเวอร์ชันพร้อมกันทั้งสามส่วนคือ Code, Data และ Model Weights การที่ประสิทธิภาพของโมเดลเสื่อมลงตามเวลาเนื่องจากการเปลี่ยนแปลงการกระจายตัวของข้อมูล (Drift) รวมถึงความจำเป็นในการรับประกัน Reproducibility ของการทดลอง
Data Pipeline: ทำให้การรวบรวม การประมวลผลล่วงหน้า และการ Validation ของข้อมูลการเรียนรู้เป็นแบบอัตโนมัติ เนื่องจากคุณภาพของข้อมูลเป็นตัวกำหนดคุณภาพของโมเดลโดยตรง นี่จึงเป็น Layer ที่สำคัญที่สุด
การจัดการการทดลอง: ใช้เครื่องมืออย่าง MLflow, Weights & Biases, Comet เป็นต้น เพื่อบันทึก Hyperparameter, Learning Curve และ Evaluation Metric รวมถึงรับประกัน Reproducibility ของการทดลอง
Model Registry: จัดเก็บโมเดลที่ผ่านการเรียนรู้แล้วพร้อมการกำหนดเวอร์ชัน และจัดการ Flow การเลื่อนระดับจาก Staging ไปสู่ Production
Serving: เผยแพร่โมเดลในรูปแบบ API โดยมี Inference Engine อย่าง vLLM, TensorRT-LLM, Triton Inference Server เป็นต้น
Monitoring: ติดตามทั้ง Latency และ Error Rate ของการ Inference รวมถึง Data Drift (การเปลี่ยนแปลงการกระจายตัวของข้อมูล Input) และ Model Drift (ความเสื่อมถอยของความแม่นยำตามเวลา) นอกจากนี้ยังเป็นเรื่องปกติที่จะมีกลไกทริกเกอร์การ Retrain โดยอัตโนมัติเมื่อค่าเกินกว่า Threshold ที่กำหนด
การเติบโตของ LLM ได้ก่อให้เกิดแนวคิดสาขาย่อยที่เรียกว่า "LLMOps" ซึ่งเพิ่มความท้าทายด้านการดำเนินงานที่ไม่เคยมีใน MLOps แบบดั้งเดิม เช่น การจัดการเวอร์ชันของ Prompt การประเมิน RAG Pipeline การตั้งค่า Guardrail และการเพิ่มประสิทธิภาพต้นทุนการ Inference ส่งผลให้ Toolchain เฉพาะทางสำหรับ LLM อย่าง LangSmith, Braintrust, Arize AI มีจำนวนเพิ่มมากขึ้นด้วย


DevOps คือชื่อเรียกรวมของวัฒนธรรมและแนวปฏิบัติที่บูรณาการการพัฒนาซอฟต์แวร์ (Development) และการดำเนินงาน (Operations) เข้าด้วยกัน โดยมุ่งเร่งรอบวงจรการเผยแพร่และยกระดับคุณภาพไปพร้อมกัน ผ่าน CI/CD pipeline และเครื่องมืออัตโนมัติต่าง ๆ

DevSecOps คือแนวทางที่นำมาตรการด้านความปลอดภัยมาผนวกรวมไว้ตั้งแต่ต้นในกระบวนการ DevOps pipeline โดยบูรณาการสามด้านเข้าด้วยกัน ได้แก่ การพัฒนา (Development) ความปลอดภัย (Security) และการปฏิบัติการ (Operations)

MoE (Mixture of Experts) คือสถาปัตยกรรมที่มี "ผู้เชี่ยวชาญ" (Expert) ซับเน็ตเวิร์กหลายตัวภายในโมเดล โดยจะเปิดใช้งานเพียงบางส่วนสำหรับแต่ละอินพุต ซึ่งช่วยให้สามารถเพิ่มจำนวนพารามิเตอร์ทั้งหมดได้ในขณะที่ยังควบคุมต้นทุนการอนุมานให้อยู่ในระดับต่ำ


การเปรียบเทียบการติดตั้ง LLM / SLM แบบโลคอล — การใช้ AI โดยไม่พึ่งพา Cloud API