MLOps

MLOps

MLOps คือแนวปฏิบัติที่มุ่งทำให้วงจรชีวิตทั้งหมดของการพัฒนา การเทรน การ deploy และการติดตามตรวจสอบโมเดล machine learning เป็นแบบอัตโนมัติและมีมาตรฐาน เพื่อให้สามารถดำเนินการโมเดลในสภาพแวดล้อม production ได้อย่างต่อเนื่อง

"การสร้างโมเดล" กับ "การดำเนินงานโมเดล" คืองานคนละประเภท

แม้จะสามารถสร้างโมเดลที่มีความแม่นยำสูงใน Jupyter Notebook ได้ แต่การนำโมเดลนั้นไปรันในสภาพแวดล้อม Production อย่างมีเสถียรภาพต่อเนื่องนั้น ต้องการชุดทักษะที่แตกต่างออกไปโดยสิ้นเชิง ไม่ว่าจะเป็นการอัปเดตข้อมูลการเรียนรู้ การ Retrain โมเดล การจัดการเวอร์ชัน A/B Testing และการตรวจจับความเสื่อมถอยของความแม่นยำ หากดำเนินการทั้งหมดนี้ด้วยมือ ระบบจะล่มสลายไม่ว่าทีมจะมีขนาดเล็กหรือใหญ่เพียงใด

MLOps คือการนำแนวคิดของ DevOps มาประยุกต์ใช้กับ Machine Learning แต่มีความท้าทายเฉพาะตัวที่แตกต่างจากการ Deploy ซอฟต์แวร์ทั่วไป ได้แก่ ความจำเป็นในการจัดการเวอร์ชันพร้อมกันทั้งสามส่วนคือ Code, Data และ Model Weights การที่ประสิทธิภาพของโมเดลเสื่อมลงตามเวลาเนื่องจากการเปลี่ยนแปลงการกระจายตัวของข้อมูล (Drift) รวมถึงความจำเป็นในการรับประกัน Reproducibility ของการทดลอง

องค์ประกอบของ MLOps Pipeline

Data Pipeline: ทำให้การรวบรวม การประมวลผลล่วงหน้า และการ Validation ของข้อมูลการเรียนรู้เป็นแบบอัตโนมัติ เนื่องจากคุณภาพของข้อมูลเป็นตัวกำหนดคุณภาพของโมเดลโดยตรง นี่จึงเป็น Layer ที่สำคัญที่สุด

การจัดการการทดลอง: ใช้เครื่องมืออย่าง MLflow, Weights & Biases, Comet เป็นต้น เพื่อบันทึก Hyperparameter, Learning Curve และ Evaluation Metric รวมถึงรับประกัน Reproducibility ของการทดลอง

Model Registry: จัดเก็บโมเดลที่ผ่านการเรียนรู้แล้วพร้อมการกำหนดเวอร์ชัน และจัดการ Flow การเลื่อนระดับจาก Staging ไปสู่ Production

Serving: เผยแพร่โมเดลในรูปแบบ API โดยมี Inference Engine อย่าง vLLM, TensorRT-LLM, Triton Inference Server เป็นต้น

Monitoring: ติดตามทั้ง Latency และ Error Rate ของการ Inference รวมถึง Data Drift (การเปลี่ยนแปลงการกระจายตัวของข้อมูล Input) และ Model Drift (ความเสื่อมถอยของความแม่นยำตามเวลา) นอกจากนี้ยังเป็นเรื่องปกติที่จะมีกลไกทริกเกอร์การ Retrain โดยอัตโนมัติเมื่อค่าเกินกว่า Threshold ที่กำหนด

MLOps ในยุค LLM

การเติบโตของ LLM ได้ก่อให้เกิดแนวคิดสาขาย่อยที่เรียกว่า "LLMOps" ซึ่งเพิ่มความท้าทายด้านการดำเนินงานที่ไม่เคยมีใน MLOps แบบดั้งเดิม เช่น การจัดการเวอร์ชันของ Prompt การประเมิน RAG Pipeline การตั้งค่า Guardrail และการเพิ่มประสิทธิภาพต้นทุนการ Inference ส่งผลให้ Toolchain เฉพาะทางสำหรับ LLM อย่าง LangSmith, Braintrust, Arize AI มีจำนวนเพิ่มมากขึ้นด้วย

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)
AI สำหรับธุรกิจ

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ไ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)
AI สำหรับธุรกิจ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI คาดการณ์ความต้องการ (Demand Forecasting AI) คือระบบที่วิเคราะห์ข้อมูลการขายในอดีตและปัจจัยภายนอกด

AI ออบเซอร์แวนบิลิตี้ (AI Observability)
AI สำหรับธุรกิจ

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

แนวปฏิบัติในการดำเนินงานเพื่อติดตามและแสดงผลข้อมูลการทำงานของระบบ AI ที่ใช้งานจริงอย่างต่อเนื่อง ทั้

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)
AI สำหรับธุรกิจ

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)

BPO คือรูปแบบการ outsourcing ที่องค์กรมอบหมายกระบวนการทางธุรกิจเฉพาะด้านให้กับผู้ให้บริการภายนอกที่ม