GPU (Graphics Processing Unit) คือชิปเซมิคอนดักเตอร์ที่ประมวลผลการคำนวณแบบขนานจำนวนมากได้อย่างรวดเร็ว เดิมทีได้รับการออกแบบมาเพื่อการเรนเดอร์ภาพกราฟิก แต่ความสามารถในการคำนวณแบบขนานนั้นเหมาะอย่างยิ่งสำหรับการเรียนรู้และการอนุมานของ AI จึงกลายเป็นฮาร์ดแวร์ที่ขาดไม่ได้สำหรับการฝึกและการ fine-tuning ของ LLM ในปัจจุบัน
## ทำไมต้องใช้ GPU ไม่ใช่ CPU CPU ได้รับการปรับแต่งให้เหมาะกับการประมวลผลแบบลำดับที่ซับซ้อน โดยมีจำนวนคอร์เพียงไม่กี่สิบคอร์ ในทางตรงกันข้าม GPU สามารถประมวลผลการคำนวณที่เรียบง่ายได้พร้อมกันด้วยคอร์หลายพันถึงหลายหมื่นคอร์ การเทรน Neural Network นั้นโดยพื้นฐานแล้วคือการทำ Matrix Operation ซ้ำๆ ซึ่งรูปแบบการประมวลผลนี้สอดคล้องกับสถาปัตยกรรมแบบ Parallel ของ GPU ตัวอย่างเช่น เมื่อเทรน Dense Model ขนาด 70B Parameter จำเป็นต้องคำนวณ Gradient ของแต่ละ Parameter แบบขนานกัน การประมวลผลแบบลำดับด้วย CPU อาจใช้เวลาหลายเดือน แต่ด้วย GPU Cluster สามารถเสร็จสิ้นได้ภายในไม่กี่วันถึงไม่กี่สัปดาห์ ## ข้อจำกัดของ VRAM เมื่อพูดถึง GPU ในบริบทของ AI สิ่งที่สำคัญพอๆ กับประสิทธิภาพการคำนวณคือ VRAM (Video RAM) เนื่องจาก Weight และ Activation ทั้งหมดของโมเดลจำเป็นต้องถูกโหลดลงใน VRAM ความจุของ VRAM จึงเป็นตัวกำหนดขีดจำกัดที่แท้จริงของขนาดโมเดล NVIDIA A100 (80GB) หนึ่งการ์ดสามารถรองรับโมเดลได้ประมาณ 40B Parameter (ในกรณีของ FP16) สำหรับการรัน Dense Model ขนาด 70B ต้องใช้อย่างน้อย 2 การ์ด และหากต้องการเทรนด้วยต้องใช้ 8 การ์ดขึ้นไป สาเหตุที่ LoRA และ QLoRA ได้รับความสนใจก็เพราะสามารถลดการใช้ VRAM ได้อย่างมาก ## Cloud vs On-Premises GPU มีราคาสูง โดย NVIDIA H100 หนึ่งการ์ดมีราคาหลายล้านเยน ดังนั้นหลายบริษัทจึงเลือกใช้ Cloud GPU (AWS, GCP, Azure) แบบ On-Demand แทน อย่างไรก็ตาม ในกรณีที่ต้องทำ Inference ปริมาณมากอย่างต่อเนื่อง การใช้ On-Premises อาจมีความคุ้มค่าด้านต้นทุนมากกว่า และการตัดสินใจในเรื่องนี้มีความสำคัญอย่างยิ่งในการดำเนินงาน Local LLM


Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ

SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

RLHF คือวิธีการเรียนรู้เสริมแรง (Reinforcement Learning) ที่ใช้ข้อเสนอแนะจากมนุษย์เป็นรางวัล ส่วน RLVR คือวิธีการเรียนรู้เสริมแรงที่ใช้คำตอบที่ตรวจสอบได้เป็นรางวัล โดยทั้งสองวิธีถูกนำมาใช้เพื่อปรับผลลัพธ์ของ LLM ให้สอดคล้องกับความคาดหวังของมนุษย์


การเปรียบเทียบการติดตั้ง LLM / SLM แบบโลคอล — การใช้ AI โดยไม่พึ่งพา Cloud API