GPU（หน่วยประมวลผลกราฟิก） คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

GPU (Graphics Processing Unit) คือชิปเซมิคอนดักเตอร์ที่ประมวลผลการคำนวณแบบขนานจำนวนมากได้อย่างรวดเร็ว เดิมทีได้รับการออกแบบมาเพื่อการเรนเดอร์ภาพกราฟิก แต่ความสามารถในการคำนวณแบบขนานนั้นเหมาะอย่างยิ่งสำหรับการเรียนรู้และการอนุมานของ AI จึงกลายเป็นฮาร์ดแวร์ที่ขาดไม่ได้สำหรับการฝึกและการ fine-tuning ของ LLM ในปัจจุบัน

ทำไมต้องใช้ GPU ไม่ใช่ CPU

CPU ได้รับการปรับแต่งให้เหมาะกับการประมวลผลแบบลำดับที่ซับซ้อน โดยมีจำนวนคอร์เพียงไม่กี่สิบคอร์ ในทางตรงกันข้าม GPU สามารถประมวลผลการคำนวณที่เรียบง่ายได้พร้อมกันด้วยคอร์หลายพันถึงหลายหมื่นคอร์ การเทรน Neural Network นั้นโดยพื้นฐานแล้วคือการทำ Matrix Operation ซ้ำๆ ซึ่งรูปแบบการประมวลผลนี้สอดคล้องกับสถาปัตยกรรมแบบ Parallel ของ GPU

ตัวอย่างเช่น เมื่อเทรน Dense Model ขนาด 70B Parameter จำเป็นต้องคำนวณ Gradient ของแต่ละ Parameter แบบขนานกัน การประมวลผลแบบลำดับด้วย CPU อาจใช้เวลาหลายเดือน แต่ด้วย GPU Cluster สามารถเสร็จสิ้นได้ภายในไม่กี่วันถึงไม่กี่สัปดาห์

ข้อจำกัดของ VRAM

เมื่อพูดถึง GPU ในบริบทของ AI สิ่งที่สำคัญพอๆ กับประสิทธิภาพการคำนวณคือ VRAM (Video RAM) เนื่องจาก Weight และ Activation ทั้งหมดของโมเดลจำเป็นต้องถูกโหลดลงใน VRAM ความจุของ VRAM จึงเป็นตัวกำหนดขีดจำกัดที่แท้จริงของขนาดโมเดล

NVIDIA A100 (80GB) หนึ่งการ์ดสามารถรองรับโมเดลได้ประมาณ 40B Parameter (ในกรณีของ FP16) สำหรับการรัน Dense Model ขนาด 70B ต้องใช้อย่างน้อย 2 การ์ด และหากต้องการเทรนด้วยต้องใช้ 8 การ์ดขึ้นไป สาเหตุที่ LoRA และ QLoRA ได้รับความสนใจก็เพราะสามารถลดการใช้ VRAM ได้อย่างมาก

Cloud vs On-Premises

GPU มีราคาสูง โดย NVIDIA H100 หนึ่งการ์ดมีราคาหลายล้านเยน ดังนั้นหลายบริษัทจึงเลือกใช้ Cloud GPU (AWS, GCP, Azure) แบบ On-Demand แทน อย่างไรก็ตาม ในกรณีที่ต้องทำ Inference ปริมาณมากอย่างต่อเนื่อง การใช้ On-Premises อาจมีความคุ้มค่าด้านต้นทุนมากกว่า และการตัดสินใจในเรื่องนี้มีความสำคัญอย่างยิ่งในการดำเนินงาน Local LLM