QLoRAとは？

QLoRA

Updated:8 มีนาคม 2569Published:7 มีนาคม 2569

QLoRA (Quantized LoRA) คือวิธีการที่ผสมผสาน LoRA เข้ากับการ quantization แบบ 4 บิต ทำให้สามารถทำ fine-tuning โมเดลภาษาขนาดใหญ่ได้แม้บน GPU ระดับผู้บริโภคทั่วไป

QLoRA ที่เปิดตัวในปี 2023 คือคำตอบโดยตรงต่อเสียงเรียกร้องอันแสนเจ็บปวดจากภาคสนามที่ว่า "GPU ไม่เพียงพอ"

แก่นแท้ของมันนั้นเรียบง่าย นั่นคือการ quantize น้ำหนักของ base model ลงเหลือ 4bit เพื่อลดการใช้หน่วยความจำ GPU อย่างมหาศาล แล้วจึงเทรนเฉพาะ LoRA adapter ด้วย 16bit บนสิ่งนั้น กล่าวคือเป็นการออกแบบแบบสองชั้นในแนวคิด "โหลดให้เบา เทรนให้แม่นยำ"

หากพูดเป็นตัวเลข การโหลดโมเดลขนาด 65B parameter ด้วยความแม่นยำเต็มรูปแบบนั้นต้องการ A100 80GB หลายใบ แต่ด้วย QLoRA สามารถใช้เพียงใบเดียวได้ สำหรับโมเดล 7B นั้นสามารถเทรนได้แม้บน RTX 3090 (24GB) หรือ RTX 4090 และในหลายกรณีสามารถลดค่าใช้จ่ายในการเช่า GPU instance บน cloud ให้เหลือต่ำกว่า 1/10 ของ full fine-tuning ได้เลยทีเดียว

อย่างไรก็ตาม มีข้อควรระวังเช่นกัน ความเสื่อมของความแม่นยำจากการ quantize 4bit นั้นไม่ใช่ศูนย์ จากที่ผู้เขียนได้ทดลองด้วยตนเอง พบว่าสำหรับ task การจำแนกประเภทหรือการสรุปความทั่วไปนั้นแทบไม่มีความแตกต่างจาก LoRA แบบความแม่นยำเต็มรูปแบบ แต่สำหรับ task ที่ต้องการการอนุมานทางคณิตศาสตร์หรือการเรียบเรียงตรรกะในข้อความยาว พบว่าคะแนนลดลงประมาณ 1〜3% ในทางปฏิบัติ ผู้เขียนรู้สึกว่าลำดับที่สมเหตุสมผลคือ "ลองใช้ QLoRA ก่อน แล้วหากความแม่นยำไม่เพียงพอจึงเปลี่ยนไปใช้ LoRA แบบความแม่นยำเต็มรูปแบบ"

QLoRA

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)