QLoRA (Quantized LoRA) คือวิธีการที่ผสมผสาน LoRA เข้ากับการ quantization แบบ 4 บิต ทำให้สามารถทำ fine-tuning โมเดลภาษาขนาดใหญ่ได้แม้บน GPU ระดับผู้บริโภคทั่วไป
QLoRA ที่เปิดตัวในปี 2023 คือคำตอบโดยตรงต่อเสียงเรียกร้องอันแสนเจ็บปวดจากภาคสนามที่ว่า "GPU ไม่เพียงพอ" แก่นแท้ของมันนั้นเรียบง่าย นั่นคือการ quantize น้ำหนักของ base model ลงเหลือ 4bit เพื่อลดการใช้หน่วยความจำ GPU อย่างมหาศาล แล้วจึงเทรนเฉพาะ LoRA adapter ด้วย 16bit บนสิ่งนั้น กล่าวคือเป็นการออกแบบแบบสองชั้นในแนวคิด "โหลดให้เบา เทรนให้แม่นยำ" หากพูดเป็นตัวเลข การโหลดโมเดลขนาด 65B parameter ด้วยความแม่นยำเต็มรูปแบบนั้นต้องการ A100 80GB หลายใบ แต่ด้วย QLoRA สามารถใช้เพียงใบเดียวได้ สำหรับโมเดล 7B นั้นสามารถเทรนได้แม้บน RTX 3090 (24GB) หรือ RTX 4090 และในหลายกรณีสามารถลดค่าใช้จ่ายในการเช่า GPU instance บน cloud ให้เหลือต่ำกว่า 1/10 ของ full fine-tuning ได้เลยทีเดียว อย่างไรก็ตาม มีข้อควรระวังเช่นกัน ความเสื่อมของความแม่นยำจากการ quantize 4bit นั้นไม่ใช่ศูนย์ จากที่ผู้เขียนได้ทดลองด้วยตนเอง พบว่าสำหรับ task การจำแนกประเภทหรือการสรุปความทั่วไปนั้นแทบไม่มีความแตกต่างจาก LoRA แบบความแม่นยำเต็มรูปแบบ แต่สำหรับ task ที่ต้องการการอนุมานทางคณิตศาสตร์หรือการเรียบเรียงตรรกะในข้อความยาว พบว่าคะแนนลดลงประมาณ 1〜3% ในทางปฏิบัติ ผู้เขียนรู้สึกว่าลำดับที่สมเหตุสมผลคือ "ลองใช้ QLoRA ก่อน แล้วหากความแม่นยำไม่เพียงพอจึงเปลี่ยนไปใช้ LoRA แบบความแม่นยำเต็มรูปแบบ"


LoRA (Low-Rank Adaptation) คือวิธีการที่แทรกเมทริกซ์ผลต่างแบบ low-rank เข้าไปในเมทริกซ์น้ำหนักของโมเดลภาษาขนาดใหญ่ และทำการเรียนรู้เฉพาะส่วนผลต่างนั้น ซึ่งช่วยให้สามารถทำ fine-tuning ได้โดยเพิ่มพารามิเตอร์เพียงประมาณ 0.1–1% ของโมเดลทั้งหมด

SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

GPU (Graphics Processing Unit) คือชิปเซมิคอนดักเตอร์ที่ประมวลผลการคำนวณแบบขนานจำนวนมากได้อย่างรวดเร็ว เดิมทีได้รับการออกแบบมาเพื่อการเรนเดอร์ภาพกราฟิก แต่ความสามารถในการคำนวณแบบขนานนั้นเหมาะอย่างยิ่งสำหรับการเรียนรู้และการอนุมานของ AI จึงกลายเป็นฮาร์ดแวร์ที่ขาดไม่ได้สำหรับการฝึกและการ fine-tuning ของ LLM ในปัจจุบัน
