QLoRA

QLoRA (Quantized LoRA) คือวิธีการที่ผสมผสาน LoRA เข้ากับการ quantization แบบ 4 บิต ทำให้สามารถทำ fine-tuning โมเดลภาษาขนาดใหญ่ได้แม้บน GPU ระดับผู้บริโภคทั่วไป
QLoRA ที่เปิดตัวในปี 2023 คือคำตอบโดยตรงต่อเสียงเรียกร้องอันแสนเจ็บปวดจากภาคสนามที่ว่า "GPU ไม่เพียงพอ"
แก่นแท้ของมันนั้นเรียบง่าย นั่นคือการ quantize น้ำหนักของ base model ลงเหลือ 4bit เพื่อลดการใช้หน่วยความจำ GPU อย่างมหาศาล แล้วจึงเทรนเฉพาะ LoRA adapter ด้วย 16bit บนสิ่งนั้น กล่าวคือเป็นการออกแบบแบบสองชั้นในแนวคิด "โหลดให้เบา เทรนให้แม่นยำ"
หากพูดเป็นตัวเลข การโหลดโมเดลขนาด 65B parameter ด้วยความแม่นยำเต็มรูปแบบนั้นต้องการ A100 80GB หลายใบ แต่ด้วย QLoRA สามารถใช้เพียงใบเดียวได้ สำหรับโมเดล 7B นั้นสามารถเทรนได้แม้บน RTX 3090 (24GB) หรือ RTX 4090 และในหลายกรณีสามารถลดค่าใช้จ่ายในการเช่า GPU instance บน cloud ให้เหลือต่ำกว่า 1/10 ของ full fine-tuning ได้เลยทีเดียว
อย่างไรก็ตาม มีข้อควรระวังเช่นกัน ความเสื่อมของความแม่นยำจากการ quantize 4bit นั้นไม่ใช่ศูนย์ จากที่ผู้เขียนได้ทดลองด้วยตนเอง พบว่าสำหรับ task การจำแนกประเภทหรือการสรุปความทั่วไปนั้นแทบไม่มีความแตกต่างจาก LoRA แบบความแม่นยำเต็มรูปแบบ แต่สำหรับ task ที่ต้องการการอนุมานทางคณิตศาสตร์หรือการเรียบเรียงตรรกะในข้อความยาว พบว่าคะแนนลดลงประมาณ 1〜3% ในทางปฏิบัติ ผู้เขียนรู้สึกว่าลำดับที่สมเหตุสมผลคือ "ลองใช้ QLoRA ก่อน แล้วหากความแม่นยำไม่เพียงพอจึงเปลี่ยนไปใช้ LoRA แบบความแม่นยำเต็มรูปแบบ"
คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)
AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ไ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)
AI คาดการณ์ความต้องการ (Demand Forecasting AI) คือระบบที่วิเคราะห์ข้อมูลการขายในอดีตและปัจจัยภายนอกด

AI ออบเซอร์แวนบิลิตี้ (AI Observability)
แนวปฏิบัติในการดำเนินงานเพื่อติดตามและแสดงผลข้อมูลการทำงานของระบบ AI ที่ใช้งานจริงอย่างต่อเนื่อง ทั้

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)
BPO คือรูปแบบการ outsourcing ที่องค์กรมอบหมายกระบวนการทางธุรกิจเฉพาะด้านให้กับผู้ให้บริการภายนอกที่ม