QLoRA

QLoRA

QLoRA (Quantized LoRA) ແມ່ນວິທີການທີ່ລວມເອົາການ quantization 4bit ເຂົ້າກັບ LoRA ເພື່ອເຮັດໃຫ້ສາມາດ fine-tuning ໂມເດລພາສາຂະໜາດໃຫຍ່ໄດ້ແມ່ນແຕ່ໃນ GPU ສຳລັບຜູ້ບໍລິໂພກທົ່ວໄປ.

QLoRA ທີ່ຖືກປະກາດໃນປີ 2023 ແມ່ນຄຳຕອບໂດຍກົງຕໍ່ສຽງຮ້ອງຂໍທີ່ຮີບດ່ວນຈາກພາກສະໜາມວ່າ "GPU ບໍ່ພຽງພໍ".

ຫຼັກການຫຼັກນັ້ນງ່າຍດາຍ ຄື quantize weights ຂອງ base model ລົງເປັນ 4bit ເພື່ອຫຼຸດການໃຊ້ GPU memory ຢ່າງຫຼວງຫຼາຍ ແລ້ວຈຶ່ງ train ສະເພາະ LoRA adapter ດ້ວຍ 16bit. ກ່າວຄື ການອອກແບບແບບສອງຂັ້ນຕອນທີ່ວ່າ "ໂຫຼດໃຫ້ເບົາ, train ໃຫ້ລະອຽດ".

ເວົ້າເປັນຕົວເລກ, ການໂຫຼດ model ທີ່ມີ 65B parameters ດ້ວຍ full precision ຕ້ອງການ A100 80GB ຫຼາຍໃບ, ແຕ່ດ້ວຍ QLoRA ສາມາດໃສ່ໄດ້ໃນ 1 ໃບ. ສຳລັບ 7B model ນັ້ນ ສາມາດ train ໄດ້ດ້ວຍ RTX 3090 (24GB) ຫຼື RTX 4090 ອີກດ້ວຍ. ຄ່າໃຊ້ຈ່າຍໃນການເຊົ່າ GPU instance ເທິງ cloud ກໍ່ສາມາດຫຼຸດລົງໄດ້ຕ່ຳກວ່າ 1/10 ຂອງ full FT ໃນຫຼາຍກໍລະນີ.

ຢ່າງໃດກໍ່ຕາມ ມີຂໍ້ຄວນລະວັງເຊັ່ນກັນ. ການເສື່ອມຄຸນນະພາບຈາກ 4bit quantization ນັ້ນບໍ່ໄດ້ເປັນສູນ. ຈາກທີ່ຜູ້ຂຽນໄດ້ທົດລອງ, ສຳລັບ task ການຈຳແນກປະເພດທີ່ງ່າຍດາຍ ຫຼື task ການສະຫຼຸບ ຄວາມແຕກຕ່າງຈາກ full precision LoRA ແทบຈະບໍ່ປາກົດ, ແຕ່ສຳລັບ task ທີ່ຕ້ອງການການໃຊ້ເຫດຜົນທາງຄະນິດສາດ ຫຼືການພັດທະນາເຫດຜົນໃນຂໍ້ຄວາມຍາວ ພົບວ່າ score ຫຼຸດລົງປະມານ 1〜3%. ຮູ້ສຶກວ່າໃນການປະຕິບັດຕົວຈິງ ລຳດັບທີ່ສົມເຫດສົມຜົນຄື "ລອງ QLoRA ກ່ອນ, ຖ້າຄຸນນະພາບບໍ່ພຽງພໍຈຶ່ງປ່ຽນໄປໃຊ້ full precision LoRA".