QLoRA (Quantized LoRA) ແມ່ນວິທີການທີ່ລວມເອົາການ quantization 4bit ເຂົ້າກັບ LoRA ເພື່ອເຮັດໃຫ້ສາມາດ fine-tuning ໂມເດລພາສາຂະໜາດໃຫຍ່ໄດ້ແມ່ນແຕ່ໃນ GPU ສຳລັບຜູ້ບໍລິໂພກທົ່ວໄປ.
QLoRA ທີ່ຖືກປະກາດໃນປີ 2023 ແມ່ນຄຳຕອບໂດຍກົງຕໍ່ສຽງຮ້ອງຂໍທີ່ຮີບດ່ວນຈາກພາກສະໜາມວ່າ "GPU ບໍ່ພຽງພໍ". ຫຼັກການຫຼັກນັ້ນງ່າຍດາຍ ຄື quantize weights ຂອງ base model ລົງເປັນ 4bit ເພື່ອຫຼຸດການໃຊ້ GPU memory ຢ່າງຫຼວງຫຼາຍ ແລ້ວຈຶ່ງ train ສະເພາະ LoRA adapter ດ້ວຍ 16bit. ກ່າວຄື ການອອກແບບແບບສອງຂັ້ນຕອນທີ່ວ່າ "ໂຫຼດໃຫ້ເບົາ, train ໃຫ້ລະອຽດ". ເວົ້າເປັນຕົວເລກ, ການໂຫຼດ model ທີ່ມີ 65B parameters ດ້ວຍ full precision ຕ້ອງການ A100 80GB ຫຼາຍໃບ, ແຕ່ດ້ວຍ QLoRA ສາມາດໃສ່ໄດ້ໃນ 1 ໃບ. ສຳລັບ 7B model ນັ້ນ ສາມາດ train ໄດ້ດ້ວຍ RTX 3090 (24GB) ຫຼື RTX 4090 ອີກດ້ວຍ. ຄ່າໃຊ້ຈ່າຍໃນການເຊົ່າ GPU instance ເທິງ cloud ກໍ່ສາມາດຫຼຸດລົງໄດ້ຕ່ຳກວ່າ 1/10 ຂອງ full FT ໃນຫຼາຍກໍລະນີ. ຢ່າງໃດກໍ່ຕາມ ມີຂໍ້ຄວນລະວັງເຊັ່ນກັນ. ການເສື່ອມຄຸນນະພາບຈາກ 4bit quantization ນັ້ນບໍ່ໄດ້ເປັນສູນ. ຈາກທີ່ຜູ້ຂຽນໄດ້ທົດລອງ, ສຳລັບ task ການຈຳແນກປະເພດທີ່ງ່າຍດາຍ ຫຼື task ການສະຫຼຸບ ຄວາມແຕກຕ່າງຈາກ full precision LoRA ແทบຈະບໍ່ປາກົດ, ແຕ່ສຳລັບ task ທີ່ຕ້ອງການການໃຊ້ເຫດຜົນທາງຄະນິດສາດ ຫຼືການພັດທະນາເຫດຜົນໃນຂໍ້ຄວາມຍາວ ພົບວ່າ score ຫຼຸດລົງປະມານ 1〜3%. ຮູ້ສຶກວ່າໃນການປະຕິບັດຕົວຈິງ ລຳດັບທີ່ສົມເຫດສົມຜົນຄື "ລອງ QLoRA ກ່ອນ, ຖ້າຄຸນນະພາບບໍ່ພຽງພໍຈຶ່ງປ່ຽນໄປໃຊ້ full precision LoRA".


LoRA (Low-Rank Adaptation) ແມ່ນວິທີການທີ່ແຊກເມທຣິກຊ໌ຄວາມແຕກຕ່າງ rank ຕ່ຳເຂົ້າໄປໃນເມທຣິກຊ໌ນ້ຳໜັກຂອງ large language model ແລ້ວຝຶກສອນສະເພາະຄວາມແຕກຕ່າງດັ່ງກ່າວ ເຊິ່ງຊ່ວຍໃຫ້ສາມາດດຳເນີນການ fine-tuning ໄດ້ໂດຍການເພີ່ມ parameter ພຽງປະມານ 0.1〜1% ຂອງ model ທັງໝົດ.

GPU (Graphics Processing Unit) ແມ່ນຊິບເຊມີຄອນດັກເຕີທີ່ປະມວນຜົນການຄຳນວນຂະໜານຈຳນວນຫຼວງຫຼາຍໄດ້ຢ່າງວ່ອງໄວ. ເດີມທີຖືກອອກແບບມາສຳລັບການສ້າງຮູບພາບ, ແຕ່ຄວາມສາມາດໃນການຄຳນວນຂະໜານຂອງມັນເໝາະສົມກັບການຮຽນຮູ້ແລະການອ້າງເຫດຜົນຂອງ AI, ແລະໃນປັດຈຸບັນໄດ້ກາຍເປັນຮາດແວທີ່ຂາດບໍ່ໄດ້ສຳລັບການຝຶກອົບຮົມ (training) ແລະການ fine-tuning ຂອງ LLM.

SLM (Small Language Model) ແມ່ນຊື່ເອີ້ນລວມຂອງໂມເດລພາສາທີ່ຈຳກັດຈຳນວນ Parameter ໄວ້ທີ່ປະມານຫຼາຍພັນລ້ານຫາໜຶ່ງໝື່ນລ້ານຕົວ, ໂດຍມີຄຸນລັກສະນະທີ່ສາມາດດຳເນີນການ Inference ແລະ Fine-tuning ໄດ້ດ້ວຍຊັບພະຍາກອນການຄຳນວນທີ່ໜ້ອຍກວ່າ LLM.
