
PEFT(Parameter-Efficient Fine-Tuning)ສາມາດຊ່ວຍໃຫ້ທ່ານຫຼຸດຜ່ອນ parameters ໃນການຝຶກສອນໄດ້ເຖິງ 99% ຂຶ້ນໄປໃນຂະນະທີ່ຍັງຮັກສາປະສິດທິພາບທຽບເທົ່າກັບ full fine-tuning ທີ່ຕ້ອງຝຶກສອນ AI model ທັງໝົດໃໝ່ຈາກຕົ້ນ.
ບົດຄວາມນີ້ມຸ້ງໄປຫາ CTO, VPoE ແລະ ຜູ້ຮັບຜິດຊອບດ້ານ IT ທີ່ກຳລັງພິຈາລະນານຳໃຊ້ AI/LLM ໃນການດຳເນີນທຸລະກິດ ໂດຍອະທິບາຍກ່ຽວກັບກົນໄກການເຮັດວຽກຂອງ PEFT, ວິທີການຫຼັກຕ່າງໆ ແລະ ຈຸດສຳຄັນໃນການຕັດສິນໃຈລົງທຶນ. ຫຼັງຈາກອ່ານຈົບ, ທ່ານຈະສາມາດຄັດເລືອກວິທີການ PEFT ທີ່ເໝາະສົມທີ່ສຸດສຳລັບອົງກອນຂອງທ່ານ ແລະ ພ້ອມຕັດສິນໃຈນຳໃຊ້ການປັບແຕ່ງ AI model ໄດ້.

PEFT(Parameter-Efficient Fine-Tuning)ແມ່ນຊື່ເອີ້ນລວມຂອງວິທີການທີ່ "ແຊ່ແຂງ" ພາລາມິເຕີສ່ວນໃຫຍ່ຂອງໂມເດລ AI ທີ່ຜ່ານການຝຶກອົບຮົມລ່ວງໜ້າ ແລະ ຝຶກສະເພາະພາລາມິເຕີເພີ່ມເຕີມຈຳນວນໜ້ອຍເທົ່ານັ້ນ.
| ລາຍການ | ການ Fine-tuning ແບບເຕັມຮູບແບບ | PEFT |
|---|---|---|
| ເປົ້າໝາຍການຮຽນຮູ້ | Parameters ທັງໝົດຂອງໂມເດວ | Parameters ຈຳນວນໜ້ອຍທີ່ເພີ່ມເຂົ້າມາ (0.1〜2% ຂອງທັງໝົດ) |
| GPU Memory ທີ່ຕ້ອງການ | ຫຼາຍສິບ〜ຫຼາຍຮ້ອຍ GB | ຫຼາຍ GB〜ສິບກວ່າ GB |
| ເວລາໃນການຮຽນຮູ້ | ຫຼາຍວັນ〜ຫຼາຍອາທິດ | ຫຼາຍສິບນາທີ〜ຫຼາຍຊົ່ວໂມງ |
| ຂະໜາດການບັນທຶກໂມເດວ | ຫຼາຍສິບ GB (Parameters ທັງໝົດ) | ຫຼາຍ MB〜ຫຼາຍຮ້ອຍ MB (ສະເພາະ Adapter) |
| ຄວາມສ່ຽງຂອງ Catastrophic Forgetting | ສູງ | ຕ່ຳ |
ຕົວຢ່າງເຊັ່ນ: ຫາກນຳ LoRA ໄປໃຊ້ກັບໂມເດວທີ່ມີ 3 ຕື້ Parameters, Parameters ທີ່ສາມາດຮຽນຮູ້ໄດ້ຈະຖືກຈຳກັດໄວ້ພຽງແຕ່ 0.19% ຂອງທັງໝົດ (ປະມານ 2.36 ລ້ານ Parameters). Checkpoint ທີ່ຖືກບັນທຶກໄວ້ກໍ່ມີຂະໜາດປະມານ 19 MB, ເມື່ອທຽບກັບ 40 GB ຂອງໂມເດວເຕັມຮູບແບບ ຈະນ້ອຍກວ່າປະມານ 2,000 ເທົ່າ (ອ້າງອີງ: Hugging Face PEFT ブログ).
PEFT ແມ່ນຄ້າຍຄືກັບ "ການສອນວຽກງານໃໝ່ໃຫ້ແກ່ຜູ້ຊ່ຽວຊານທີ່ມີຄວາມສາມາດສູງຢູ່ແລ້ວ". ຄວາມສາມາດພື້ນຖານຂອງຜູ້ຊ່ຽວຊານ (ຄວາມຮູ້ທີ່ໄດ້ຮຽນຮູ້ລ່ວງໜ້າ) ຍັງຄົງເດີມ, ແລ້ວພຽງແຕ່ເພີ່ມການຮຽນຮູ້ສ່ວນຕ່າງທີ່ຈຳເປັນສຳລັບວຽກງານໃໝ່ເທົ່ານັ້ນ. ດ້ວຍວິທີນີ້, ຈຶ່ງສາມາດ customize ໄດ້ຢ່າງມີປະສິດທິພາບ, ໃນຂະນະທີ່ປ້ອງກັນ "catastrophic forgetting" ທີ່ເຮັດໃຫ້ສູນເສຍຄວາມສາມາດພື້ນຖານໄດ້.

ປະມານປີ 2023 ການຂະຫຍາຍຕົວຂອງ LLM ໄດ້ເລັ່ງໄວຂຶ້ນຢ່າງຫຼວງຫຼາຍ, ແລະ full fine-tuning ກຳລັງກາຍເປັນທາງເລືອກທີ່ "ຢາກເຮັດແຕ່ເຮັດບໍ່ໄດ້". ຕໍ່ໄປນີ້ແມ່ນ 4 ເຫດຜົນທີ່ PEFT ໄດ້ຂະຫຍາຍຕົວຢ່າງວ່ອງໄວ.
ໃນຊ່ວງຫຼາຍປີຜ່ານມາ, Large Language Model (LLM) ຂະໜາດໃຫຍ່ໄດ້ມີຈຳນວນ parameter ເຖິງລະດັບ 70B〜405B. ການທຳ full fine-tuning ໃຫ້ກັບ model ເຫຼົ່ານີ້ ຕ້ອງການສະພາບແວດລ້ອມທີ່ຕິດຕັ້ງ A100 80GB ຫຼາຍໃບ, ເຊິ່ງກໍ່ໃຫ້ເກີດຄ່າໃຊ້ຈ່າຍ cloud GPU ລະດັບຫຼາຍລ້ານເຢນຕໍ່ເດືອນ. ຖ້າໃຊ້ PEFT, ການປັບແຕ່ງໃຫ້ເໝາະສົມໃນທາງປະຕິບັດກໍ່ເປັນໄປໄດ້ແມ່ນແຕ່ດ້ວຍ GPU ສຳລັບຜູ້ບໍລິໂພກທົ່ວໄປ (ເຊັ່ນ: RTX 4090, VRAM 24GB).
ຄວາມຕ້ອງການ GPU ທີ່ເພີ່ມຂຶ້ນຢ່າງໄວວາຈາກການເຕີບໂຕຂອງ AI ສົ່ງຜົນໃຫ້ລາຄາ cloud GPU ມີແນວໂນ້ມສູງຂຶ້ນ. PEFT ຊ່ວຍຫຼຸດຜ່ອນຊັບພະຍາກອນການຄຳນວນທີ່ຈຳເປັນລົງຢ່າງຫຼວງຫຼາຍ ຈຶ່ງສົ່ງຜົນໂດຍກົງຕໍ່ການເພີ່ມປະສິດທິພາບຄ່າໃຊ້ຈ່າຍ GPU.
ໃນການ Fine-tuning ແບບເຕັມຮູບແບບ (Full Fine-tuning), ມີຄວາມສ່ຽງທີ່ໂມເດລຈະ "ລືມ" ຄວາມຮູ້ທີ່ໄດ້ຮຽນຮູ້ໄວ້ລ່ວງໜ້າ (Pre-training) ໃນລະຫວ່າງຂະບວນການປັບຕົວເຂົ້າກັບວຽກງານໃໝ່. PEFT ຈະແຊ່ແຂງ (Freeze) Parameters ຕົ້ນສະບັບໄວ້, ຈຶ່ງສາມາດເພີ່ມຄວາມສາມາດໃໝ່ໄດ້ໃນຂະນະທີ່ຮັກສາຄວາມສາມາດທີ່ມີຢູ່ເດີມໄວ້ໄດ້.
PEFT ທີ່ຝຶກສອນແລ້ວ adapter (ພາລາມິເຕີເພີ່ມເຕີມ) ຈະຖືກບັນທຶກເປັນໄຟລ໌ຂະໜາດສອງສາມ MB. ສຳລັບ base model ດຽວ, ພຽງແຕ່ສັບປ່ຽນ adapter ຕາມແຕ່ລະ task ກໍສາມາດຮອງຮັບຫຼາຍ task ໄດ້ ເຊັ່ນ: ການແປພາສາ, ການສະຫຼຸບ, ແລະ ການຈັດໝວດໝູ່. ບໍ່ຈຳເປັນຕ້ອງເກັບຮັກສາ full model ຫຼາຍໆອັນ, ເຊິ່ງຊ່ວຍຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍດ້ານ storage ແລະ deployment ໄດ້ຢ່າງຫຼວງຫຼາຍ.

"ຈະເລືອກ PEFT ໃດດີ?" ແມ່ນສິ່ງກີດຂວາງທຳອິດທີ່ທ່ານຈະພົບ. ທີ່ນີ້ພວກເຮົາຈະສະຫຼຸບ 4 ວິທີການຫຼັກໄວ້ໃນຕາຕະລາງປຽບທຽບດຽວ ແລ້ວຈຶ່ງສະແດງ flowchart ສຳລັບການຄັດເລືອກ.
| ວິທີການ | ກົນໄກ | ປະສິດທິພາບໜ່ວຍຄວາມຈຳ | ປະສິດທິພາບ | ຄວາມງ່າຍໃນການຈັດຕັ້ງປະຕິບັດ | ການນຳໃຊ້ຫຼັກ |
|---|---|---|---|---|---|
| LoRA | ເພີ່ມ low-rank matrix ໃສ່ weight matrix | ◎ | ◎ | ◎ | LLM · ການສ້າງຮູບພາບ · ສຽງ |
| QLoRA | LoRA + quantization 4bit | ◎◎ | ◎ | ○ | ສະພາບແວດລ້ອມທີ່ມີຂໍ້ຈຳກັດໜ່ວຍຄວາມຈຳສູງ |
| Adapter | ແຊກໂມດູນ adapter ໃສ່ຊັ້ນ Transformer | ○ | ◎ | ○ | ວຽກງານ NLP ທົ່ວໄປ |
| Prompt Tuning | ເພີ່ມ soft prompt ໃສ່ input | ◎ | ○ | ◎ | ການຈັດປະເພດຂໍ້ຄວາມ · ການສ້າງຂໍ້ຄວາມ |
| Prefix Tuning | ເພີ່ມ prefix vector ໃສ່ແຕ່ລະຊັ້ນ | ◎ | ○ | ○ | ການສ້າງຂໍ້ຄວາມ |
Q1: ຂະໜາດຂອງ base model ແມ່ນເທົ່າໃດ? ├── 7B ຫຼືຕ່ຳກວ່າ → LoRA(ທາງເລືອກມາດຕະຖານ) ├── 7B〜70B → QLoRA(ການຫຼຸດຜ່ອນ memory ມີຄວາມສຳຄັນ) └── 70B ຂຶ້ນໄປ → QLoRA + DeepSpeed Q2: ສາມາດປ່ຽນແປງໂຄງສ້າງພາຍໃນຂອງ model ໄດ້ບໍ? ├── ໄດ້ → LoRA / Adapter └── ບໍ່ໄດ້(ໃຊ້ API ເທົ່ານັ້ນ)→ Prompt Tuning Q3: ຕ້ອງການສະລັບລະຫວ່າງຫຼາຍ task ບໍ? ├── ຕ້ອງການ → LoRA(ການສະລັບ adapter ເຮັດໄດ້ງ່າຍ) └── ບໍ່ຕ້ອງການ → ໃຊ້ວິທີໃດກໍໄດ້

LoRA(Low-Rank Adaptation)ແມ່ນວິທີການທີ່ຖືກເຜີຍແຜ່ໂດຍ Microsoft Research ໃນປີ 2021 (ອ້າງອີງ: Hu et al., 2021), ແລະເປັນວິທີການ PEFT ທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງທີ່ສຸດໃນປັດຈຸບັນ.
ເມທຣິກຊ໌ນ້ຳໜັກ W ຂອງໂມເດລ Transformer ນັ້ນໃຫຍ່ຫຼາຍ, ແຕ່ການປ່ຽນແປງທີ່ສະເພາະກັບວຽກງານຈະສຸມຢູ່ໃນສ່ວນ "low-rank" ຂອງມັນ. LoRA ໃຊ້ປະໂຫຍດຈາກຄຸນສົມບັດນີ້ ໂດຍແທນທີ່ຈະອັບເດດເມທຣິກຊ໌ນ້ຳໜັກ W ຕົ້ນສະບັບໂດຍກົງ, ຈຶ່ງເພີ່ມເມທຣິກຊ໌ຂະໜາດນ້ອຍ 2 ອັນຄື A ແລະ B ເຂົ້າໄປແທນ.
ການຄຳນວນເດີມ: y = W × x ຫຼັງຈາກໃຊ້ LoRA: y = W × x + (A × B) × x
ເນື່ອງຈາກເມທຣິກຊ໌ A ແລະ B ແຕ່ລະອັນນ້ອຍກວ່າເມທຣິກຊ໌ຕົ້ນສະບັບຫຼາຍ (ຂຶ້ນກັບ rank r), ຈຳນວນ parameter ທີ່ຕ້ອງຮຽນຮູ້ຈຶ່ງຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ.
| ຄ່າ Rank | ຈຳນວນ Parameter | ການນຳໃຊ້ |
|---|---|---|
| r = 4〜8 | ໜ້ອຍທີ່ສຸດ | ວຽກງານງ່າຍ (ການຈັດປະເພດຂໍ້ຄວາມ ເປັນຕົ້ນ) |
| r = 16〜32 | ມາດຕະຖານ | ການປັບແຕ່ງທົ່ວໄປ |
| r = 64〜128 | ຫຼາຍ | ວຽກງານສັບສົນ (ການສ້າງຮູບພາບຄຸນນະພາບສູງ ເປັນຕົ້ນ) |
ການເພີ່ມຄ່າ Rank ຈະຊ່ວຍເພີ່ມຄວາມສາມາດໃນການສະແດງອອກ, ແຕ່ກໍ່ເພີ່ມຄວາມສ່ຽງຂອງການ Overfitting ດ້ວຍ. ໃນກໍລະນີສ່ວນໃຫຍ່, ຊ່ວງ r = 8〜32 ໃຫ້ປະສິດທິພາບທີ່ພຽງພໍ.
QLoRA ແມ່ນວິທີການທີ່ລວມ LoRA ກັບການ quantization 4bit ເຂົ້າດ້ວຍກັນ. ເນື່ອງຈາກໃຊ້ LoRA ໃນສະຖານະທີ່ບີບອັດນ້ຳໜັກຂອງ base model ຈາກ 32bit ລົງເຫຼືອ 4bit, ຈຶ່ງສາມາດຫຼຸດການໃຊ້ VRAM ລົງໄດ້ອີກ 50〜75%.
| ລາຍການ | LoRA | QLoRA |
|---|---|---|
| ຄວາມແມ່ນຍຳຂອງ base model | 16bit / 32bit | 4bit |
| ຄວາມແມ່ນຍຳຂອງ parameter ທີ່ເພີ່ມເຕີມ | 16bit | 16bit |
| VRAM ທີ່ຕ້ອງການສຳລັບ model 6.7 ພັນລ້ານ parameter | ປະມານ 16 GB | ປະມານ 6 GB |
| ຄວາມໄວໃນການຮຽນຮູ້ | ໄວ | ຊ້າກວ່າເລັກນ້ອຍ (overhead ຈາກການ quantization) |
| ປະສິດທິພາບ | baseline | ໃກ້ຄຽງກັບ LoRA |

PEFT ແມ່ນງ່າຍຕໍ່ການເລີ່ມຕົ້ນ, ແຕ່ກໍ່ມີ "ບັນຫາທີ່ເກີດຈາກຄວາມງ່າຍດາຍ" ເຊັ່ນກັນ. ລວມທັງຄວາມລົ້ມເຫລວທີ່ພວກເຮົາໄດ້ພົບເຈີດ້ວຍຕົນເອງ, ນີ້ແມ່ນ 4 ຮູບແບບທີ່ພົບເລື້ອຍ.
ບັນຫາ: ການເພີ່ມ rank ຫຼາຍເກີນໄປເພື່ອຄວາມສາມາດໃນການສະແດງອອກ ຈະເຮັດໃຫ້ເກີດການ overfit ກັບຂໍ້ມູນການຝຶກ ແລະ ລົດລົງປະສິດທິພາບການ generalization.
ວິທີຫຼີກລ່ຽງ: ເລີ່ມຕົ້ນດ້ວຍ r = 8〜16 ກ່ອນ, ແລ້ວຄ່ອຍໆປັບໂດຍອີງຕາມປະສິດທິພາບຂອງຂໍ້ມູນ validation. ຫຼີກລ່ຽງການເພີ່ມຈຳນວນ epoch ຫຼາຍເກີນໄປ, ແລະ ປຽບທຽບປະສິດທິພາບໃນລະຫວ່າງ checkpoint ຕ່າງໆ.
ບັນຫາ: ເມື່ອດຳເນີນການ PEFT ດ້ວຍຂໍ້ມູນການຮຽນຮູ້ຈຳນວນໜ້ອຍ, ຄຸນນະພາບຂອງຂໍ້ມູນຈະສົ່ງຜົນໂດຍກົງຕໍ່ຜົນລັບ. ຂໍ້ມູນທີ່ມີສຽງລົບກວນຫຼາຍ ຫຼື ຂໍ້ມູນທີ່ມີຄວາມລຳອຽງຈະເຮັດໃຫ້ປະສິດທິພາບຮ່ວງລົງ.
ວິທີຫຼີກລ່ຽງ: ໃຫ້ຈັດລຳດັບຄວາມສຳຄັນຂອງຄຸນນະພາບຂໍ້ມູນເໜືອກວ່າປະລິມານຂໍ້ມູນ. ຂໍ້ມູນຄຸນນະພາບສູງ 100 ລາຍການ ມັກຈະດີກວ່າຂໍ້ມູນຄຸນນະພາບຕ່ຳ 1,000 ລາຍການ.
ບັນຫາ: ການນຳໃຊ້ PEFT ກັບ base model ທີ່ບໍ່ເໝາະສົມກັບ task ຈະບໍ່ໃຫ້ປະສິດທິພາບທີ່ພຽງພໍ. PEFT ແມ່ນວິທີການ "ປັບແຕ່ງ" ຄວາມສາມາດທີ່ມີຢູ່ແລ້ວຂອງ model, ບໍ່ແມ່ນການເພີ່ມຄວາມສາມາດທີ່ບໍ່ມີຢູ່.
ວິທີຫຼີກລ່ຽງ: ກວດສອບລ່ວງໜ້າວ່າ base model ມີຄວາມສາມາດພື້ນຖານສຳລັບ task ຫຼືບໍ່. ຖ້າເປັນ task ພາສາຍີ່ປຸ່ນ ໃຫ້ເລືອກ model ທີ່ຮອງຮັບພາສາຍີ່ປຸ່ນ, ຖ້າເປັນ task ດ້ານ coding ໃຫ້ເລືອກ model ທີ່ສະເພາະດ້ານ code.
ບັນຫາ: ຂຶ້ນຢູ່ກັບສະຖາປັດຕະຍະກຳ GPU, ການຝຶກອົບຮົມອາດຈະບໍ່ເສຖຽນໃນຄວາມແມ່ນຍຳຕົວເລກສະເພາະ (ເຊັ່ນ fp16).
ວິທີແກ້ໄຂ: ເລືອກການຕັ້ງຄ່າຄວາມແມ່ນຍຳທີ່ເໝາະສົມກັບສະຖາປັດຕະຍະກຳ GPU ທີ່ໃຊ້ງານ. ຕົວຢ່າງເຊັ່ນ, ສຳລັບ RTX 40 series (Ada Lovelace), bf16 ໄດ້ຮັບການຮອງຮັບແບບ native, ແລະໃນບາງກໍລະນີອາດຊ່ວຍໃຫ້ການຝຶກອົບຮົມມີຄວາມເສຖຽນຫຼາຍກວ່າ fp16.

PEFT ມີຜົນກະທົບໂດດເດັ່ນໂດຍສະເພາະໃນອຸດສາຫະກຳທີ່ມີຂໍ້ມູນ ແລະ ລະບົບຄຳສັບສະເພາະຂອງຕົນເອງ. ທີ່ນີ້ພວກເຮົາຈະເຈາະລຶກໃສ່ສະຖານະການສະເພາະຂອງ 3 ອຸດສາຫະກຳຕົວແທນ. ສ່ວນຈຸດທີ່ມີຮ່ວມກັນກັບອຸດສາຫະກຳອື່ນໆ ໄດ້ສະຫຼຸບໄວ້ໃນ "ຈຸດຂ້າມອຸດສາຫະກຳ" ໃນຕອນທ້າຍ.
ໃນສະຖານທີ່ການຜະລິດ, ຮູບພາບຜະລິດຕະພັນ ແລະ ຂໍ້ມູນອຸປະກອນມັກມີຮູບແບບສະເພາະຂອງແຕ່ລະບໍລິສັດ, ເຊິ່ງເຮັດໃຫ້ເກີດກໍລະນີທີ່ model ທົ່ວໄປບໍ່ສາມາດຮອງຮັບໄດ້ຢ່າງຄົບຖ້ວນເປັນປະຈຳ.
| ສະຖານະການນຳໃຊ້ | ວິທີການນຳໃຊ້ PEFT | ຜົນທີ່ຄາດຫວັງ |
|---|---|---|
| ການກວດສອບຮູບລັກສະນະພາຍນອກອັດຕະໂນມັດ | ຝຶກຮູບແບບຄວາມບົກຜ່ອງຂອງຜະລິດຕະພັນໃນບໍລິສັດດ້ວຍ LoRA ໃນ model ຈຳແນກຮູບພາບ | ການປັບປຸງຄວາມຖືກຕ້ອງໃນການກວດສອບ, ຫຼຸດຜ່ອນພາລະຂອງຜູ້ກວດສອບ |
| ການກວດຈັບສັນຍານເຕືອນຄວາມຜິດປົກກະຕິຂອງອຸປະກອນ | ປັບໃຊ້ຂໍ້ມູນ sensor ຂອງອຸປະກອນໃນບໍລິສັດກັບ model ຂໍ້ມູນ time series | ຫຼຸດຜ່ອນການຢຸດເຮັດວຽກທີ່ບໍ່ໄດ້ວາງແຜນ |
| ການສະຫຼຸບເອກະສານດ້ານວິຊາການອັດຕະໂນມັດ | ຝຶກ LLM ດ້ວຍຄຳສັບດ້ານວິຊາການພາຍໃນບໍລິສັດ, ສ້າງບົດບັນທຶກກອງປະຊຸມ ແລະ ລາຍງານອັດຕະໂນມັດ | ຫຼຸດຜ່ອນຊົ່ວໂມງແຮງງານໃນການສ້າງເອກະສານ |
ໃນອຸດສາຫະກຳການຜະລິດ, ເນື່ອງຈາກຜະລິດຕະພັນ ແລະ ອຸປະກອນແຕກຕ່າງກັນໄປໃນແຕ່ລະໂຮງງານ, ການດຳເນີນງານທີ່ມີປະສິດທິພາບຄືການໃຊ້ base model ຮ່ວມກັນ ໃນຂະນະທີ່ສ້າງ LoRA adapter ສະເພາະຂອງແຕ່ລະໂຮງງານ.
ສາຂາການແພດເປັນຂົງເຂດທີ່ມີຄຳສັບວິຊາການຫຼາຍ ແລະ ເປັນຂົງເຂດທີ່ LLM ທົ່ວໄປມັກໃຫ້ຄວາມຖືກຕ້ອງບໍ່ພຽງພໍ. PEFT ຊ່ວຍໃຫ້ສາມາດປັບແຕ່ງສະເພາະດ້ານການແພດໄດ້ດ້ວຍຕົ້ນທຶນຕໍ່າ.
| ສະຖານະການນຳໃຊ້ | ວິທີການນຳໃຊ້ PEFT | ຜົນທີ່ຄາດຫວັງ |
|---|---|---|
| ສະຫຼຸບເວດຊະກຳ ແລະ ໃບສົ່ງຕໍ່ | ຝຶກ LLM ດ້ວຍຄຳສັບ ແລະ ຕົວຫຍໍ້ທາງການແພດຜ່ານ PEFT | ເພີ່ມຄວາມຖືກຕ້ອງໃນການສະຫຼຸບ, ຫຼຸດເວລາການເຮັດວຽກຂອງແພດ |
| ການຈຳແນກຮູບພາບທາງການແພດເສີມ | ປັບໂຕດ model ຈຳແນກຮູບພາບໃຫ້ເຂົ້າກັບເງື່ອນໄຂການຖ່າຍຮູບສະເພາະສະຖານທີ່ | ເພີ່ມຄວາມຖືກຕ້ອງໃນການ screening |
| ສະໜັບສະໜູນການແປພາສາທາງການແພດຫຼາຍພາສາ | ຝັງວັດຈະນານຸກົມຄຳສັບທາງການແພດເຂົ້າໃນ model ແປພາສາຜ່ານ PEFT | ປັບປຸງການສື່ສານໃນສະພາບແວດລ້ອມຫຼາຍພາສາໃນອາຊີຕາເວັນອອກສ່ຽງໃຕ້ |
ຂໍ້ຄວນລະວັງ: AI ທາງການແພດອາດຈະຢູ່ພາຍໃຕ້ກົດລະບຽບຂອງແຕ່ລະປະເທດ (ເຊັ່ນ: ກົດໝາຍຢາ, FDA ແລະ ອື່ນໆ). ໃນການນຳ model ທີ່ສ້າງດ້ວຍ PEFT ໄປໃຊ້ທາງຄລີນິກ, ກະລຸນາກວດສອບຂໍ້ກຳນົດດ້ານກົດລະບຽບຂອງໜ່ວຍງານທີ່ຮັບຜິດຊອບໂດຍບັງຄັບ.
ໃນອຸດສາຫະກຳການເງິນ ມີຂໍ້ຈຳກັດທີ່ບໍ່ສາມາດນຳຂໍ້ມູນລັບອອກໄປພາຍນອກໄດ້ ດັ່ງນັ້ນ PEFT ທີ່ສາມາດດຳເນີນການໄດ້ຄົບຖ້ວນພາຍໃນສະພາບແວດລ້ອມພາຍໃນອົງກອນ ຈຶ່ງເປັນວິທີການທີ່ມີຄວາມເຂົ້າກັນໄດ້ສູງ.
| ສະຖານະການນຳໃຊ້ | ວິທີການນຳໃຊ້ PEFT | ຜົນທີ່ຄາດຫວັງ |
|---|---|---|
| ການກວດຈັບທຸລະກຳທີ່ສໍ້ໂກງ | ປັບໃຊ້ຮູບແບບການທຸລະກຳຂອງບໍລິສັດຕົນເອງກັບ classification model | ຫຼຸດຜ່ອນອັດຕາການກວດຈັບຜິດພາດ, ປັບປຸງຄວາມຖືກຕ້ອງໃນການກວດຈັບ |
| ການອ່ານເອກະສານກວດສອບອັດຕະໂນມັດ | ຝຶກ LLM ໃຫ້ຮຽນຮູ້ຮູບແບບສັນຍາ ແລະ ໃບສະໝັກດ້ວຍ PEFT | ຫຼຸດຜ່ອນໄລຍະເວລານຳໃນການກວດສອບ |
| ການສ້າງລາຍງານກົດລະບຽບອັດຕະໂນມັດ | ປັບ LLM ໃຫ້ເຂົ້າກັບຮູບແບບການລາຍງານຕໍ່ເຈົ້າໜ້າທີ່ ແລະ ຄຳສັບທີ່ໃຊ້ | ຫຼຸດຜ່ອນຊົ່ວໂມງແຮງງານໃນການສ້າງລາຍງານ |
ໃນອຸດສາຫະກຳການເງິນ ຂໍ້ດີຂອງ PEFT ທີ່ສາມາດຝຶກໂດຍໃຊ້ on-premises ໂດຍບໍ່ຕ້ອງສົ່ງຂໍ້ມູນຂຶ້ນ cloudນັ້ນມີຄຸນຄ່າເປັນພິເສດ. ຫາກໃຊ້ QLoRA ກໍ່ສາມາດປັບແຕ່ງ model ແບບຄົບຖ້ວນພາຍໃນອົງກອນໄດ້ ແມ້ແຕ່ດ້ວຍ GPU ທີ່ມີ VRAM ພຽງ 12GB.
ນອກຈາກ 3 ອຸດສາຫະກຳທີ່ກ່າວມາຂ້າງເທິງແລ້ວ, PEFT ຍັງຖືກນຳໃຊ້ຢ່າງກວ້າງຂວາງໃນຫຼາຍຂົງເຂດ ເຊັ່ນ: ການຈັດຈຳໜ່າຍ, ການກໍ່ສ້າງ, ແລະ ການທ່ອງທ່ຽວ. ຂໍ້ລິເລີ່ມຕໍ່ໄປນີ້ສະຫຼຸບຮູບແບບຄວາມສຳເລັດທີ່ມີຮ່ວມກັນໂດຍບໍ່ຂຶ້ນກັບປະເພດອຸດສາຫະກຳ.
ການຈັດຈຳໜ່າຍ ແລະ ຂາຍຍ່ອຍ — ການສະຫຼັບ adapter ຕາມໝວດໝູ່ສິນຄ້າ ຊ່ວຍໃຫ້ສາມາດປັບແຕ່ງຄວາມຖືກຕ້ອງຂອງການພະຍາກອນຄວາມຕ້ອງການ ແລະ chatbot CS ໃຫ້ເໝາະສົມກັບແຕ່ລະສິນຄ້າໄດ້. ການດຳເນີນງານທີ່ກຽມ adapter ສຳລັບສິນຄ້າອາຫານ, ເຄື່ອງໃຊ້ໄຟຟ້າ, ແລະ ເຄື່ອງນຸ່ງຫົ່ມ ໂດຍໃຊ້ base model ດຽວ ມີຄວາມຄຸ້ມຄ່າດ້ານຕົ້ນທຶນສູງ.
ການກໍ່ສ້າງ — ເນື່ອງຈາກເງື່ອນໄຂຂອງແຕ່ລະສະຖານທີ່ກໍ່ສ້າງແຕກຕ່າງກັນ, ການດຳເນີນງານທີ່ສະຫຼັບ adapter ຕາມປະເພດວຽກກໍ່ສ້າງຈຶ່ງມີປະສິດທິພາບ. ເນື່ອງຈາກ adapter ມີນ້ຳໜັກເບົາພຽງຈຳນວນ MB, ຈຶ່ງສາມາດໃຊ້ງານໄດ້ເຖິງແມ່ນໃນ edge device ຂອງສຳນັກງານໜ້າວຽກ.
ການທ່ອງທ່ຽວ ແລະ ການຕ້ອນຮັບ — ການສະຫຼັບ adapter ຕາມພາສາ (ພາສາຍີ່ປຸ່ນ, ພາສາໄທ, ພາສາອັງກິດ ແລະ ອື່ນໆ) ແບບໄດນາມິກ ຊ່ວຍໃຫ້ສາມາດຮັບຮູ້ chatbot ຫຼາຍພາສາ ແລະ ການວິເຄາະ review ດ້ວຍຕົ້ນທຶນຕ່ຳ.
ຈຸດທີ່ມີຮ່ວມກັນໃນທຸກກໍລະນີເຫຼົ່ານີ້ມີ 4 ຂໍ້ດັ່ງຕໍ່ໄປນີ້:

ທີ່ Unimon, ພວກເຮົາໃຊ້ LoRA ສຳລັບການປັບແຕ່ງ AI ສ້າງຮູບພາບ. ຕໍ່ໄປນີ້ແມ່ນຕົວຢ່າງການປະຕິບັດຕົວຈິງຂອງການນຳໃຊ້ LoRA ກັບໂມເດລທີ່ອີງໃສ່ Stable Diffusion.
| ລາຍການ | ລາຍລະອຽດ |
|---|---|
| ເຄື່ອງມືການຝຶກ | kohya-ss/sd-scripts(ຮອງຮັບ SDXL) |
| GPU | RTX 40 ຊີຣີ(VRAM 12GB)— ຮາດແວສຳລັບຜູ້ບໍລິໂພກ |
| ຂໍ້ມູນການຝຶກ | 87 ຮູບພາບ + ຄຳບັນຍາຍຂໍ້ຄວາມ |
| ພາລາມິເຕີ LoRA | network_dim=32, network_alpha=16 |
| ອັອບທິໄມເຊີ | AdamW 8bit(ປະຢັດ VRAM) |
| ຄວາມແມ່ນຍຳຕົວເລກ | bf16(ປັບແຕ່ງສຳລັບ RTX 40 ຊີຣີ) |
| ຕົວຊີ້ວັດ | Full FT(ສົມມຸດຕິຖານ) | LoRA ນຳໃຊ້(ວັດຈິງ) |
|---|---|---|
| VRAM ທີ່ຕ້ອງການ | 24 GB ຂຶ້ນໄປ | 12 GB(50% ຫຼືຕ່ຳກວ່າ) |
| ເວລາຝຶກ | ຫຼາຍຊົ່ວໂມງ〜 | ປະມານ 40 ນາທີ |
| ຂະໜາດ Model | 6.5 GB(Full Model) | 325 MB(ສະເພາະ Adapter, ປະມານ 1/20) |
| ຄຸນນະພາບຜົນລັບ | Baseline | ທຽບເທົ່າ〜ດີກວ່າ(ໝັ້ນຄົງທີ່ weight 0.7) |
ການນຳໃຊ້ PEFT ເຮັດໃຫ້ ສາມາດປັບແຕ່ງ model ໄດ້ດ້ວຍ GPU ສຳລັບຜູ້ບໍລິໂພກພາຍໃນອົງກອນ ໂດຍບໍ່ຕ້ອງສະໝັກໃຊ້ສະພາບແວດລ້ອມ GPU cloud ທີ່ມີລາຄາແພງ. ນີ້ສະແດງໃຫ້ເຫັນວ່າ ວິສາຫະກິດຂະໜາດກາງ, ຂະໜາດນ້ອຍ ແລະ startup ທີ່ມີຊັບພະຍາກອນ GPU ຈຳກັດ ກໍສາມາດນຳການປັບແຕ່ງ AI model ມາດຳເນີນການພາຍໃນໄດ້ເຊັ່ນກັນ.

ພວກເຮົາໄດ້ລວບລວມຄຳຖາມທີ່ມັກຖືກຖາມເລື້ອຍໆໃນການພິຈາລະນານຳໃຊ້ PEFT.
PEFT ແລະ RAG ມີຈຸດປະສົງທີ່ແຕກຕ່າງກັນ. PEFT ແມ່ນເຕັກນິກທີ່ປ່ຽນ "ພຶດຕິກຳ" ຂອງໂມເດລ ໂດຍປັບປຸງຮູບແບບຜົນລັບ ແລະ ຄວາມຖືກຕ້ອງຂອງວຽກງານສະເພາະ. ໃນທາງກົງກັນຂ້າມ, RAG ແມ່ນເຕັກນິກທີ່ເສີມ "ຄວາມຮູ້" ຂອງໂມເດລ ໂດຍຄົ້ນຫາຂໍ້ມູນລ່າສຸດຈາກຖານຂໍ້ມູນພາຍນອກ ແລະ ສົ່ງໃຫ້ໂມເດລ.
| ເກນການຕັດສິນ | PEFT ເໝາະສົມ | RAG ເໝາະສົມ |
|---|---|---|
| ຕ້ອງການປ່ຽນຮູບແບບຜົນລັບຂອງໂມເດລ | ✅ | — |
| ຕ້ອງການສະທ້ອນຂໍ້ມູນລ່າສຸດ | — | ✅ |
| ຕ້ອງການເພີ່ມຄວາມຊ່ຽວຊານໃນໂດເມນສະເພາະ | ✅ | ✅(ໃຊ້ຮ່ວມກັນໄດ້) |
| ຄ່າໃຊ້ຈ່າຍ | ຕ້ອງການ GPU ສະເພາະໃນຊ່ວງການຝຶກສອນ | ມີຄ່າໃຊ້ຈ່າຍໃນການຄົ້ນຫາທຸກຄັ້ງທີ່ອະນຸມານ |
ໃນກໍລະນີສ່ວນໃຫຍ່, ການໃຊ້ PEFT ແລະ RAG ຮ່ວມກັນຈະໃຫ້ຜົນລັບທີ່ດີທີ່ສຸດ.
ດ້ວຍ QLoRA, ການຝຶກສອນໂມເດລ 7B parameters ສາມາດເຮັດໄດ້ດ້ວຍ GPU ສຳລັບຜູ້ບໍລິໂພກທີ່ມີ VRAM 12GB (ເຊັ່ນ RTX 4070). ສຳລັບ LoRA ຢ່າງດຽວ, ແນະນຳໃຫ້ໃຊ້ VRAM 16〜24GB (ເຊັ່ນ RTX 4090). ສຳລັບໂມເດລທີ່ມີຂະໜາດ 70B ຂຶ້ນໄປ, ອາດຈຳເປັນຕ້ອງໃຊ້ GPU ລະດັບເຊີບເວີ ເຊັ່ນ A100 80GB ເປັນຕົ້ນ.
ແມ່ນແລ້ວ, ເປັນໄປໄດ້. ໂດຍການນຳໃຊ້ PEFT ກັບ base model ທີ່ຮອງຮັບພາສາຍີ່ປຸ່ນ (ຕົວຢ່າງ: Llama 3 ພາສາຍີ່ປຸ່ນ, ELYZA ແລະອື່ນໆ), ທ່ານສາມາດປັບແຕ່ງໃຫ້ເໝາະສົມກັບ task ພາສາຍີ່ປຸ່ນໂດຍສະເພາະໄດ້. PEFT library ຂອງ Hugging Face ຍັງຮອງຮັບ model ພາສາຍີ່ປຸ່ນອີກດ້ວຍ.
ກວດສອບໃບອະນຸຍາດຂອງ base model ໃຫ້ແນ່ໃຈສະເໝີ. ເຖິງແມ່ນວ່າ LoRA adapter ເອງຈະເປັນໄຟລ໌ທີ່ເປັນເອກະລາດ, ແຕ່ເນື່ອງຈາກວ່າໃນເວລາ inference ຈະຖືກໃຊ້ງານຮ່ວມກັບ base model, ເງື່ອນໄຂໃບອະນຸຍາດຂອງ base model ຈຶ່ງຖືກນຳໃຊ້. ຫາກທ່ານວາງແຜນໃຊ້ງານໃນທາງການຄ້າ, ການເລືອກ model ທີ່ມີໃບອະນຸຍາດ Apache 2.0 ຫຼື MIT ຖືວ່າເປັນທາງເລືອກທີ່ປອດໄພ.

PEFT ແມ່ນເທັກໂນໂລຢີທີ່ຊ່ວຍຫຼຸດຜ່ອນອຸປະສັກດ້ານຄ່າໃຊ້ຈ່າຍໃນການປັບແຕ່ງ AI model ຢ່າງຫຼວງຫຼາຍ.
ເນື່ອງຈາກສາມາດຫຼຸດຜ່ອນ learning parameter ໄດ້ເຖິງ 99% ຂຶ້ນໄປ, ຈຶ່ງຊ່ວຍຫຼຸດຄ່າໃຊ້ຈ່າຍ GPU ແລະ ເວລາໃນການ train ໄດ້ຢ່າງຫຼວງຫຼາຍ. ຫາກທ່ານຍັງລັງເລໃນການເລືອກວິທີການ, ໃຫ້ລອງໃຊ້ LoRA ກ່ອນເປັນອັນດັບທຳອິດ. ສຳລັບສະພາບແວດລ້ອມທີ່ມີຂໍ້ຈຳກັດດ້ານ memory, QLoRA ແມ່ນທາງເລືອກທີ່ມີປະສິດທິພາບ. ດັ່ງຕົວຢ່າງກໍລະນີຂອງ Unimon ທີ່ໄດ້ນຳສະເໜີໃນບົດຄວາມນີ້, ການປັບແຕ່ງທີ່ໃຊ້ງານໄດ້ຈິງນັ້ນເປັນໄປໄດ້ຢ່າງສົມບູນແມ່ນແຕ່ກັບ GPU ລະດັບຜູ້ບໍລິໂພກ (12GB VRAM).
PEFT ແລະ RAG ບໍ່ແມ່ນເທັກໂນໂລຢີທີ່ຂັດແຍ່ງກັນ, ແຕ່ການໃຊ້ທັງສອງຮ່ວມກັນສາມາດເພີ່ມປະສິດທິພາບຂອງ custom AI ໄດ້ສູງສຸດ.
ສຳລັບຂັ້ນຕອນຕໍ່ໄປ, ໃຫ້ເລີ່ມຕົ້ນດ້ວຍການຈັດລຽງ use case ຂອງອົງກອນທ່ານ ແລະ ລະບຸວ່າ task ໃດທີ່ຕ້ອງການ model customization. ຂັ້ນຕອນມາດຕະຖານທີ່ຊ່ວຍຫຼຸດຄວາມສ່ຽງໄດ້ດີ ຄື: ການເລືອກ base model → PoC ດ້ວຍ LoRA + ຂໍ້ມູນຈຳນວນໜ້ອຍ → ນຳໃຊ້ໃນ production ຕົວຈິງ.
ຫາກທ່ານມີຄຳຖາມກ່ຽວກັບການປັບແຕ່ງ AI model, ກະລຸນາຕິດຕໍ່ Unimon. ນອກຈາກນີ້, ສຳລັບລາຍລະອຽດກ່ຽວກັບ AI/DX solution, ກະລຸນາເຂົ້າເບິ່ງ enison.ai ໄດ້ເລີຍ.
Yusuke Ishihara
ເລີ່ມຂຽນໂປຣແກຣມຕັ້ງແຕ່ອາຍຸ 13 ປີ ດ້ວຍ MSX. ຫຼັງຈົບການສຶກສາຈາກມະຫາວິທະຍາໄລ Musashi, ໄດ້ເຮັດວຽກໃນການພັດທະນາລະບົບຂະໜາດໃຫຍ່ ລວມທັງລະບົບຫຼັກຂອງສາຍການບິນ ແລະ ໂຄງສ້າງ Windows Server Hosting/VPS ທຳອິດຂອງຍີ່ປຸ່ນ. ຮ່ວມກໍ່ຕັ້ງ Site Engine Inc. ໃນປີ 2008. ກໍ່ຕັ້ງ Unimon Inc. ໃນປີ 2010 ແລະ Enison Inc. ໃນປີ 2025, ນຳພາການພັດທະນາລະບົບທຸລະກິດ, NLP ແລະ ແພລດຟອມ. ປັດຈຸບັນສຸມໃສ່ການພັດທະນາຜະลິດຕະພັນ ແລະ ການສົ່ງເສີມ AI/DX ໂດຍນຳໃຊ້ generative AI ແລະ LLM.