
AI Gateway ແມ່ນຊັ້ນ Middleware ທີ່ໃຊ້ເພື່ອລວມສູນການຮຽກໃຊ້ LLM Provider ຫຼາຍແຫ່ງ ເຊັ່ນ: OpenAI, Anthropic, Google ເຂົ້າໄວ້ໃນຈຸດດຽວ ເພື່ອຈັດການດ້ານການຢືນຢັນຕົວຕົນ, ການຄວບຄຸມຕົ້ນທຶນ, ການເຮັດ Failover ແລະ ການບັນທຶກ Audit log ຢ່າງເປັນລະບົບ. ບົດຄວາມນີ້ຈະສະຫຼຸບຫຍໍ້ກ່ຽວກັບບັນຫາທີ່ AI Gateway ສາມາດແກ້ໄຂໄດ້, ຫຼັກການເລືອກຜະລິດຕະພັນຫຼັກ (Cloudflare AI Gateway / LiteLLM / Portkey / Helicone), ແລະ ຂັ້ນຕອນການນຳເຂົ້າສູ່ລະບົບທີ່ມີຢູ່ແລ້ວຢ່າງເປັນຂັ້ນຕອນ ສຳລັບ CTO ແລະ SRE ທີ່ກຳລັງເລີ່ມຕົ້ນການນຳໃຊ້ LLM ຫຼາຍຕົວ. ບໍລິສັດຂອງພວກເຮົາໄດ້ປະສົບກັບຕົວຈິງໃນເວລາສ້າງ ໂຄງສ້າງພື້ນຖານ ຫຼື Infrastructure ດ້ານ AI ໃຫ້ກັບບໍລິສັດຍີ່ປຸ່ນທີ່ເຂົ້າມາລົງທຶນໃນໄທວ່າ ການມີ ຫຼື ບໍ່ມີ Gateway ນັ້ນສົ່ງຜົນຕໍ່ພາລະໃນການດຳເນີນງານ ແລະ ການເບິ່ງເຫັນພາບລວມຂອງຕົ້ນທຶນຢ່າງມະຫາສານ.
ໃນຂະນະທີ່ບໍລິສັດຕ່າງໆນັບມື້ນັບຫັນມາໃຊ້ຜູ້ໃຫ້ບໍລິການ LLM ຫຼາຍເຈົ້າຮ່ວມກັນ, ຊັ້ນທີ່ເອີ້ນວ່າ "AI Gateway" ກໍກຳລັງກາຍເປັນ ຈຸດສຳຄັນ ຫຼື ແກນຫຼັກ ທີ່ເປັນພື້ນຖານຮ່ວມກັນ. ໃນທີ່ນີ້, ກ່ອນອື່ນໝົດເຮົາຈະມາຈັດລະບຽບກັນວ່າ AI Gateway ແມ່ນຫຍັງ ແລະ ເປັນຫຍັງຈຶ່ງມີຄວາມຈຳເປັນຕ້ອງມີມັນ.
AI Gateway ແມ່ນມິດເດີແວ (Middleware) ທີ່ເຮັດໜ້າທີ່ລວມສູນ API Request ຈາກແອັບພລິເຄຊັນໄປຫາຜູ້ໃຫ້ບໍລິການ LLM ໂດຍມີການກຳນົດມາດຕະຖານການຢືນຢັນຕົວຕົນ, ການຈັດເສັ້ນທາງ (Routing), ການບັນທຶກ Log ແລະລະບົບປ້ອງກັນ (Guardrails) ໃຫ້ເປັນຮູບແບບດຽວກັນ. ຝັ່ງແອັບພລິເຄຊັນຈະເອີ້ນໃຊ້ພຽງແຕ່ Single Endpoint ຂອງ Gateway ເທົ່ານັ້ນ, ຈາກນັ້ນ Gateway ຈະເຮັດໜ້າທີ່ສົ່ງຂໍ້ມູນຕໍ່ໃຫ້ OpenAI, Anthropic, Google ຫຼື OSS Model ຂອງແຕ່ລະບໍລິສັດຢູ່ເບື້ອງຫຼັງ.
ແນວຄວາມຄິດນີ້ບໍ່ແມ່ນເລື່ອງໃໝ່. ໃນໂລກຂອງ Microservices, "API Gateway" ໄດ້ກາຍເປັນມາດຕະຖານໄປແລ້ວ ເຊິ່ງ Kong ຫຼື AWS API Gateway ໄດ້ຮັບໜ້າທີ່ໃນການຢືນຢັນຕົວຕົນ, ການກຳນົດ Rate Limit ແລະການບັນທຶກ Log ມາໂດຍຕະຫຼອດ. AI Gateway ກໍຄືເວີຊັນຂອງ LLM ທີ່ປ່ຽນເປົ້າໝາຍມາເປັນ "ການເອີ້ນໃຊ້ LLM ພາຍນອກ" ເທົ່ານັ້ນ.
ຢ່າງໃດກໍຕາມ, ມີ 2 ປັດໄຈສະເພາະຂອງ LLM ຄື: ຢ່າງທຳອິດແມ່ນການຄິດໄລ່ຄ່າໃຊ້ຈ່າຍຕາມ Token ເຊິ່ງຄວາມລະອຽດຂອງການຈັດການຕົ້ນທຶນຈະບໍ່ແມ່ນຈຳນວນ API ແຕ່ເປັນຈຳນວນ Token. ຢ່າງທີສອງແມ່ນເນື່ອງຈາກປະສິດທິພາບ, ຕົ້ນທຶນ ແລະ Latency ຂອງແຕ່ລະ Model ມີຄວາມແຕກຕ່າງກັນຫຼາຍ ຈຶ່ງເຮັດໃຫ້ມີຄວາມຕ້ອງການໃນການຈັດເສັ້ນທາງ (Routing) ຕາມຈຸດປະສົງການໃຊ້ງານທີ່ສູງ. ຄວາມແຕກຕ່າງນີ້ເອງທີ່ເຮັດໃຫ້ AI Gateway ກາຍເປັນໝວດໝູ່ສະເພາະ.
ເມື່ອສອງສາມປີກ່ອນ, ຫຼາຍບ່ອນຍັງຄິດວ່າ "OpenAI ພຽງບໍລິສັດດຽວກໍພຽງພໍແລ້ວ". ແຕ່ໃນປັດຈຸບັນ, ຮູບແບບການນຳໃຊ້ຫຼາຍໂມເດວຮ່ວມກັນພວມແຜ່ຂະຫຍາຍຢ່າງວ່ອງໄວ. ເຊິ່ງມີ 3 ເຫດຜົນດັ່ງນີ້:
ການຈັດຕັ້ງປະຕິບັດເພື່ອເອີ້ນໃຊ້ຫຼາຍໂມເດວໃນຕອນເລີ່ມຕົ້ນ ອາດຈະເຮັດໄດ້ພຽງແຕ່ "ການແຍກຕົວແປສະພາບແວດລ້ອມ (Environment variables) ແລະ ແຍກດ້ວຍຄຳສັ່ງ if". ແຕ່ເມື່ອຕ້ອງການເພີ່ມລະບົບ Failover, ການລວມຍອດຕົ້ນທຶນ, ແລະ Guardrails ໃນພາຍຫຼັງ, ລະຫັດດຽວກັນນັ້ນກໍຈະກະຈັດກະຈາຍຢູ່ໃນແຕ່ລະແອັບພລິເຄຊັນ. Gateway ເປັນເຄື່ອງມືສຳລັບການລວມຄວາມວຸ້ນວາຍເຫຼົ່ານັ້ນໄວ້ໃນຈຸດດຽວ. ຈາກປະສົບການຂອງບໍລິສັດພວກເຮົາ, ໃນຂັ້ນຕອນທີ່ມີການນຳໃຊ້ຫຼາຍກວ່າ 3 ໂມເດວຂຶ້ນໄປ, ຕົ້ນທຶນໃນການເຮັດ Gateway ຈະສາມາດຄືນທຶນໄດ້ຢ່າງແນ່ນອນ.
ຟັງຊັນທີ່ປະກອບເປັນ AI Gateway ສາມາດແບ່ງອອກໄດ້ເປັນ 3 ຊັ້ນຫຼັກໆ ຄື: ອິນເຕີເຟດແບບລວມສູນ ແລະ ການເຮັດວຽກສຳຮອງ (Failover), ການເບິ່ງເຫັນຕົ້ນທຶນ ແລະ ການຈຳກັດອັດຕາການໃຊ້ງານ (Rate limit), ລວມເຖິງລະບົບປ້ອງກັນ (Guardrails) ແລະ ບັນທຶກການສັງເກດການ (Observability logs). ຕໍ່ໄປນີ້, ພວກເຮົາຈະມາເບິ່ງກັນວ່າແຕ່ລະສ່ວນຈະຊ່ວຍແກ້ໄຂບັນຫາໃນໜ້າວຽກຕົວຈິງໄດ້ແນວໃດ.
ບົດບາດພື້ນຖານທີ່ສຸດຂອງ Gateway ແມ່ນການຫຼຸດຜ່ອນຄວາມແຕກຕ່າງຂອງ API ລະຫວ່າງຜູ້ໃຫ້ບໍລິການ. ຮູບແບບການນຳໃຊ້ທີ່ເປັນທີ່ນິຍົມຄືການຕັ້ງຮູບແບບການຮ້ອງຂໍທີ່ເຂົ້າກັນໄດ້ກັບ OpenAI ໄວ້ທີ່ທາງເຂົ້າ, ແລ້ວປ່ຽນເປັນການເອີ້ນໃຊ້ Anthropic, Google, ຫຼື Bedrock ຢູ່ພາຍໃນ. ໂຄ້ດທາງຝັ່ງແອັບພລິເຄຊັນຈຳເປັນຕ້ອງຮູ້ພຽງແຕ່ Endpoint ຂອງ Gateway ເທົ່ານັ້ນ, ແລະການສະຫຼັບ Model ສາມາດເຮັດໃຫ້ສຳເລັດໄດ້ດ້ວຍການປ່ຽນແປງການຕັ້ງຄ່າຢູ່ຝັ່ງ Gateway.
ນອກຈາກນັ້ນ, ສິ່ງທີ່ສຳຄັນແມ່ນ Failover. ໃນການດຳເນີນງານຕົວຈິງ, ກໍລະນີທີ່ OpenAI ສົ່ງຄ່າ 5xx ກັບມາແມ່ນເກີດຂຶ້ນໄດ້ແທ້. ການທີ່ Gateway ຮັບຜິດຊອບໃນການ Retry ແລະສະຫຼັບໄປຫາຜູ້ໃຫ້ບໍລິການອື່ນ, ເຮັດໃຫ້ການຈັດການຂໍ້ຜິດພາດທາງຝັ່ງແອັບພລິເຄຊັນຕ້ອງເບິ່ງແຍງພຽງແຕ່ "ກໍລະນີທີ່ Gateway ລົ້ມເຫຼວໃນທີ່ສຸດ" ເທົ່ານັ້ນ.
ສຳລັບຍຸດທະສາດການ Routing, ມີຮູບແບບຕ່າງໆເຊັ່ນ: (a) ແບບ Primary + Fallback, (b) ແບບ Escalation ຈາກ Model ທີ່ມີຕົ້ນທຶນຕໍ່າສຸດ, (c) ແບບແບ່ງ Traffic ສຳລັບ AB Testing. ຖ້າບໍ່ໄດ້ກຳນົດໄວ້ຕັ້ງແຕ່ຕອນອອກແບບວ່າ "Model ໃດເປັນ Primary ແລະຈະສະຫຼັບແນວໃດເມື່ອມີເຫດການເກີດຂຶ້ນ", Gateway ກໍຈະກາຍເປັນພຽງຈຸດທີ່ເຮັດໃຫ້ເກີດຄວາມຜິດພາດເທົ່ານັ້ນ.
ສິ່ງທີ່ຍາກຢ່າງບໍ່ຄາດຄິດໃນການນຳໃຊ້ LLM ຄືການຕິດຕາມວ່າ "ໃຜໃຊ້ແອັບໃດ ແລະ ໃຊ້ໄປຈັກ Token". ຄອນໂຊນຂອງຜູ້ໃຫ້ບໍລິການແຕ່ລະແຫ່ງຈະສະແດງພຽງຍອດລວມລາຍເດືອນເທົ່ານັ້ນ, ເຮັດໃຫ້ບໍ່ສາມາດຕິດຕາມລາຍລະອຽດແຍກຕາມແອັບ ຫຼື ພະແນກພາຍໃນບໍລິສັດໄດ້.
ເນື່ອງຈາກ AI Gateway ຢູ່ໃນຕຳແໜ່ງທີ່ຜ່ານການຮຽກໃຊ້ງານ, ມັນຈຶ່ງສາມາດໃສ່ Tag ເຊັ່ນ app_id ຫຼື user_id ໃນແຕ່ລະຄຳຮ້ອງຂໍ (Request) ເພື່ອລວບລວມຈຳນວນ Token ແລະ ຄ່າໃຊ້ຈ່າຍໄດ້. ສິ່ງນີ້ເຮັດໃຫ້ການລະບຸແອັບທີ່ເຮັດໃຫ້ເກີດຄ່າໃຊ້ຈ່າຍເກີນ, ການແບ່ງສັນປັນສ່ວນຄ່າໃຊ້ຈ່າຍໃຫ້ພະແນກທີ່ນຳໃຊ້, ແລະ ການຕັ້ງຄ່າ Rate Limit ສຳລັບຜູ້ໃຊ້ງານຟຣີ ກາຍເປັນເລື່ອງທີ່ເປັນໄປໄດ້ໃນທາງປະຕິບັດ.
ໃນທາງປະຕິບັດ, ມັນມີຄຸນຄ່າຢ່າງຍິ່ງໃນການປ້ອງກັນຂໍ້ຜິດພາດ ເຊັ່ນ: "ເຄື່ອງມືພາຍໃນບາງຢ່າງໃຊ້ Token ເກີນກວ່າທີ່ຄາດໄວ້ເຖິງ 10 ເທົ່າ" ຫຼື "ການລືມປິດໂມເດວທີ່ມີຄ່າໃຊ້ຈ່າຍສູງທີ່ໃຊ້ໃນການທົດສອບສຳລັບການສາທິດການຂາຍ ໄວ້ໃນລະບົບການຜະລິດ". ຖ້າສາມາດອອກແບບຄວາມລະອຽດຂອງ Rate Limit ດ້ວຍການປະສົມປະສານລະຫວ່າງ "ໜ່ວຍຜູ້ໃຊ້ + ໜ່ວຍ IP + ໜ່ວຍແຜນການ" ໄດ້, ກໍຈະຊ່ວຍປ້ອງກັນງົບປະມານໝົດໄປຍ້ອນຜູ້ໃຊ້ໃນແຜນຟຣີໄດ້ງ່າຍຂຶ້ນ.
AI Gateway ເປັນຈຸດທີ່ເໝາະສົມໃນການໃສ່ Guardrail ເນື່ອງຈາກມັນເປັນທາງຜ່ານຂອງທັງ Request ແລະ Response. ຕົວຢ່າງຂອງ Guardrail ທີ່ສຳຄັນມີດັ່ງນີ້:
ນອກຈາກນີ້, ການທີ່ສາມາດບັນທຶກທຸກ Request/Response ໄວ້ເປັນ Log ກໍເປັນມູນຄ່າຂອງ Gateway ເຊັ່ນກັນ. ບໍ່ວ່າຈະເປັນການ Replay ເມື່ອເກີດບັນຫາ, ການຕິດຕາມຄຸນນະພາບທີ່ຫຼຸດລົງ, ຫຼື ການນຳສະເໜີຕໍ່ການກວດສອບພາຍໃນ, ສະຖານະການທີ່ຕ້ອງການ "ເບິ່ງຜົນລັອບໃນຕອນນັ້ນ" ຈະເກີດຂຶ້ນຢ່າງແນ່ນອນ. ການລວມສູນໄວ້ທີ່ Gateway ຈະຊ່ວຍຫຼຸດຜ່ອນການຕົກຫຼົ່ນຂອງຂໍ້ມູນ ໄດ້ດີກວ່າການແຍກປະຕິບັດ Log ຢູ່ຝັ່ງແອັບພລິເຄຊັນ.
ຢ່າງໃດກໍຕາມ, ເນື່ອງຈາກ Log ອາດມີຂໍ້ມູນສ່ວນບຸກຄົນລວມຢູ່ດ້ວຍ ຈຶ່ງຈຳເປັນຕ້ອງກຳນົດໄລຍະເວລາການເກັບຮັກສາ, ການຄວບຄຸມການເຂົ້າເຖິງ ແລະ ການເຂົ້າລະຫັດໃຫ້ຊັດເຈນຕັ້ງແຕ່ເລີ່ມຕົ້ນ.
ທາງເລືອກໃນຂົງເຂດ AI Gateway ສາມາດແບ່ງອອກເປັນ 2 ປະເພດຫຼັກ ຄື: Full-managed SaaS ແລະ OSS Self-host. ຕໍ່ໄປນີ້ແມ່ນການສະຫຼຸບຄຸນລັກສະນະຂອງຜະລິດຕະພັນທີ່ເປັນຕົວແທນ.
Cloudflare AI Gateway ແມ່ນ Managed AI Gateway ທີ່ເຮັດວຽກຢູ່ເທິງ Edge Network ຂອງ Cloudflare. ແອັບພລິເຄຊັນພຽງແຕ່ເອີ້ນໃຊ້ Endpoint ທີ່ Cloudflare ຈັດຫາໃຫ້ ກໍສາມາດນຳໃຊ້ລະບົບ Log, Cache, Rate Limit ແລະ ການລວມຍອດຕົ້ນທຶນທີ່ຕິດຕັ້ງມາພ້ອມໄດ້ເລີຍ.
ຂໍ້ດີແມ່ນການນຳໃຊ້ທີ່ງ່າຍດາຍຫຼາຍ. ຖ້າມີບັນຊີ Cloudflare ກໍສາມາດສ້າງເສັ້ນທາງ (Route) ໄດ້ພາຍໃນບໍ່ເທົ່າໃດນາທີຈາກໜ້າຈໍຕັ້ງຄ່າ ແລະ ສາມາດສົ່ງຂໍ້ມູນຕໍ່ໃຫ້ຜູ້ໃຫ້ບໍລິການຫຼັກໆ ເຊັ່ນ: Workers AI, OpenAI, Anthropic, Replicate, Hugging Face Inference ໄດ້ໂດຍກົງ.
ໃນທາງກົງກັນຂ້າມ, ເນື່ອງຈາກເຮັດວຽກຢູ່ເທິງ Edge ຈຶ່ງມີຂໍ້ຈຳກັດໃນການແຊກຂະບວນການ Guardrail ສະເພາະຕົວເຂົ້າໄປ. ຖ້າຫາກຕ້ອງການນະໂຍບາຍທີ່ຊັບຊ້ອນ ຫຼື ຕ້ອງການຮອງຮັບຜູ້ໃຫ້ບໍລິການສະເພາະຕົວ, ການນຳໃຊ້ຮ່ວມກັບ OSS ທີ່ກ່າວເຖິງໃນພາຍຫຼັງ ຫຼື ພິຈາລະນາ SaaS ອື່ນຈະເປັນທາງເລືອກທີ່ເໝາະສົມກວ່າ. ກ່ອນການນຳໃຊ້ຈິງ, ຕ້ອງກວດສອບລາຄາລ່າສຸດ ແລະ ລາຍຊື່ຜູ້ໃຫ້ບໍລິການທີ່ຮອງຮັບໃນເອກະສານທາງການສະເໝີ.
LiteLLM ແມ່ນ OSS ພາຍໃຕ້ໃບອະນຸຍາດ MIT, ເປັນຫໍສະໝຸດ (Library) ຫຼື ພຣັອກຊີ (Proxy) ທີ່ມີຈຸດປະສົງເພື່ອລວມເອົາຜູ້ໃຫ້ບໍລິການ LLM ຫຼາຍກວ່າ 100 ແຫ່ງມາໄວ້ໃນອິນເຕີເຟດດຽວທີ່ຮອງຮັບ OpenAI. ທ່ານສາມາດນຳໄປຝັງໃນແອັບພລິເຄຊັນໂດຍກົງໃນຖານະ Python Library ຫຼື ຈະເປີດໃຊ້ງານເປັນ Proxy Server ແຍກຕ່າງຫາກກໍໄດ້.
ໃນກໍລະນີທີ່ດຳເນີນການແບບ Self-host, ທ່ານສາມາດນຳໄປໃຊ້ງານເທິງ Docker / Kubernetes ເພື່ອຕັ້ງຄ່າການຈັດການຜູ້ໃຊ້, ການຈັດການທີມ, ການກຳນົດງົບປະມານສູງສຸດ ແລະ ການກຳນົດເສັ້ນທາງ (Routing) ຕາມຮູບແບບຂອງ Model ໄດ້. ຊຸມຊົນມີຄວາມເຄື່ອນໄຫວສູງ ແລະ ມີຄວາມໄວໃນການຮອງຮັບ Model ໃໝ່ໆ.
ສຳລັບໜ້າວຽກທີ່ຕ້ອງການດຳເນີນການ Gateway ໃນສະພາບແວດລ້ອມ On-premise ຫຼື ພາຍໃນ VPC ສະເພາະ, LiteLLM ມັກຈະເປັນຕົວເລືອກທຳອິດທີ່ຖືກພິຈາລະນາ. ໃນທາງກົງກັນຂ້າມ, ບໍ່ຄືກັບ SaaS, ທ່ານຈຳເປັນຕ້ອງດຳເນີນການຕິດຕາມກວດກາ, ອັບເດດ ແລະ ຂະຫຍາຍລະບົບ (Scaling) ດ້ວຍຕົນເອງ, ສະນັ້ນຈຶ່ງຈຳເປັນຕ້ອງມີໂຄງສ້າງທີມ SRE ເປັນພື້ນຖານ. ກ່ອນທີ່ຈະນຳໄປໃຊ້ງານຈິງ, ແນະນຳໃຫ້ກວດສອບລາຍຊື່ຜູ້ໃຫ້ບໍລິການທີ່ຮອງຮັບ ແລະ ເງື່ອນໄຂໃບອະນຸຍາດໄດ້ທີ່ Repository ທາງການ.
Portkey ແມ່ນຜະລິດຕະພັນ AI Gateway ທີ່ໃຫ້ບໍລິການທັງແບບ Managed SaaS ແລະ OSS Proxy ເຊິ່ງສະໜອງການບໍລິການແບບຄົບວົງຈອນ ບໍ່ວ່າຈະເປັນການຕິດຕາມ Log, Guardrails, ການຈັດການ Prompt Template ແລະ Cache. ຈຸດເດັ່ນຂອງມັນຄືຄວາມງ່າຍໃນການນຳໃຊ້ພຽງແຕ່ປ່ຽນ SDK ກໍສາມາດໃຊ້ງານໄດ້ທັນທີ ລວມເຖິງມີຟັງຊັນການຈັດການທີ່ຄົບຖ້ວນເພື່ອຮອງຮັບການໃຊ້ງານໃນລະດັບອົງກອນ.
Helicone ແມ່ນ OSS / SaaS ທີ່ເນັ້ນໜັກໃສ່ຄວາມສາມາດໃນການສັງເກດການ (Observability) ຂອງ LLM ເຊິ່ງມາພ້ອມກັບຟັງຊັນການບັນທຶກ Request Log, ການຕິດຕາມປະລິມານການໃຊ້ງານແຍກຕາມຜູ້ໃຊ້, ການສະຫຼຸບຕົ້ນທຶນ ແລະ Cache. ຜູ້ໃຊ້ສາມາດເລືອກວິທີການນຳໃຊ້ໄດ້ທັງແບບປ່ຽນ SDK ຫຼື ແບບ Proxy ທີ່ພຽງແຕ່ປ່ຽນ Base URL ເທົ່ານັ້ນ.
ເຖິງແມ່ນວ່າທັງສອງຜະລິດຕະພັນຈະມີຟັງຊັນທີ່ທັບຊ້ອນກັນຫຼາຍ ແຕ່ກໍມີຄວາມແຕກຕ່າງກັນຢ່າງເຫັນໄດ້ຊັດຄື: Portkey ຈະເນັ້ນໄປທາງດ້ານ Guardrails ແລະ ການຈັດການລະດັບອົງກອນ (Enterprise Management), ສ່ວນ Helicone ຈະເນັ້ນໄປທາງດ້ານການຕິດຕາມ Log ແລະ ການວິເຄາະຕົ້ນທຶນ. ສຳລັບອົງກອນທີ່ໃຊ້ຜູ້ໃຫ້ບໍລິການຫຼາຍເຈົ້າຢູ່ແລ້ວ ແລະ ຕ້ອງການເລີ່ມຕົ້ນຈາກການສັງເກດການ (Observability) ເປັນຫຼັກ Helicone ຈະເປັນທາງເລືອກທີ່ເໝາະສົມ, ແຕ່ຖ້າຕ້ອງການຈັດການແບບຄົບວົງຈອນລວມເຖິງ Guardrails ດ້ວຍນັ້ນ Portkey ຈະເປັນທາງເລືອກທີ່ຕັດສິນໃຈໄດ້ງ່າຍກວ່າ.
ເມື່ອສະເໜີ AI Gateway, ຄຳຖາມທີ່ມັກຈະຖືກຖາມເລື້ອຍໆຄື: "ສຸດທ້າຍແລ້ວມັນກໍຄື Reverse Proxy ແມ່ນບໍ່?" ຫຼື "ຖ້າຕິດຕັ້ງແລ້ວ ຄ່າໃຊ້ຈ່າຍຈະຫຼຸດລົງໂດຍອັດຕະໂນມັດແມ່ນບໍ່?". ທັງສອງຢ່າງນີ້ເປັນຄວາມເຂົ້າໃຈຜິດ ເຊິ່ງຈະເຮັດໃຫ້ການຕັດສິນໃຈໃນໜ້າວຽກບິດເບືອນໄປ. ຂໍອະທິບາຍໃຫ້ເຂົ້າໃຈຕາມລຳດັບດັ່ງນີ້.
ໃນທາງເຕັກນິກແລ້ວ AI Gateway ແມ່ນປະເພດໜຶ່ງຂອງ Reverse Proxy. ແຕ່ຖ້າຖືກຖາມວ່າ "ມັນແຕກຕ່າງຈາກການໃຊ້ nginx ມາຂັ້ນກາງແນວໃດ", ຄຳຕອບກໍຄື "ຄວາມສາມາດໃນການລວມເອົາການປະມວນຜົນທີ່ເຂົ້າໃຈບໍລິບົດຂອງ LLM ເຂົ້າໄປໄດ້".
Reverse Proxy ທົ່ວໄປພຽງແຕ່ສົ່ງຕໍ່ Byte stream ເທົ່ານັ້ນ ໂດຍບໍ່ໄດ້ນັບຈຳນວນ Token, ບໍ່ໄດ້ກວດຫາສັນຍານຂອງ Prompt Injection ແລະ ບໍ່ໄດ້ປິດບັງ PII. ຈຸດສຳຄັນ ຫຼື ແກນຫຼັກ ທີ່ແຕກຕ່າງກັນກໍຄື AI Gateway ສາມາດເຂົ້າໃຈໂຄງສ້າງ JSON ຂອງ LLM API ແລະ ສາມາດນຳໃຊ້ການປະມວນຜົນສະເພາະຂອງ LLM ກັບຂໍ້ຄວາມໃນ Request/Response ໄດ້.
ດັ່ງນັ້ນ, ຖ້າ SRE ຕັດສິນໃຈວ່າ "Load Balancer ກໍພຽງພໍແລ້ວ" ແລະ ພະຍາຍາມໃຊ້ nginx/Envoy ທີ່ມີຢູ່ແລ້ວມາທົດແທນ, ມັນຈະບໍ່ມີລະບົບການລວມຍອດຄ່າໃຊ້ຈ່າຍ ແລະ Guardrails ເຂົ້າໄປນຳ, ເຊິ່ງສຸດທ້າຍກໍຕ້ອງໄດ້ກັບມາຂຽນໂຄ້ດໃສ່ໃນຝັ່ງແອັບພລິເຄຊັນຄືເກົ່າ. ການເບິ່ງວ່າ AI Gateway ເປັນ "Control plane ທີ່ອອກແບບມາສະເພາະສຳລັບ LLM" ຈະຊ່ວຍຫຼຸດຜ່ອນການເຮັດວຽກຊ້ຳຊ້ອນໄດ້ຫຼາຍກວ່າ.
ຄຳອະທິບາຍທີ່ວ່າ "ຖ້າໃສ່ Gateway ແລ້ວຄ່າໃຊ້ຈ່າຍຈະຫຼຸດລົງ" ເປັນສິ່ງທີ່ມັກໄດ້ຍິນເລື້ອຍໆໃນບໍລິບົດການຂາຍຂອງຝ່າຍ Vendor. ແຕ່ໃນຄວາມເປັນຈິງແລ້ວ ມັນບໍ່ໄດ້ງ່າຍດາຍແບບນັ້ນ.
ຕົວ Gateway ເອງບໍ່ແມ່ນອຸປະກອນທີ່ "ຫຼຸດ" ຄ່າໃຊ້ຈ່າຍ ແຕ່ເປັນອຸປະກອນທີ່ "ເຮັດໃຫ້ເຫັນພາບ" ຂອງຄ່າໃຊ້ຈ່າຍ. ຄ່າໃຊ້ຈ່າຍຈະຫຼຸດລົງຫຼືບໍ່ນັ້ນ ແມ່ນຂຶ້ນຢູ່ກັບວ່າຫຼັງຈາກເຮັດໃຫ້ເຫັນພາບແລ້ວ ໄດ້ມີການຈັດຕັ້ງປະຕິບັດສິ່ງເຫຼົ່ານີ້ຫຼືບໍ່: (a) ການ Routing ໄປຫາ Model ທີ່ມີລາຄາຖືກກວ່າຕາມການນຳໃຊ້, (b) ການເປີດໃຊ້ງານ Prompt Cache ແລະ Semantic Cache, (c) ການຄວບຄຸມການຮຽກໃຊ້ງານທີ່ມີຄວາມຖີ່ສູງທີ່ບໍ່ຈຳເປັນ.
ຫຼັງຈາກການນຳໃຊ້ໃນໄລຍະທຳອິດ, ມີຄວາມເປັນໄປໄດ້ສູງທີ່ຄ່າໃຊ້ຈ່າຍອາດຈະເພີ່ມຂຶ້ນຈາກຄ່າດຳເນີນງານຂອງ Gateway ເອງ. ດ້ວຍເຫດນີ້, ການຕົກລົງກັນຕັ້ງແຕ່ຕົ້ນວ່າ "ການນຳໃຊ້ Gateway = KPI ການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍ" ຈຶ່ງເປັນເລື່ອງທີ່ອັນຕະລາຍ, ການຕົກລົງກັບຜູ້ກ່ຽວຂ້ອງຕາມລຳດັບວ່າ "ການເຮັດໃຫ້ເຫັນພາບຂອງຄ່າໃຊ້ຈ່າຍ → ການປັບໃຫ້ເໝາະສົມ (Optimization) → ການຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍທີ່ເປັນຜົນຕາມມາ" ຈຶ່ງເປັນວິທີທີ່ເປັນຈິງຫຼາຍກວ່າ.
AI Gateway ແມ່ນເໝາະສົມກັບການປ່ຽນແທນແບບເປັນຂັ້ນຕອນ ຫຼາຍກວ່າການນຳໃຊ້ແບບ Big Bang. ພວກຂ້າພະເຈົ້າຂໍແນະນຳວິທີການດຳເນີນງານທີ່ໄດ້ນຳໃຊ້ໃນຫຼາຍໂຄງການ ໂດຍແບ່ງອອກເປັນ 2 ເຟສດັ່ງນີ້.
ໄລຍະທຳອິດແມ່ນສຸມໃສ່ພຽງແຕ່ "ການສົ່ງການຮຽກໃຊ້ LLM ທີ່ມີຢູ່ແລ້ວຜ່ານ Gateway ເທົ່ານັ້ນ". ໂດຍຈະບໍ່ເພີ່ມຟັງຊັນໃໝ່ໃດໆ.
ໂດຍສະເພາະ, ໃຫ້ດຳເນີນການດັ່ງຕໍ່ໄປນີ້:
ສິ່ງທີ່ສຳຄັນໃນໄລຍະນີ້ແມ່ນລະບຽບວິໄນທີ່ວ່າ "ຫ້າມເພີ່ມຟັງຊັນ". ຖ້າຫາກເປີດໃຊ້ງານ Guardrail, ການແບ່ງປັນຕົ້ນທຶນ (Cost allocation), ຫຼື Cache ພ້ອມກັນໃນເວລາດຽວ, ມັນຈະເຮັດໃຫ້ການແຍກແຍະສາເຫດຂອງບັນຫາເມື່ອເກີດຂຶ້ນນັ້ນມີຄວາມຫຍຸ້ງຍາກ. ກ່ອນອື່ນໝົດ, ໃຫ້ສ້າງສະຖານະທີ່ "ມີ Gateway ຢູ່ກາງໂດຍທີ່ຍັງຄົງພຶດຕິກຳການເຮັດວຽກແບບເດີມໄວ້".
ເມື່ອ Phase 1 ມີຄວາມສະຖຽນແລ້ວ, ໃຫ້ຄ່ອຍໆປົດລັອກຄຸນຄ່າທີ່ Gateway ມີຢູ່ແລ້ວອອກມາເປັນໄລຍະ.
ລຳດັບຄວາມສຳຄັນມີດັ່ງນີ້:
ການບໍ່ໃສ່ທຸກຢ່າງລົງໄປພ້ອມກັນ, ແຕ່ເລືອກເພີ່ມເທື່ອລະ 1-2 ຟັງຊັນໃນທຸກໆໄຕມາດ ແມ່ນວິທີທີ່ເປັນໄປໄດ້ຫຼາຍທີ່ສຸດ. ເຊິ່ງຈະເຮັດໃຫ້ເຫັນທັງພາລະໃນການດຳເນີນງານຂອງອົງກອນ ແລະ ຜົນຕອບແທນທີ່ຈະໄດ້ຮັບ.
ການເລືອກໃຊ້ຜະລິດຕະພັນແມ່ນມີຄວາມເປັນໄປໄດ້ຫຼາຍກວ່າ. ເນື່ອງຈາກຜູ້ໃຫ້ບໍລິການ LLM ມີການປ່ຽນແປງ API, ຮູບແບບຂອງ Model ແລະ ໂຄງສ້າງລາຄາເປັນລາຍເດືອນ, ຕົ້ນທຶນໃນການຮັກສາ Gateway ທີ່ສ້າງເອງຈຶ່ງມີແນວໂນ້ມທີ່ຈະເພີ່ມທະວີຂຶ້ນເລື້ອຍໆ ເທົ່າກັບ ຫຼື ຫຼາຍກວ່າການພັດທະນາຟີເຈີຂອງແອັບພລິເຄຊັນ. ສຳລັບອົງກອນທີ່ບໍ່ສາມາດຈັດສັນຊັບພະຍາກອນ SRE ໄປໄວ້ໃນສ່ວນທີ່ບໍ່ໄດ້ສ້າງຄວາມແຕກຕ່າງໂດຍກົງ, ການຕັດສິນໃຈເລືອກໃຊ້ຜະລິດຕະພັນທີ່ມີຢູ່ແລ້ວຈຶ່ງເປັນທາງເລືອກທີ່ສົມເຫດສົມຜົນ.
ໃນຫຼາຍກໍລະນີແມ່ນມີຄວາມຈຳເປັນ. ເນື່ອງຈາກ API Gateway ທີ່ມີຢູ່ແລ້ວບໍ່ເຂົ້າໃຈໂຄງສ້າງ JSON ຂອງ LLM ແລະ ການຄິດໄລ່ຄ່າທຳນຽມຕາມຈຳນວນ Token, ດັ່ງນັ້ນການແບ່ງສັດສ່ວນຕົ້ນທຶນ, ການປິດບັງຂໍ້ມູນ PII, ແລະ ການປ້ອງກັນ Prompt Injection ຈຶ່ງຕ້ອງໄດ້ມີການຈັດຕັ້ງປະຕິບັດແຍກຕ່າງຫາກ. ການຈັດໃຫ້ API Gateway ທີ່ມີຢູ່ແລ້ວເປັນດ່ານໜ້າ ແລະ AI Gateway ເປັນດ່ານຫຼັງ ເພື່ອແຍກຄວາມຮັບຜິດຊອບອອກຈາກກັນຈະເຮັດໃຫ້ການຈັດການງ່າຍຂຶ້ນ.
ບໍ່ແນະນຳ. ເນື່ອງຈາກຈະເຮັດໃຫ້ຈຸດປະສົງໃນການລວມສູນການແບ່ງສັດສ່ວນຕົ້ນທຶນ, ລະບົບປ້ອງກັນ (Guardrails), ແລະ ບັນທຶກການສັງເກດການ (Observability logs) ຫຼຸດໜ້ອຍລົງ. ການກຳນົດໃຫ້ເປັນມາດຕະຖານດຽວກັນຕາມໜ່ວຍງານຂອງອົງກອນ ຫຼື ຕາມ Tenant ແມ່ນມີຄວາມເປັນໄປໄດ້ຫຼາຍກວ່າ.
ມີຄວາມເປັນໄປໄດ້ທີ່ຈະກາຍເປັນຈຸດທີ່ເຮັດໃຫ້ລະບົບລົ້ມເຫຼວທັງໝົດ. ຖ້າເລືອກໃຊ້ Managed SaaS, ຕ້ອງອອກແບບ SLA ແລະ ການຕັ້ງຄ່າ Region ໃຫ້ດີ, ແລະ ຖ້າຫາກເປັນການ Self-host ດ້ວຍ OSS ກໍຕ້ອງອອກແບບລະບົບ Redundancy, ການກວດສອບສຸຂະພາບຂອງລະບົບ (Health check), ແລະ ຂັ້ນຕອນການ Failback ໄວ້ໃຫ້ພ້ອມສະເໝີ.
ສະຫຼຸບຈຸດສຳຄັນຂອງການນຳໃຊ້ AI Gateway:
ເມື່ອເລີ່ມຕົ້ນການນຳໃຊ້ LLM ຫຼາຍໂມເດວ, ການອອກແບບໂດຍຄິດວ່າຈະ "ເພີ່ມ Gateway ເຂົ້າໄປກ່ອນ" ແທນທີ່ຈະ "ເພີ່ມຕາມຫຼັງ" ຈະຊ່ວຍຫຼຸດພາລະໃນການດຳເນີນງານ ແລະ ຕົ້ນທຶນດ້ານການກຳກັບດູແລໃນອະນາຄົດໄດ້ຢ່າງຫຼວງຫຼາຍ. ໃນໜ້າວຽກທີ່ພວກເຮົາໃຫ້ການສະໜັບສະໜູນ, ການມີ ຫຼື ບໍ່ມີ Gateway ແມ່ນມີຜົນໂດຍກົງຕໍ່ຄວາມໄວໃນການພັດທະນາ ໂຄງສ້າງພື້ນຖານ ຫຼື Infrastructure ດ້ານ AI ໃຫ້ມີຄວາມເຕີບໃຫຍ່.

Yusuke Ishihara
ເລີ່ມຂຽນໂປຣແກຣມຕັ້ງແຕ່ອາຍຸ 13 ປີ ດ້ວຍ MSX. ຫຼັງຈົບການສຶກສາຈາກມະຫາວິທະຍາໄລ Musashi, ໄດ້ເຮັດວຽກໃນການພັດທະນາລະບົບຂະໜາດໃຫຍ່ ລວມທັງລະບົບຫຼັກຂອງສາຍການບິນ ແລະ ໂຄງສ້າງ Windows Server Hosting/VPS ທຳອິດຂອງຍີ່ປຸ່ນ. ຮ່ວມກໍ່ຕັ້ງ Site Engine Inc. ໃນປີ 2008. ກໍ່ຕັ້ງ Unimon Inc. ໃນປີ 2010 ແລະ Enison Inc. ໃນປີ 2025, ນຳພາການພັດທະນາລະບົບທຸລະກິດ, NLP ແລະ ແພລດຟອມ. ປັດຈຸບັນສຸມໃສ່ການພັດທະນາຜະลິດຕະພັນ ແລະ ການສົ່ງເສີມ AI/DX ໂດຍນຳໃຊ້ generative AI ແລະ LLM.
