Local LLM คือรูปแบบการใช้งานที่รันโมเดลภาษาขนาดใหญ่ (Large Language Model) โดยตรงบนเซิร์ฟเวอร์หรือพีซีของตนเอง โดยไม่ผ่าน Cloud API
การใช้ ChatGPT หรือ Claude API ช่วยให้เข้าถึงความสามารถของ LLM ได้อย่างสะดวก แต่ถึงกระนั้นก็ยังมีเหตุผลหลัก 3 ประการที่ทำให้เลือกใช้การรันแบบ Local
ประการแรกคือกรณีที่ต้องการหลีกเลี่ยงการส่งข้อมูลออกภายนอก ไม่ว่าจะเป็นเวชระเบียน เอกสารทางกฎหมาย หรือข้อมูลลับภายในองค์กร มีหลายสถานการณ์ที่การส่งข้อมูลไปยัง Cloud API นั้นไม่เป็นที่ยอมรับในแง่ของการปฏิบัติตามกฎระเบียบ (Compliance) ประการที่สองคือปัญหาด้านโครงสร้างต้นทุน แม้ API จะคิดค่าบริการตามการใช้งานเป็นหลัก แต่หากต้องรัน Inference จำนวนมากเป็นประจำ การมี GPU หนึ่งใบเป็นของตัวเองอาจคุ้มค่ากว่า และประการที่สามคือข้อกำหนดด้าน Latency และการใช้งานแบบ Offline ในสภาพแวดล้อมที่ไม่สามารถพึ่งพาการเชื่อมต่ออินเทอร์เน็ตที่เสถียรได้ เช่น สายการผลิตในโรงงานหรือพื้นที่ห่างไกล การรันแบบ Local จึงเป็นทางเลือกเดียวที่เป็นไปได้
สิ่งที่ต้องมีขั้นต่ำคือ GPU ไฟล์ Weight ของโมเดล และ Inference Engine เครื่องมือที่นิยมใช้เป็น Inference Engine ได้แก่ llama.cpp, vLLM และ Ollama โดยเฉพาะ Ollama นั้นสามารถดาวน์โหลดและเปิดใช้งานโมเดลได้ด้วยคำสั่งเพียงคำสั่งเดียว เช่น ollama run llama3 ซึ่งช่วยลดอุปสรรคในการเริ่มต้นใช้งานได้อย่างมาก
ความสัมพันธ์ระหว่างขนาดโมเดลและฮาร์ดแวร์นั้นตรงไปตรงมา กล่าวคือยิ่งจำนวน Parameter มาก ก็ยิ่งต้องการ VRAM มากขึ้น โมเดลขนาด 7–8B Parameter สามารถรันได้บน GPU สำหรับผู้บริโภค (เช่น RTX 4090) แต่หากมีขนาด 70B ขึ้นไปก็จำเป็นต้องใช้ GPU ระดับ A100 หรือ H100 การใช้ Quantization (4bit, 8bit) สามารถลดหน่วยความจำที่ต้องการลงได้มากกว่าครึ่ง แต่ก็หลีกเลี่ยงการแลกเปลี่ยนกับความแม่นยำไม่ได้
การ "ย้ายทุกอย่างไปยัง Local" นั้นในหลายกรณีไม่ใช่แนวทางที่ปฏิบัติได้จริง การจำลองประสิทธิภาพในระดับ ChatGPT หรือ Claude Opus แบบ Local ยังคงมีต้นทุนสูงแม้ในปี 2026 ในทางปฏิบัติ การใช้งานแบบ Hybrid ที่ประมวลผลข้อมูลที่มีความลับสูงแบบ Local ส่วนที่เหลือใช้ API มักจะเป็นจุดสมดุลที่เหมาะสม
ในทางกลับกัน การนำ SLM (Small Language Model) ที่เชี่ยวชาญเฉพาะงานมา Fine-tuning แล้วรันแบบ Local อาจให้ความแม่นยำสูงกว่าและต้นทุนต่ำกว่า API แบบ General-purpose การจำกัดขอบเขตการใช้งานคือกุญแจสำคัญในการเพิ่มความคุ้มค่าของ Local LLM ให้สูงสุด


LLM (Large Language Model) คือชื่อเรียกรวมของโมเดลเครือข่ายประสาทเทียมที่มีพารามิเตอร์ตั้งแต่หลายพันล้านถึงหลายล้านล้านตัว ซึ่งผ่านการเรียนรู้ล่วงหน้าด้วยข้อมูลข้อความจำนวนมหาศาล และสามารถทำความเข้าใจและสร้างภาษาธรรมชาติได้อย่างแม่นยำสูง

SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

เทคโนโลยีการบีบอัดหน่วยความจำสำหรับ LLM ที่พัฒนาโดย Google ใช้การ Quantization เพื่อลดการใช้หน่วยความจำได้สูงสุดถึง 1/6 และเพิ่มความเร็วในการ Inference ได้สูงสุดถึง 8 เท่า


การเปรียบเทียบการติดตั้ง LLM / SLM แบบโลคอล — การใช้ AI โดยไม่พึ่งพา Cloud API