ガードレール（AI Guardrails）（エーアイガードレール）とは？

ガードレール（AI Guardrails）

エーアイガードレール

更新日:2026年3月25日作成日:2026年3月25日

LLMの入出力を監視し、有害コンテンツや機密情報漏洩、ポリシー違反を自動検出・遮断する安全機構。

ガードレールとは

ガードレール（AI Guardrails）とは、LLM の入出力を監視し、有害コンテンツの生成、機密情報の漏洩、ポリシー違反を自動で検出・遮断する安全機構の総称である。道路のガードレールが車両の逸脱を防ぐように、AI の振る舞いを許容範囲内に留める。

ガードレールは大きく二つのレイヤーで機能する。

入力ガードレール: ユーザーの入力がモデルに到達する前に検査する。プロンプトインジェクションの検出、個人情報（PII）のマスキング、トピック制限（業務外の質問を遮断）などが該当する。

出力ガードレール: モデルの応答がユーザーに返される前に検査する。有害表現のフィルタリング、事実性の検証（グラウンディング）、機密データの漏洩チェックなどを行う。

ルールベース（正規表現、キーワードリスト）と ML ベース（分類モデル、別の LLM による評価）を組み合わせるのが一般的だ。OWASP LLM Top 10 が示すリスクカテゴリに沿ってガードレールを設計すると網羅性が高まる。

過剰なガードレールはユーザー体験を損なう。正当な業務質問が誤ってブロックされる「偽陽性」が頻発すると、ユーザーは AI ツールを使わなくなる。閾値のチューニングと、ブロック理由の透明なフィードバックが運用の鍵になる。