
「AI を導入したのに、結局人手が減らない」——DX 推進担当者からよく聞く悩みだ。原因の多くは、ワークフローの順番にある。人間が作業して AI がチェックするのではなく、AI が処理して人間がチェックする。この順序を間違えた企業は、マンパワーがボトルネックになり、業務量が増えるほどコストが指数関数的に膨らむ。
本記事では、正しい HITL(Human-in-the-Loop)設計の基礎から、信頼度ルーティングの仕組み、業界別の導入事例、そして自社で定着させるための 5 ステップまでを解説する。AI がインプットを受け、人間が最終判断を下す——このマインドセットへの転換が、業務自動化を一過性の PoC で終わらせず組織に根付かせる鍵になる。

HITL は、AI の処理プロセスに人間の判断を組み込む設計パターンだ。ポイントは「どこに」人間を配置するかではなく、「どの順番で」AI と人間が関わるかにある。
HITL の正しい流れは、インプット → AI が処理 → 信頼度判定 → 人間がチェック → アウトプット、だ。AI が先にインプットを受け取り、処理結果を人間に渡す。人間は AI の出力を確認・修正するだけでよい。
この順序を逆にして「人間が先にインプットを受け取り、AI にチェックさせる」設計にすると、すべてのインプットを人間が処理しなければならない。問い合わせが 100 件なら 100 件分の人手が必要で、1,000 件になれば 10 倍の人員を確保するか、対応品質を下げるしかない。つまり、スケールしない。
一方、AI がインプットを受ける設計なら、信頼度が高い案件(全体の 70〜85%)は自動処理され、人間は残りの 15〜30% だけをチェックすればよい。業務量が 10 倍に増えても、人間の作業量は 10 倍にならない。これが HITL 設計の最大の利点だ。
Unimon Co., Ltd. がクライアント企業の業務自動化を支援するなかで、最も多い失敗パターンが「人間→AI」型の設計だ。あるクライアントでは、カスタマーサポートのメール対応を自動化しようとして、まず担当者がメールを読み、下書きを作成し、AI に文法チェックと敬語修正をさせていた。結果、担当者の作業時間はほとんど変わらなかった。
この設計を「AI→人間」型に切り替えた。メールの受信をトリガーに AI が返信ドラフトを自動生成し、担当者は内容を確認して送信ボタンを押すだけにした。担当者 1 人あたりの対応件数は 1 日 40 件から 120 件に増え、対応品質(顧客満足度スコア)も 4.2 → 4.5 に改善した。
決定的な差は「ボトルネックの位置」にある。人間→AI 型では人間がボトルネックになり、業務量に比例してコストが増える。AI→人間型では AI がスケーラブルに処理し、人間は例外対応に集中できる。
AI と人間の関与度合いによって、3 つのモデルがある。
Human-in-the-Loop(HITL) は、AI の処理結果を人間が確認・承認するモデルだ。医療診断の最終判断、融資審査の承認、法的文書のレビューなど、ミスが許されない領域で使われる。人間の介入率は 15〜30% 程度が目安になる。
Human-on-the-Loop(HOTL) は、AI が自律的に処理を進め、人間は監視役としてダッシュボードを見守るモデルだ。異常検知でアラートが上がったときだけ人間が介入する。工場の品質管理や、ネットワーク監視がこれに該当する。
Human-out-of-the-Loop(HOOTL) は、人間がほぼ関与しない完全自動化だ。スパムフィルタや、定型的なデータ変換がこれにあたる。ただし、HOOTL を適用できる業務は限定的で、多くの業務は HITL か HOTL からスタートするのが現実的だ。
どのモデルでも共通するのは、インプットを最初に受け取るのは AI であるという点だ。人間が最初にインプットを処理する設計は、どのモデルにも含まれない。

HITL の概念を理解しても、実際に組織に定着させるのは別の話だ。PoC では成果が出たのに、本番運用で尻すぼみになるケースは少なくない。その根本原因は、インプットの受け口とマインドセットにある。
業務プロセスの「入口」に人間を配置すると、処理能力は人数に比例する。10 人で回していた業務が 2 倍に増えれば、20 人必要になる。採用コスト、教育コスト、オフィスコストも含めると、スケーリングのコストは線形ではなく指数関数的に増大する。
AI を入口に配置すると、この構造が変わる。AI の処理能力はインフラのスケーリングで対応でき、コストは対数的にしか増えない。GPU やクラウドのコストは業務量に比例して増えるが、人件費ほどの傾きにはならない。
実際の数字で見ると、ある金融機関の KYC(本人確認)プロセスでは、人間が入口の場合、1 件あたりの処理コストが約 25 ドルだった。AI を入口にした HITL 設計に切り替えた結果、1 件あたり 4 ドルまで下がり、処理速度も 3 営業日から 4 時間に短縮された。人間は AI がフラグを立てたハイリスク案件(全体の約 12%)だけをレビューしている。
技術的に HITL を実装しても、組織のマインドセットが「人間がやって当たり前」のままでは定着しない。筆者がクライアント企業で何度も目にしたのは、「AI に任せて大丈夫なのか」という不安から、導入後も人間がすべての案件を目視確認し続けるパターンだ。これでは AI 導入のコストだけが加算され、工数は減らない。
定着に必要なマインドセット転換は 3 つある。まず、「AI がインプットを受けるのが当たり前」という前提の共有。次に、「人間は例外処理の専門家である」という役割の再定義。そして、「AI の精度は運用しながら上がる」というフィードバックループへの信頼だ。
この転換ができない企業は、AI がインプットを受ける企業との競争で確実に劣後する。処理速度、コスト、スケーラビリティのすべてで差がつくからだ。逆に言えば、マインドセット転換に成功した企業だけが、業務自動化を「定着」させられる。
HITL AI の市場規模は 2025 年の 54 億ドルから 2030 年には 164 億ドルに成長すると予測されている(CAGR 24.9%)。Gartner は 2027 年までに企業の 86% が AI エージェントを導入すると予測しており、その大半が何らかの形で HITL 設計を採用する見込みだ。
注目すべきは、この成長が「AI の精度向上」ではなく「AI+人間の協働設計」によって牽引されている点だ。AI 単体の精度が 95% でも、ビジネスクリティカルな業務では 99.8% 以上の精度が求められる。残りの 4.8% を埋めるのが人間のチェックであり、HITL 設計によって全体の精度を 99.8% まで引き上げた事例が複数報告されている。
2026 年 2 月に公開された米財務省の AI リスク管理フレームワーク(230 の管理目標)でも、HITL は「高リスク AI システムにおける必須要件」として位置づけられている。規制面からも、HITL は「あったほうがいい」ではなく「なければならない」設計になりつつある。

HITL 設計の中核にあるのが「信頼度ルーティング」だ。AI の出力すべてを人間がチェックするのでは効率が悪い。信頼度スコアに基づいて、自動処理と人間レビューを振り分ける仕組みが必要になる。
信頼度ルーティングは、AI の出力に付与される信頼度スコア(0〜1.0)に基づいて処理を分岐させる。典型的な閾値設計は 3 段階だ。
信頼度 0.85 以上の場合は「自動承認」。AI の出力がそのまま最終結果になる。請求書の定型項目読み取りや、明らかなスパムメールの分類がこれに該当する。全体の 70〜85% がこのゾーンに入るのが理想的だ。
信頼度 0.50〜0.85 の場合は「人間レビュー」。AI が処理結果の候補を提示し、人間が確認・修正する。契約書の条項抽出や、顧客問い合わせの意図分類など、文脈依存の判断が求められるケースだ。
信頼度 0.50 未満の場合は「人間が一から処理」。AI の出力は参考情報として表示されるが、人間が独自に判断する。クレーム対応や、前例のない問い合わせがここに入る。
閾値は業務の特性によって調整する。医療や金融など、誤判定のコストが高い領域では自動承認の閾値を 0.95 以上に引き上げる。一方、社内文書の分類など、誤りのコストが低い業務では 0.75 程度まで下げてもよい。
信頼度ルーティングで見落とされがちなのが、AI の応答が遅延した場合のフォールバックだ。モデルの負荷集中やネットワーク障害で AI が一定時間内に応答を返せないケースは、本番運用では必ず発生する。
タイムアウトの閾値は業務の性質によって異なる。リアルタイムのチャット対応なら数秒、バッチ処理なら数分といった具合だ。重要なのは、閾値を超えた時点で自動的に人間のキューに回す設計にしておくことだ。チャットボットであれば「担当者におつなぎします」と切り替え、バッチ処理であれば手動レビューキューに追加する。
この設計により、「AI が止まったらサービスも止まる」状態を防げる。人間が常にバックアップとして機能する構造こそが、HITL 設計の堅牢性の源だ。フォールバックの発動率は定期的にモニタリングし、頻度が高すぎる場合はモデルの改善やインフラ増強を検討する。

HITL 設計は業界を問わず適用できるが、導入パターンは業界ごとに異なる。ここでは金融、製造、カスタマーサポートの 3 領域から、「AI がインプットを受ける」設計で成果を出した事例を紹介する。
J.P.Morgan の契約書解析システム COiN(Contract Intelligence)は、HITL 設計の代表例だ。年間 1 万 2,000 件以上の商業融資契約書を AI が読み取り、重要条項を自動抽出する。以前は弁護士とローンオフィサーが年間 36 万時間をかけていた作業だ。
このシステムの特徴は「学習強化型 HITL」にある。人間がレビューで修正した内容が自動的にモデルの学習データに反映され、次回以降の精度が向上する。導入初年度は人間の介入率が 35% だったが、3 年後には 12% まで低下した。
重要なのは、最初から完璧な精度を目指さなかった点だ。初期の介入率 35% を許容し、フィードバックループで改善する設計にしたからこそ、現場の弁護士も「AI と協働する」ことに抵抗がなかった。
ある自動車部品メーカーでは、外観検査に HITL を導入した。従来は検査員 8 名が目視で 1 日約 5,000 個の部品を検査していた。不良品の見逃し率は 0.3% で、年間約 5,500 個の不良品が出荷されていた。
AI を入口にした新しいフローでは、カメラが部品を撮影し、画像認識 AI が良品/不良品を判定する。信頼度 0.90 以上は自動合格、0.90 未満は検査員がモニターで確認する。検査員は 8 名から 2 名に削減され、見逃し率は 0.3% から 0.02% に改善した。
導入時に苦労したのは、検査員の反発ではなく照明条件の標準化だった。AI の判定精度は照明に大きく左右されるため、検査ラインの照明を LED 定常光に統一し、撮影角度も固定した。技術的な課題よりも、物理環境の整備に 2 ヶ月かかった。
EC 事業者のカスタマーサポートでは、問い合わせメールの一次対応を AI に任せている。AI がメールを受信し、問い合わせカテゴリの分類、過去の対応履歴の検索、返信ドラフトの生成までを自動で行う。
担当者は AI が生成したドラフトを確認し、必要に応じて修正して送信する。緊急度が高い案件(返品トラブル、個人情報関連など)は自動的に人間のキューに回され、優先対応する。
導入前は担当者 5 名で 1 日 200 件を処理していたが、導入後は同じ 5 名で 600 件に対応できるようになった。生産性は 3 倍に向上し、平均応答時間も 8 時間から 45 分に短縮された。担当者からは「定型的な問い合わせから解放されて、本当に困っているお客様に集中できるようになった」という声が上がっている。

HITL を導入しても期待した効果が出ないケースがある。筆者が現場で見てきた失敗パターンを 4 つ紹介する。いずれも設計段階で回避できるものだ。
最も多い失敗だ。前述のとおり、人間がインプットを受け取り、AI がチェックする設計では、スケーリングの恩恵を受けられない。
回避策はシンプルで、業務フローを図に書いたときに「最初の矢印の先が AI になっているか」を確認するだけだ。メールなら受信トレイから AI に直接流す。申請書なら PDF アップロードの直後に AI が解析する。人間がファイルを開いて内容を読む前に、AI が処理を開始する設計にする。
「でも AI が間違えたらどうするのか」という懸念はもっともだが、それは信頼度ルーティングで解決する。信頼度が低い案件は人間に回るので、AI の誤りが最終出力に残ることはない。
HITL を導入しても人間の介入率が 50% を超えていると、効率化の効果はほとんど感じられない。介入率が高い原因は大きく 2 つある。
1 つ目は、信頼度の閾値が厳しすぎるケースだ。「念のため」と自動承認の閾値を 0.98 に設定すると、ほとんどの案件が人間レビューに回ってしまう。最初は 0.85 程度から始めて、誤判定率を見ながら調整するのが現実的だ。
2 つ目は、学習データの質が低いケースだ。AI モデルのファインチューニングに使ったデータが偏っていたり、量が不足していたりすると、信頼度スコア自体が低くなる。この場合はモデルの改善が先で、閾値の調整では解決しない。
目安として、導入 3 ヶ月後に介入率が 30% 以下になっていなければ、モデルか閾値のどちらかに問題がある。
意外な落とし穴が「自動化バイアス」だ。AI の判定結果が常に表示されていると、人間は AI の判断を無批判に受け入れるようになる。特に信頼度 0.70〜0.85 のグレーゾーンで、本来なら慎重に確認すべき案件を「AI が OK と言っているから大丈夫だろう」と流してしまう。
回避策として有効なのは、レビュー画面で AI の判定結果を最初は非表示にする設計だ。人間がまず自分の判断を入力し、その後に AI の判定と比較する。判断が一致すれば承認、不一致なら詳細レビューに回す。この設計により、自動化バイアスを抑制しつつ、人間の判断品質を維持できる。
もう 1 つの対策は、定期的な「キャリブレーションセッション」だ。月 1 回、レビュー担当者が集まり、判断が分かれた案件をディスカッションする。判断基準のブレを修正し、チーム全体の品質を保つ。
2026 年 2 月に米財務省が公開した AI リスク管理フレームワークは、230 の管理目標を定めている。その中で HITL に関連する要件は、監査ログの保持、判断根拠の説明可能性、バイアス検出の 3 つだ。
ガバナンスなしで HITL を導入すると、「AI がなぜその判断をしたのか」を後から説明できない。金融や医療の規制対応はもちろん、社内の業務改善であっても、判断プロセスのトレーサビリティは欠かせない。
最低限のガバナンスとして、AI の入力データ、出力結果、信頼度スコア、人間の修正内容、最終判断をすべてログに記録する仕組みを導入時に組み込んでおく。後付けでログ機能を追加するのは、設計変更のコストが高くつく。

HITL を自社に導入する際の具体的な手順を 5 ステップで解説する。重要なのは、最初から全社展開を目指さず、小さく始めてフィードバックループで改善していくことだ。
まず、自動化したい業務プロセスの「入口」を特定する。入口とは、外部からインプットが入ってくるポイントだ。メールの受信、申請書のアップロード、問い合わせフォームの送信、センサーデータの取得など。
この入口に AI を配置できるかどうかが、HITL 導入の可否を決める。入口のデータが構造化されている(CSV、JSON、定型フォーム)場合は導入しやすい。非構造化データ(自由記述のメール、手書き書類の画像)でも、最新の LLM や画像認識で対応可能なケースが増えている。
選定基準として、まずは「件数が多く、判断パターンが比較的定型的な業務」を選ぶとよい。月間 100 件以上の処理があり、判断基準がマニュアル化されている業務が最適だ。
業務の特性に合わせて信頼度の閾値を設計する。考慮すべき変数は 3 つ。誤判定のビジネスインパクト、許容できる介入率、そして利用可能な学習データの量だ。
誤判定のインパクトが大きい業務(融資審査、医療診断)では、自動承認の閾値を 0.95 以上に設定する。インパクトが小さい業務(社内文書分類、FAQ 回答)では 0.80 程度でよい。
介入ルールも事前に明文化しておく。「信頼度 0.85 未満は必ず人間がレビューする」「特定のカテゴリ(個人情報関連など)は信頼度に関係なく人間がレビューする」といったルールだ。属人的な判断にならないよう、ルールをドキュメント化してチーム全体で共有する。
全社展開の前に、1 つの部署または 1 つの業務プロセスでパイロット運用を行う。期間は 2〜3 ヶ月が目安だ。
パイロットで確認すべき指標は 4 つ。処理速度(Before/After)、精度(誤判定率)、介入率(人間がレビューした割合)、そしてユーザー満足度(担当者と顧客の両方)。これらの指標を週次で計測し、閾値やルールを調整する。
筆者の経験では、パイロット期間中に閾値を 3〜5 回調整するのが普通だ。最初に設定した閾値がそのまま本番で使えることはまれで、実データで検証しながら最適値を見つけていく。「最初から完璧を目指さない」というマインドセットが、ここでも重要になる。
HITL 設計の最大の強みは、人間のレビュー結果が AI の学習データになることだ。このフィードバックループを意図的に設計しないと、AI の精度は導入時のまま止まってしまう。
具体的には、人間がレビューで修正した内容を自動的に学習データセットに追加し、定期的(月次または四半期)にモデルを再学習させる。J.P.Morgan の事例では、このフィードバックループによって介入率が 3 年で 35% → 12% に低下した。
フィードバックの質を担保するために、レビュー担当者には修正理由のコメントを必須にする。「AI の抽出結果が間違っていた」だけでなく、「契約書の第 5 条 3 項の解釈が異なるため修正」といった具体的な理由を記録する。これにより、モデルの弱点を特定しやすくなる。
パイロットで効果が確認できたら、本番展開に向けてガバナンスフレームワークを整備する。最低限必要な要素は以下の 4 つだ。
監査ログ: AI の入出力、信頼度スコア、人間の修正内容、最終判断を記録する。保持期間は業界の規制に合わせる(金融なら 7 年以上)。
説明可能性: AI がなぜその判断をしたかを、非技術者にも説明できる仕組みを用意する。Feature importance の可視化や、判断根拠のテキスト生成が有効だ。
バイアスモニタリング: AI の判定結果に特定の偏りがないかを定期的にチェックする。性別、年齢、地域などの属性による判定差異を統計的に検証する。
インシデント対応: AI の誤判定が重大な影響を及ぼした場合の対応フローを事前に定める。エスカレーションパス、影響範囲の特定手順、再発防止策の策定プロセスを明文化しておく。

HITL 導入を検討する際によく寄せられる質問に回答する。
ならない。正しく設計すれば、人間がチェックする案件は全体の 15〜30% に絞られる。残りの 70〜85% は AI が自動処理する。つまり、HITL 導入前に 100 件すべてを人間が処理していたのが、導入後は 15〜30 件のチェックだけで済む。
ただし、前述のとおり「人間→AI」の順序で設計してしまうと、この恩恵は得られない。AI がインプットを最初に受け取る設計が前提だ。
「件数が多く、判断パターンが比較的定型的で、誤判定のインパクトが中程度」の業務から始めるのがベストだ。具体的には、社内の経費精算チェック、問い合わせメールの一次分類、請求書のデータ入力などが該当する。
逆に避けるべきは、件数が少なすぎる業務(月 20 件未満だと AI の学習データが不足する)と、誤判定が致命的な業務(医療診断や法的判断は、十分な精度検証なしに始めるべきではない)だ。
RAG(Retrieval-Augmented Generation)は AI が回答を生成する際に外部データベースから関連情報を検索・参照する技術で、HITL とは補完関係にある。RAG で AI の回答精度を上げつつ、HITL で最終的な品質を担保する——という組み合わせが実務では多い。
たとえば、社内ナレッジベースを RAG で参照する社内チャットボットの場合、RAG が適切なドキュメントを検索し、AI が回答を生成する。信頼度が高ければそのまま回答し、低ければ担当者がレビューしてから回答する。RAG によってハルシネーション(事実と異なる回答の生成)を 96% 削減し、HITL によって残りの不確実な回答を人間がカバーする。この二段構えで、回答精度 99.8% を実現した事例がある。

この記事で一貫して伝えてきたのは、「AI が先、人間が後」という順序の重要性だ。人間がインプットを受け取る設計では、業務量の増加に比例してコストが膨らみ、自動化の効果が打ち消される。AI がインプットを受け取り、人間は AI の出力をチェックする——この順序を守る HITL 設計こそが、業務自動化を一過性の PoC で終わらせず、組織に定着させる鍵になる。
まず取り組むべきは、自社の業務プロセスで「インプットの入口」を 1 つ特定し、そこに AI を配置する小さな PoC を始めることだ。閾値は 0.85 から、パイロット期間は 2 ヶ月から。完璧を目指す必要はない。フィードバックループが回り始めれば、精度は運用しながら上がっていく。
AI がインプットを受ける会社と、人間がインプットを受け続ける会社。この 2 つの間に生まれる競争力の差は、時間が経つほど広がる。マインドセットの転換は、今日から始められる。
Yusuke Ishihara
13歳でMSXに触れプログラミングを開始。武蔵大学卒業後、航空会社の基幹システム開発や日本初のWindowsサーバホスティング・VPS基盤構築など、大規模システム開発に従事。 2008年にサイトエンジン株式会社を共同創業。2010年にユニモン株式会社、2025年にエニソン株式会社を設立し、業務システム・自然言語処理・プラットフォーム開発をリード。 現在は生成AI・大規模言語モデル(LLM)を活用したプロダクト開発およびAI・DX推進を手がける。