RLHF
あーるえるえいちえふ

RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。
LLMを「賢い」から「使える」にする技術
事前学習を終えたLLMは膨大な知識を持っているが、そのままでは使いにくい。質問に答えず続きの文章を生成したり、有害な内容を出力したりする。この「賢いが扱いにくい」状態を「賢くて使いやすい」に変えるのがアラインメント(整合性調整)であり、その中核技術がRLHFだ。
RLHF:人間が判定する
RLHF(Reinforcement Learning from Human Feedback)では、人間のアノテーターがモデルの複数の出力を比較し「こちらの方が良い」と評価する。その評価データから報酬モデルを学習し、LLMが高い報酬を得る方向に強化学習で調整する。ChatGPTやClaudeが「対話らしい」応答を返せるのはRLHFの成果だ。
ただし課題もある。人間の評価はコストが高く、主観にばらつきがあり、スケールしにくい。「一見もっともらしいが間違っている回答」に高評価がつく、いわゆる報酬ハッキングの問題も指摘されている。
RLVR:正解が検証できるタスクに絞る
RLVR(Reinforcement Learning with Verifiable Rewards)は2025年にDeepSeek-R1で注目された手法だ。数学の証明やコードの実行結果のように、正解かどうかを機械的に検証できるタスクに限定し、人間の評価を介さずに報酬を与える。
人間の主観が入らないため報酬のノイズが少なく、大量のフィードバックを低コストで生成できる。数学・コーディング・形式論理などのベンチマークでは、RLHFを上回る精度改善が報告されている。GRPOやDPOといった具体的なアルゴリズムがこの流れに属する。
どちらを使うべきか
両者は排他的ではない。検証可能なタスク(コード生成、数学、事実検証)にはRLVRが効率的で、創造的な文章や対話の品質など「正解が一意に定まらない」タスクには依然としてRLHFが必要になる。実際には両方を組み合わせるハイブリッドアプローチが増えている。
関連用語

AI ROI(AI投資対効果)
AI ROIとは、AI導入・運用に投じたコストに対して得られた業務効率化・収益改善などの効果を定量的に測定する指標のこと。

AIオブザーバビリティ(AI Observability)
本番稼働中のAIシステムの入出力・レイテンシ・コスト・品質を継続的に監視・可視化する運用プラクティス。ハルシネーションやドリフトの早期検出に不可欠。

BPO(ビジネス・プロセス・アウトソーシング)
BPOとは、企業が特定の業務プロセスを外部の専門業者に委託するアウトソーシング形態のこと。AI活用による自動化と組み合わせたAIハイブリッドBPOが近年注目されている。

ERP(エンタープライズ・リソース・プランニング)
ERP(エンタープライズ・リソース・プランニング)とは、財務・購買・製造・人事などの基幹業務データを一元管理し、経営意思決定を支援する統合型業務管理システムのこと。