RLHFとは？図解で学ぶAI・DX・セキュリティ用語集

RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。

LLMを「賢い」から「使える」にする技術

事前学習を終えたLLMは膨大な知識を持っているが、そのままでは使いにくい。質問に答えず続きの文章を生成したり、有害な内容を出力したりする。この「賢いが扱いにくい」状態を「賢くて使いやすい」に変えるのがアラインメント（整合性調整）であり、その中核技術がRLHFだ。

RLHF：人間が判定する

RLHF（Reinforcement Learning from Human Feedback）では、人間のアノテーターがモデルの複数の出力を比較し「こちらの方が良い」と評価する。その評価データから報酬モデルを学習し、LLMが高い報酬を得る方向に強化学習で調整する。ChatGPTやClaudeが「対話らしい」応答を返せるのはRLHFの成果だ。

ただし課題もある。人間の評価はコストが高く、主観にばらつきがあり、スケールしにくい。「一見もっともらしいが間違っている回答」に高評価がつく、いわゆる報酬ハッキングの問題も指摘されている。