RLHF

あーるえるえいちえふ

RLHF

RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。

LLMを「賢い」から「使える」にする技術

事前学習を終えたLLMは膨大な知識を持っているが、そのままでは使いにくい。質問に答えず続きの文章を生成したり、有害な内容を出力したりする。この「賢いが扱いにくい」状態を「賢くて使いやすい」に変えるのがアラインメント(整合性調整)であり、その中核技術がRLHFだ。

RLHF:人間が判定する

RLHF(Reinforcement Learning from Human Feedback)では、人間のアノテーターがモデルの複数の出力を比較し「こちらの方が良い」と評価する。その評価データから報酬モデルを学習し、LLMが高い報酬を得る方向に強化学習で調整する。ChatGPTやClaudeが「対話らしい」応答を返せるのはRLHFの成果だ。

ただし課題もある。人間の評価はコストが高く、主観にばらつきがあり、スケールしにくい。「一見もっともらしいが間違っている回答」に高評価がつく、いわゆる報酬ハッキングの問題も指摘されている。

RLVR:正解が検証できるタスクに絞る

RLVR(Reinforcement Learning with Verifiable Rewards)は2025年にDeepSeek-R1で注目された手法だ。数学の証明やコードの実行結果のように、正解かどうかを機械的に検証できるタスクに限定し、人間の評価を介さずに報酬を与える。

人間の主観が入らないため報酬のノイズが少なく、大量のフィードバックを低コストで生成できる。数学・コーディング・形式論理などのベンチマークでは、RLHFを上回る精度改善が報告されている。GRPOやDPOといった具体的なアルゴリズムがこの流れに属する。

どちらを使うべきか

両者は排他的ではない。検証可能なタスク(コード生成、数学、事実検証)にはRLVRが効率的で、創造的な文章や対話の品質など「正解が一意に定まらない」タスクには依然としてRLHFが必要になる。実際には両方を組み合わせるハイブリッドアプローチが増えている。