RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。
## LLMを「賢い」から「使える」にする技術 事前学習を終えたLLMは膨大な知識を持っているが、そのままでは使いにくい。質問に答えず続きの文章を生成したり、有害な内容を出力したりする。この「賢いが扱いにくい」状態を「賢くて使いやすい」に変えるのがアラインメント(整合性調整)であり、その中核技術がRLHFだ。
## RLHF:人間が判定する RLHF(Reinforcement Learning from Human Feedback)では、人間のアノテーターがモデルの複数の出力を比較し「こちらの方が良い」と評価する。その評価データから報酬モデルを学習し、LLMが高い報酬を得る方向に強化学習で調整する。ChatGPTやClaudeが「対話らしい」応答を返せるのはRLHFの成果だ。
ただし課題もある。人間の評価はコストが高く、主観にばらつきがあり、スケールしにくい。「一見もっともらしいが間違っている回答」に高評価がつく、いわゆる報酬ハッキングの問題も指摘されている。
## RLVR:正解が検証できるタスクに絞る RLVR(Reinforcement Learning with Verifiable Rewards)は2025年にDeepSeek-R1で注目された手法だ。数学の証明やコードの実行結果のように、正解かどうかを機械的に検証できるタスクに限定し、人間の評価を介さずに報酬を与える。人間の主観が入らないため報酬のノイズが少なく、大量のフィードバックを低コストで生成できる。
数学・コーディング・形式論理などのベンチマークでは、RLHFを上回る精度改善が報告されている。GRPOやDPOといった具体的なアルゴリズムがこの流れに属する。## どちらを使うべきか 両者は排他的ではない。
検証可能なタスク(コード生成、数学、事実検証)にはRLVRが効率的で、創造的な文章や対話の品質など「正解が一意に定まらない」タスクには依然としてRLHFが必要になる。実際には両方を組み合わせるハイブリッドアプローチが増えている。


RAG(Retrieval-Augmented Generation)とは、外部の知識ソースから関連情報を検索し、その結果を LLM の入力に付加することで、回答の正確性と最新性を向上させる手法である。

RRF(Reciprocal Rank Fusion)とは、複数の検索手法が返すランキング結果を統合するスコアリング手法である。各手法での順位の逆数を合算することで、異なるスコア体系を正規化なしに融合できる。

LoRA(Low-Rank Adaptation)とは、大規模言語モデルの重み行列に低ランクの差分行列を挿入し、その差分だけを学習させることでモデル全体の 0.1〜1% 程度のパラメータ追加でファインチューニングを実現する手法である。



AI チャットの「見えない攻撃経路」を塞ぐ — DB 経由プロンプトインジェクション対策の実装ガイド
LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。