「R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning」と題されたarXiv論文は、視覚言語モデル(VLM)の推論能力を向上させるための新しい強化学習フレームワークを提案している。追加の正解データなしに、思考のサイクル一貫性を報酬シグナルとして活用する手法が特徴的だ。
マルチモーダル推論の現状課題
現在のVLM(GPT-4V、Claude 3、Gemini等)は画像と言語を組み合わせた質問への回答で高い性能を示すが、複数ステップの推論が必要な問題では依然として課題が残る。特に、画像から情報を抽出→情報を組み合わせる→論理的結論を導く、という連鎖的な推論では、途中で整合性が崩れることがある。
この問題に対する従来のアプローチは、人間が作成した詳細な推論ステップの正解データを使ってモデルをファインチューニングする方法だった。しかしこのアプローチは、正解データの収集コストが高く、特定ドメインへの過学習リスクがある。
サイクル一貫性とは
R-C2が活用する「サイクル一貫性」とは、ある変換を行った後に逆変換を行うと元に戻るという性質だ。画像翻訳(CycleGAN)などで活用されてきた概念を、推論の評価に応用している。
具体的には、VLMが問題Aに回答したとき、その回答から逆算して元の問題Aを再構成できるかをチェックする。「回答→問題の再構成」に成功した回答は「一貫した推論プロセス」を経ている可能性が高く、強化学習の正の報酬として活用される。逆に、再構成に失敗した回答は推論の途中に矛盾がある可能性が高い。
実験結果と性能改善
論文では複数のマルチモーダル推論ベンチマーク(ScienceQA、MathVista、MMStar等)での評価を報告している。R-C2を適用したモデルは、追加の教師データなしに既存ベースラインを複数のベンチマークで上回った。特に視覚的な証拠と言語的な推論を組み合わせる問題(グラフからデータを読み取って計算する等)で顕著な改善が見られた。
手法の汎用性
R-C2フレームワークの重要な強みは、特定のモデルアーキテクチャに依存しない汎用性だ。既存のVLMにR-C2の強化学習を後付けで適用できるため、LLaVA、InstructBLIP、その他のオープンソースVLMへの応用が期待される。正解データの収集を必要としない自己改善型のアプローチは、データ効率の高いモデル改善の方法論として注目される。



