Reinforcement-learning 2 items

Everything Reinforcement-learning

📑 arXiv 3d ago

IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning

IG-Search introduces step-level information gain rewards for search-augmented reasoning, measuring how retrieved documents improve model confidence in answers relative to random baselines. This addresses the gradient collapse problem in trajectory-level RL when all sampled trajectories fail and enables distinguishing precise queries from vague ones within rollout groups.

RAG Reasoning Training Reinforcement-learning

🤗 Hugging Face 5d ago

Reinforcement Learning via Value Gradient Flow

Value Gradient Flow (VGF) frames behavior-regularized RL as an optimal transport problem mapping reference distributions to value-optimal policies, offering a scalable alternative to reparameterized policy gradients and reject sampling. The approach addresses value over-optimization in offline RL and LLM fine-tuning while scaling to large generative models.

Training Fine-tuning Reinforcement-learning Optimization

IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning ↗

Reinforcement Learning via Value Gradient Flow ↗

IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning

Reinforcement Learning via Value Gradient Flow