Robotics 5 items

Everything Robotics

📑 arXiv 2d ago

AEGIS: Anchor-Enforced Gradient Isolation for Knowledge-Preserving Vision-Language-Action Fine-Tuning

AEGIS addresses catastrophic forgetting when fine-tuning vision-language models for robotic control by preventing cross-modal gradient asymmetry—high-magnitude continuous action gradients overwriting the VLM's cross-entropy pre-trained manifold. Uses anchor-enforced gradient isolation to preserve VQA capabilities while injecting flow-matching action supervision, unlike stop-gradient or LoRA approaches.

Multimodal Fine-tuning Robotics Continual-learning

🧠 DeepMind 5d ago

Google DeepMind Gemini Robotics-ER 1.6 for Physical AI

Gemini Robotics-ER 1.6 specialized reasoning model for physical AI achieves 93% success on instrument reading tasks (up from 23% baseline) through agentic vision combining visual reasoning with code execution. It adds spatial reasoning, multi-view perception, and industrial gauge interpretation as a high-level planning layer for vision-language-action robotics models.

Multimodal Reasoning Robotics Code Gen

🧠 DeepMind 5d ago

Google Gemini Robotics-ER 1.6 Release

Google DeepMind released Gemini Robotics-ER 1.6, a robotics reasoning model with improved spatial reasoning, multi-view perception, instrument reading, and hazard detection (+6% text, +10% video safety). Available via Gemini API with Boston Dynamics deploying it for autonomous Spot robot operations.

Multimodal Reasoning Robotics Safety

📝 Blog 5d ago

Boston Dynamics Integrates Gemini Robotics into Spot

Boston Dynamics integrated Gemini and Gemini Robotics-ER 1.6 into Spot's Orbit AIVI systems, enabling robots to perform complex reasoning about industrial environments, identify hazards, and read instruments. The Gemini-powered AIVI-Learning system is now live for existing customers as of April 15, 2026.

Multimodal Reasoning Robotics

🤗 Hugging Face 5d ago

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

HiVLA decouples VLM semantic planning from motor control to preserve reasoning capabilities lost in end-to-end VLA fine-tuning. VLM planner generates subtask instructions with target bounding boxes, then flow-matching DiT translates grounded plans to physical actions for robotic manipulation.

Multimodal Agents Robotics

AEGIS: Anchor-Enforced Gradient Isolation for Knowledge-Preserving Vision-Language-Action Fine-Tuning ↗

Google DeepMind Gemini Robotics-ER 1.6 for Physical AI ↗

Google Gemini Robotics-ER 1.6 Release ↗

Boston Dynamics Integrates Gemini Robotics into Spot ↗

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System ↗

AEGIS: Anchor-Enforced Gradient Isolation for Knowledge-Preserving Vision-Language-Action Fine-Tuning

Google DeepMind Gemini Robotics-ER 1.6 for Physical AI

Google Gemini Robotics-ER 1.6 Release

Boston Dynamics Integrates Gemini Robotics into Spot

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System