Google DeepMind presentó el martes sus modelos de IA más avanzados para robótica, introduciendo sistemas que pueden «pensar» a través de tareas complejas antes de actuar y buscar información en la web en tiempo real para resolver problemas.
Los dos nuevos modelos, Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, representan un avance significativo en la creación de robots versátiles que pueden adaptarse a nuevos entornos sin necesidad de una reprogramación extensiva, según Carolina Parada, jefa de robótica en Google DeepMind.
Google DeepMind presentó el martes sus modelos de IA más avanzados para robótica, introduciendo sistemas que pueden «pensar» a través de tareas complejas antes de actuar y buscar información en la web en tiempo real para resolver problemas.
Los dos nuevos modelos, Gemini Robotics 1.5 y Gemini Robotics-ER 1.5, representan un avance significativo en la creación de robots versátiles que pueden adaptarse a nuevos entornos sin necesidad de una reprogramación extensiva, según Carolina Parada, jefa de robótica en Google DeepMind.


blog.google
Robots que piensan antes de actuar
El avance se centra en Gemini Robotics-ER 1.5, que DeepMind describe como la primera inteligencia artificial robótica capaz de razonamiento simulado similar al de los modernos chatbots basados en texto. «ER» significa «razonamiento incorporado», lo que permite a los robots planificar varios pasos por adelantado antes de ejecutar acciones físicas.
Durante las demostraciones, los investigadores mostraron a un robot clasificando reciclables con éxito después de que se le pidiera categorizar residuos «de acuerdo con las regulaciones locales». El robot identificó la ubicación del investigador en San Francisco, buscó en línea las normas de reciclaje locales y clasificó correctamente los objetos. En otra prueba, cuando se le pidió empacar para un viaje a Londres, el robot buscó pronósticos del clima e incluyó artículos apropiados como un gorro.
«Los robots contemporáneos están altamente especializados y son difíciles de implementar, con frecuencia requieren meses para desplegar una sola unidad diseñada para una tarea singular», declaró Parada. El nuevo enfoque de IA generativa permite que los robots aborden escenarios completamente nuevos sin necesidad de reprogramación.
Revolución del Aprendizaje Multiplataforma
El sistema opera mediante un enfoque de dos modelos: Gemini Robotics-ER 1.5 se encarga del razonamiento y la planificación, mientras que Gemini Robotics 1.5 ejecuta las acciones físicas. Es notable que las tareas aprendidas en un robot pueden transferirse a plataformas completamente diferentes, incluyendo robots humanoides.
Google DeepMind demostró esta capacidad mostrando cómo las tareas entrenadas en el robot de dos brazos ALOHA2 se trasladaron sin problemas tanto al brazo robótico Franka como al robot humanoide Apollo de Apptronik. Esta compatibilidad multiplataforma podría acelerar el desarrollo de la robótica en diversas industrias.
El modelo Gemini Robotics-ER 1.5 ya está disponible para los desarrolladores a través de la API de Gemini, mientras que el acceso al modelo de acción sigue limitado a socios seleccionados. El anuncio se basa en las iniciativas más amplias de robótica de DeepMind, incluyendo RoboBallet, un sistema de IA presentado a principios de este mes que coordina hasta ocho robots de manufactura con un 25% más de eficiencia que los métodos tradicionales.