Alibaba presenta Qwen-Robot, el "cerebro" de IA para la próxima generación de robots en China
Alibaba ya tenía modelos capaces de reconocer un objeto sobre una mesa y de entender la orden de cogerlo, pero le faltaba la manera de mover el brazo que lo agarra. Ese hueco es el que viene a tapar Qwen-Robot, la primera familia de modelos de IA encarnada de la compañía, con la que el gigante chino pasa de comprender la tarea a ejecutarla con motores y articulaciones.
El desarrollo, que sale del Tongyi Lab de la compañía, ya rueda en pruebas piloto con clientes empresariales seleccionados de Alibaba Cloud, según recoge Interesting Engineering. Que esté en manos de clientes y no encerrado en un laboratorio dice bastante de la prisa que se está dando.
Una sola cámara y ningún mapa previo
Dentro de la suite el trabajo se reparte entre tres modelos con cometidos distintos, de modo que ninguno cargue con todo. Qwen-RobotNav lleva el desplazamiento, desde obedecer una instrucción hablada hasta seguir un objetivo que se mueve, mientras Qwen-RobotManip se encarga de agarrar, desplazar y manipular objetos sin que acaben rodando por el suelo, que es justo donde los modelos de lenguaje nunca habían tenido que pelearse.
A los dos anteriores los sostiene Qwen-RobotWorld, un modelo del mundo que anticipa las consecuencias de cada acción antes de completarla, calculando cómo cambiará el entorno según lo que el robot haga. Y por encima de los tres opera Qwen-RobotClaw, una capa que coordina los modelos Qwen para que usen la suite entera como herramientas con las que tocar la realidad.
Si hay que medir hasta dónde llega todo esto, la demostración de navegación es la que más enseña, porque se hizo sobre un cuadrúpedo Unitree Go2 con hardware NVIDIA Jetson Thor y una única cámara de baja resolución. Con ese equipo tan magro, el robot recorrió un apartamento desconocido siguiendo órdenes habladas por varias habitaciones, sin mapas previos y con una latencia de inferencia de 196 milisegundos.
Por el lado de la manipulación, donde el entrenamiento se apoyó en más de 38.000 horas de datos en abierto sobre cómo se agarran y se mueven los objetos, Alibaba ha querido que cualquiera lo pruebe sin montar nada. Para eso abre Chat2Robot, una plataforma de código abierto que corre en el navegador, donde los modelos interpretan frases corrientes —que vaya a la cocina, coja la taza roja y la deje en la estantería— y las descomponen en gestos ejecutables.
Un 45 % de acierto y mil millones de descargas detrás
En la prueba de RoboChallenge, Qwen-RobotManip se quedó en una puntuación de proceso de 59,83 y una tasa de éxito del 45 % en la categoría generalista. Dicho de otro modo, estos cerebros aún fallan más veces de las que aciertan en tareas difíciles, lejos todavía de algo en lo que confiar dentro de una fábrica o una cocina.
Aun con esa cifra modesta, lo que separa a Alibaba del resto es de dónde arranca, porque cuando regaló su modelo Qwen como aplicación gratuita ya había sacudido el mercado. Ese mismo cerebro es el que ahora aprende a manejar un cuerpo, de manera que partir de una base lingüística madura le ahorra medio camino.
Y no es solo prestigio, sino la cantidad de gente que construye encima, porque los modelos abiertos de Alibaba Cloud acaparan más de la mitad de las descargas de IA en abierto del mundo, con la familia Qwen rozando los mil millones. Sobre semejante tejido de desarrolladores, el terreno físico es el siguiente paso lógico.
Tampoco juega sola en esto, ni mucho menos. En Estados Unidos, Google DeepMind empuja Gemini Robotics y NVIDIA extiende su catálogo robótico con Cosmos, Isaac y GR00T, mientras startups como Physical Intelligence, Skild AI o Figure AI persiguen una inteligencia robótica generalista, según el South China Morning Post. China responde uniendo su músculo industrial al software de decisión autónoma, con Tencent, Unitree, AgiBot, UBTech, Galbot, Spirit AI, GigaAI, Xpeng y Xiaomi en la misma carrera.


© Difoosion














