Los robots están aprendiendo a anticiparse al caos, pero los seres humanos todavía son imposibles de descifrar

10 June 2026 at 23:30

María Teresa Parreira, estudiante de doctorado en Ciencias de la Información e investigadora principal de este proyecto que expondremos a continuación, ha detectado que los robots pueden captar la información al convivir con los humanos; es clave para que puedan funcionar. Nosotros, como humanos, emitimos señales sociales cuando interactuamos. El estudio titulado "¿Mala idea y buena predicción? Comparando VLM y el juicio anticipatorio humano" hace varios señalamientos que vale la pena señalar.

Los investigadores estudian el potencial de la IA para que los robots tengan inteligencia social, interpreten expresiones faciales y puedan anticiparse ante las necesidades de quienes los rodean y que puedan estar presentes en la sociedad. VLM (modelos de lenguaje visual) son sistemas de IA que pueden interpretar y generar información visual y de lenguaje. Predecir si una situación tensa podría tener un final feliz o ser mala. El problema es que la anticipación mediante expresiones faciales resultó ser un fracaso en cuanto a los modelos. Patricia Waldron de la Universidad de Cornell publicó en TechXplore parte de los resultados.

Buenas noticias, los robots con IA aún no pueden comportarse tanto como nosotros

Wendy Ju, de Cornell Tech, ha retomado la información de Parreira en un nuevo estudio donde indica que los humanos somos muy buenos y sensibles a las reacciones de otras personas. Es posible saber cosas de otras personas y es el intento que tienen para dotar a los robots de esta inteligencia. Un equipo logró entrenar modelos de IA para predecir si un escenario terminaría bien o mal basándose en las expresiones faciales de la gente en respuesta a unos vídeos.

En el estudio, los investigadores utilizaron el mismo conjunto de escenarios para saber si los modelos VLM tenían la capacidad de predecir resultados basándose en pistas y expresiones faciales de humanos. Pusieron a prueba modelos como GPT-4o, Gemini 2.0, además de DeepSeek. Los vídeos en cuestión eran secuencias de acción: un hombre conduciendo una cortadora de césped a alta velocidad y un robot humanoide saltando entre bloques. El resultado fue que el mejor modelo de código abierto predijo los finales con un 70% de precisión; el mejor modelo de código cerrado tuvo una precisión del 63%.

La inteligencia artificial ha impulsado el mundo de la robótica

Al momento de cambiar el procedimiento respecto a pedirles a los modelos que hicieran predicciones basadas en vídeos o imágenes de reacciones humanas a los escenarios, el rendimiento cayó en picada. Entre el 44,5% y el 53,8% fueron los resultados obtenidos; algunos modelos dieron la misma respuesta en todos los vídeos.

Parreira y Ju se han puesto en contacto para explorar por qué los modelos están fallando y si existe alguna forma de mejorar su rendimiento. Los modelos virtuales de aprendizaje no tendrían la capacidad de brindar una inteligencia social anticipatoria; no pueden utilizar la información para anticipar resultados. Ju piensa que el mejor enfoque de mejora es desplegar a los robots para que puedan ver sus errores y que interactúen los humanos; luego vendría la adaptación necesaria. Por lo pronto, nosotros podemos estar tranquilos respecto a que aún no pueden replicar nuestro sentido de anticipación, lo que bien podría decirse que es mera intuición.