Normal view

Compute becomes lifeblood, constraint of AI boom

10 June 2026 at 11:00
Computing power has become the lifeblood — and a key limiting factor — of the race to develop AI, as the push to integrate the technology into daily life clashes with the finite supply of one of its most crucial inputs. Often referred to simply as “compute,” the processing power that forms the foundation of…

Compute becomes lifeblood, constraint of AI boom

10 June 2026 at 11:00
Computing power has become the lifeblood — and a key limiting factor — of the race to develop AI, as the push to integrate the technology into daily life clashes with the finite supply of one of its most crucial inputs. Often referred to simply as “compute,” the processing power that forms the foundation of…

Adiós a las pausas incómodas: la nueva IA de Google traduce conversaciones en tiempo real imitando tu tono de voz

10 June 2026 at 09:46

Los laboratorios de inteligencia artificial son cada vez más conscientes del carácter global e interconectado del mundo actual. Por ello, una parte creciente de sus esfuerzos se centra en derribar barreras que dificultan la comunicación entre personas de diferentes regiones y culturas. Entre ellas, el idioma sigue siendo uno de los principales obstáculos, lo que ha impulsado el desarrollo de herramientas capaces de traducir conversaciones y contenidos de forma cada vez más natural y en tiempo real.

Es el caso de Google, que en las últimas horas ha anunciado Gemini 3.5 Live Translate. Hablamos del primer modelo de la familia Gemini especializado y entrenado exclusivamente para la traducción simultánea de voz a voz. Gracias a su baja latencia es capaz de escuchar a dos personas, imitar su tono de voz y detectar y traducir idiomas sin necesidad de sortear el turno de palabra o interrumpir el flujo de diálogo natural.

Habrá quien piense de manera inmediata en Google Translate, que acaba de cumplir dos décadas, al leer acerca de traducción y Google. En este caso Gemini 3.5 Live Translate pretende llevar esa conversión idiomática un paso más allá.

Más de 70 idiomas sin barreras ni interrupciones

El nuevo modelo de audio de Google llega para competir con los modelos de OpenAI GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, aunque estos últimos se centran más en funciones para desarrolladores. En el caso de Gemini 3.5 Live Translate desde Mountain View se han centrado en cuatro aspectos clave de cara a dotar a su traductor de unas capacidades con las que conquistar a los usuarios.

El primero tiene que ver la fluidez de la conversación. Este modelo escucha de forma continua y traduce sobre la marcha, como si fuera un intérprete humano. De ese modo, permite conservar una cadencia de conversación más natural y fluida y evita las pausas que eran necesarias en el pasado, cuando había que hablar, procesar el audio y escuchar el resultado antes de poder contestar. Esto forma parte del pasado gracias a la traducción en tiempo real de Gemini 3.5 Live Translate.

El segundo punto en el que el modelo de Google gana en agilidad tiene que ver con el reconocimiento del idioma. Antes había que indicar al traductor de turno cuál era el idioma de origen y cuál al que debía traducir. Ahora la IA de Google detecta automáticamente el idioma de cada interlocutor.

Traducir es una única acción pero el abanico de idiomas es muy amplio y conviene estar preparado para cualquier escenario. Aquí Google ha entrenado a Gemini 3.5 Live Translate para que sea capaz de identificar y traducir más de 70 idiomas, lo que ofrece una cobertura de gran amplitud para la comunicación. Además, soporta más de 2.000 combinaciones lingüísticas posibles. Esto quiere decir que, en una videollamada grupal, varias personas pueden hablar en su propio idioma y entenderse a la vez. 

Uso cotidiano y entorno empresarial: disponibilidad de Gemini 3.5 Live Translate

Para acabar, Google ha querido que Gemini 3.5 Live Translate esté disponible para todos los usuarios ya sea para su uso en ámbito personal o profesional. Para ello, ha integrado esta nueva herramienta en Google Translate tanto para Android como iOS, la integrará en vista previa privada a partir de este mes en Google Meet para clientes de empresa de cara a emplearla durante videollamadas y la tiene disponible para desarrolladores en la API Gemini Live y Google AI Studio.

Eso sí, ante el despliegue de una tecnología capaz de clonar matices humanos, Mountain View no ha querido descuidar la seguridad. Para evitar estafas o engaños, todo el audio que genere esta IA llevará una "marca de agua invisible" llamada SynthID. Una medida que permitirá rastrear en todo momento que esa voz ha sido creada por un ordenador y que, detrás de ella, no hay una persona real.

© Difoosion

El nuevo modelo de Google promete traducción simultánea en más de 70 idiomas - Google
❌