El salto que viene en la IA generativa: hacia los grandes modelos de mundo

Tras el éxito de los grandes modelos de lenguaje, la inteligencia artificial avanza hacia sistemas capaces de recrear el mundo físico. Gigantes como Google, Meta, Amazon y Nvidia apuestan por los llamados “modelos de mundo”, que prometen revolucionar la robótica, los videojuegos y la conducción autónoma.

Investigación26 de septiembre de 2025Alejandra LarreaAlejandra Larrea
file_0000000035f061f9a4687d3c8b7dce69

La inteligencia artificial generativa vive un nuevo punto de inflexión. Si los grandes modelos de lenguaje (LLM) transformaron la forma en que interactuamos con la tecnología gracias a su capacidad para producir texto coherente y creativo, ahora el horizonte se amplía hacia un terreno mucho más ambicioso: los grandes modelos de mundo (LWM, por sus siglas en inglés).

Estos sistemas buscan algo más que procesar palabras o imágenes: pretenden aprender las reglas del mundo físico y simularlas en tiempo real. En la práctica, esto significa que una IA no solo podrá responder preguntas o generar imágenes, sino también anticipar cómo se mueve un objeto, cómo reaccionaría un robot frente a un obstáculo o cómo se comportaría un coche autónomo en una situación inesperada.

De los modelos de lenguaje a los modelos de mundo

El paralelismo entre los LLM y los LWM ayuda a entender el salto conceptual. Mientras que los primeros predicen la siguiente palabra en una frase a partir de patrones lingüísticos, los segundos buscan predecir el siguiente “fragmento de realidad”: un fotograma de un video, la trayectoria de un objeto o incluso la acción que debería ejecutar un robot.

La diferencia no es menor. Si entrenar a un modelo de lenguaje requiere ingentes cantidades de texto, entrenar un modelo de mundo exige datos multimodales vinculados al espacio y al tiempo: imágenes, videos, sonidos, sensores de movimiento y registros físicos. En otras palabras, se trata de enseñar a la máquina cómo funciona el entorno en el que vivimos.

Los gigantes tecnológicos entran en escena

La carrera ya comenzó y los grandes nombres no se han quedado atrás. Google presentó Genie 3, un generador de entornos virtuales en tiempo real que funciona como un videojuego interactivo. Meta lanzó V-JEPA 2, un modelo con comprensión visual avanzada, capaz de interpretar entornos y anticipar acciones. Nvidia, por su parte, presentó la plataforma Cosmos, destinada a entrenar robots y vehículos autónomos con datos realistas.

A esta competencia se suman startups con financiamiento millonario. World Labs, impulsada por la reconocida investigadora Fei-Fei Li, recibió 230 millones de dólares para desarrollar sistemas de comprensión del mundo físico. Skild AI, respaldada por Amazon, Nvidia y Samsung, ya presentó un modelo capaz de coordinar tanto líneas de producción como robots humanoides.

El entusiasmo empresarial muestra que la idea dejó de ser ciencia ficción y se convirtió en un mercado emergente que promete transformar industrias enteras.

Un cerebro para robots y máquinas

La aplicación más evidente de estos modelos está en la robótica. Hasta ahora, entrenar a un robot para ejecutar tareas simples, como agarrar un vaso de plástico, implicaba un proceso de ensayo y error lento y costoso. Con los LWM, el robot puede anticipar resultados sin necesidad de miles de intentos: sabe que apretar demasiado arrugará el vaso y que hacerlo con poca fuerza hará que se caiga.

Esto significa que el aprendizaje de las máquinas podría acelerarse de manera exponencial. En lugar de pasar semanas programando interacciones básicas, un modelo de mundo permitiría que los robots aprendan a moverse e interactuar con objetos desconocidos casi de inmediato.

La conducción autónoma también se perfila como un terreno fértil. Empresas como Waymo (Google) y Tesla ya capturan datos en tiempo real de calles y carreteras. Esos registros alimentan sistemas que podrían, con la ayuda de los LWM, intuir peligros antes de que ocurran y reaccionar de forma más natural, como lo haría un conductor humano experimentado.

DONACIÓN

Más allá de la robótica, la recreación del mundo físico abre un abanico de posibilidades culturales y de entretenimiento. Los videojuegos podrían adaptarse dinámicamente a las decisiones del jugador, creando escenarios únicos e irrepetibles. Los metaversos, tantas veces anunciados y criticados, ganarían realismo al simular entornos con las mismas leyes físicas que rigen la realidad.

Imaginemos un entorno virtual donde una pelota rebota con la misma física que en el mundo real, o donde un vaso de agua se derrama según el ángulo y la velocidad con que se incline. Estas simulaciones, generadas en tiempo real, no solo enriquecerían el ocio digital, sino que también tendrían aplicaciones en educación, arquitectura o entrenamiento profesional.

El desafío de los datos

El entusiasmo, sin embargo, choca con una dificultad clave: la escasez de datos integrales del mundo físico. Para entrenar modelos de este tipo no basta con imágenes o texto; se necesitan registros que incluyan profundidad, movimiento y contexto espacial. Sensores como el LiDAR, que mide la distancia y la forma de los objetos, se vuelven esenciales en este proceso.

De hecho, se estima que grandes compañías están construyendo bases de datos masivas del mundo real, recopilando información en tiempo real para alimentar a estos modelos. Este proceso plantea dilemas de privacidad y control: ¿hasta qué punto es legítimo registrar y modelar la realidad física de manera continua?

Oportunidades y riesgos de los modelos de mundo

El potencial de los LWM es tan vasto como sus riesgos. Por un lado, podrían revolucionar la industria robótica, la conducción autónoma, la logística y el entretenimiento. Por otro, el acceso desigual a esta tecnología amenaza con concentrar aún más poder en manos de unas pocas empresas.

Además, recrear el mundo físico implica lidiar con dilemas éticos: ¿qué ocurre si un modelo de mundo anticipa comportamientos humanos y se utiliza para manipularlos? ¿Cómo garantizar que estas simulaciones respeten la privacidad de las personas cuyos movimientos y entornos fueron registrados?

El debate no se limita a lo técnico. Es, sobre todo, político y social. La capacidad de una IA para replicar la realidad puede convertirse en una herramienta de innovación o en un instrumento de control, según cómo se regule y se utilice.

Un futuro en construcción

Los grandes modelos de mundo aún están en una fase embrionaria, pero la inversión y el interés indican que su desarrollo será rápido. Lo que hoy parece un experimento de laboratorio podría convertirse en una herramienta cotidiana en menos de una década.

El salto que viene en la IA generativa no se mide ya en palabras o imágenes, sino en la capacidad de recrear la realidad misma. Si los LLM cambiaron nuestra forma de comunicarnos, los LWM podrían cambiar nuestra manera de interactuar con el mundo físico, tanto en el trabajo como en el ocio.

La pregunta que queda abierta es si estaremos preparados, como sociedad, para convivir con máquinas que no solo entienden lo que decimos, sino que también intuyen cómo funciona nuestro entorno. El futuro de la inteligencia artificial se juega, cada vez más, en ese delicado límite entre lo real y lo simulado.

ChatGPT Image 26 sept 2025, 16_12_03Trump desafía a Netanyahu: “No permitiré que se anexe Cisjordania a Israel”



Te puede interesar
file_00000000d43061f99bb65ef3f7d0ca58

Google Drive: tres trucos que transforman la productividad digital

Alejandra Larrea
Investigación26 de septiembre de 2025

La plataforma de almacenamiento en la nube de Google se ha convertido en una herramienta indispensable para estudiantes, profesionales y empresas. Sin embargo, más allá de lo básico, existen funciones poco conocidas que permiten ahorrar tiempo, mejorar la organización y potenciar la colaboración.

Lo más visto
ChatGPT Image 26 sept 2025, 15_58_13

El Gobierno reinstauró la restricción cruzada: quienes compren dólar oficial no podrán operar divisas financieras por 90 días

Alejandro Cabrera
Economía26 de septiembre de 2025

El Banco Central volvió a imponer un límite clásico del cepo cambiario. Los compradores de dólar oficial quedarán inhabilitados durante tres meses para operar en el mercado financiero a través del MEP y el contado con liquidación. La medida apunta a frenar los “rulos” especulativos y cuidar las reservas en un contexto de tensión económica.