Gaceta Crítica

Un espacio para la información y el debate crítico con el capitalismo en España y el Mundo. Contra la guerra y la opresión social y neocolonial. Por la Democracia y el Socialismo.

 

Lo que ChatGPT nunca será capaz de hacer

Fei-Fei Li (The China Academy), 5 de Enero de 2026

ChatGPT puede generar montones de código, pero los robots humanoides aún tienen dificultades para moverse con fluidez. El profesor de Stanford Fei-Fei Li afirma que esto indica una nueva dirección crucial para el futuro de la inteligencia artificial.


En 1950, cuando la informática era poco más que aritmética automatizada y lógica simple, Alan Turing planteó una pregunta que aún resuena: ¿pueden pensar las máquinas? Se necesitó una imaginación extraordinaria para ver lo que vio: que la inteligencia podría algún día construirse, en lugar de nacer. Esa intuición dio inicio posteriormente a una incesante búsqueda científica llamada Inteligencia Artificial (IA). Veinticinco años después de mi carrera en IA, la visión de Turing todavía me inspira. Pero ¿cuán cerca estamos? La respuesta no es sencilla.

Hoy en día, las tecnologías de IA punteras, como los grandes modelos lingüísticos (LLM), han comenzado a transformar la forma en que accedemos y trabajamos con el conocimiento abstracto. Sin embargo, siguen siendo expertos en la materia; elocuentes pero inexpertos, expertos pero sin fundamento. La inteligencia espacial transformará la forma en que creamos e interactuamos con los mundos reales y virtuales, revolucionando la narrativa, la creatividad, la robótica, el descubrimiento científico y mucho más. Esta es la próxima frontera de la IA.

La búsqueda de la inteligencia visual y espacial ha sido mi guía desde que inicié mi carrera. Por eso dediqué años a desarrollar ImageNet, el primer conjunto de datos de aprendizaje visual y benchmarking a gran escala, y uno de los tres elementos clave que posibilitaron el nacimiento de la IA moderna, junto con los algoritmos de redes neuronales y las unidades de procesamiento gráfico (GPU) modernas. Por eso, mi laboratorio académico en Stanford ha dedicado la última década a combinar la visión artificial con el aprendizaje robótico. Y por eso mis cofundadores, Justin Johnson, Christoph Lassner, Ben Mildenhall y yo, creamos World Labs hace más de un año: para hacer realidad esta posibilidad por completo, por primera vez.

En este ensayo, explicaré qué es la inteligencia espacial, por qué es importante y cómo estamos construyendo los modelos mundiales que la desbloquearán, con un impacto que transformará la creatividad, la inteligencia encarnada y el progreso humano.

Inteligencia espacial: el andamiaje de la cognición humana

La IA nunca ha sido tan emocionante. Los modelos de IA generativa, como los LLM, han pasado de los laboratorios de investigación a la vida cotidiana, convirtiéndose en herramientas de creatividad, productividad y comunicación para miles de millones de personas. Han demostrado capacidades que antes se creían imposibles, produciendo texto coherente, montañas de código, imágenes fotorrealistas e incluso videoclips cortos con facilidad. Ya no se trata de si la IA cambiará el mundo. Desde cualquier perspectiva, ya lo ha hecho.

Sin embargo, aún queda mucho más allá de nuestro alcance. La visión de robots autónomos sigue siendo intrigante, pero especulativa, lejos de las rutinas cotidianas que los futuristas han prometido desde hace tiempo. El sueño de una investigación acelerada en campos como la curación de enfermedades, el descubrimiento de nuevos materiales y la física de partículas sigue en gran medida incumplido. Y la promesa de una IA que realmente comprenda y empodere a los creadores humanos —ya sean estudiantes que aprenden conceptos complejos de química molecular, arquitectos que visualizan espacios, cineastas que construyen mundos o cualquiera que busque experiencias virtuales totalmente inmersivas— sigue siendo inalcanzable.

Para entender por qué estas capacidades siguen siendo esquivas, necesitamos examinar cómo evolucionó la inteligencia espacial y cómo moldea nuestra comprensión del mundo.

La visión ha sido durante mucho tiempo un pilar de la inteligencia humana, pero su poder surgió de algo aún más fundamental. Mucho antes de que los animales pudieran anidar, cuidar a sus crías, comunicarse mediante el lenguaje o construir civilizaciones, el simple acto de sentir desencadenó silenciosamente un viaje evolutivo hacia la inteligencia.

Esta capacidad aparentemente aislada de extraer información del mundo exterior, ya fuera un destello de luz o la sensación de una textura, creó un puente entre la percepción y la supervivencia que se fortaleció y se hizo más complejo con el paso de las generaciones. Capa tras capa de neuronas crecieron a partir de ese puente, formando sistemas nerviosos que interpretan el mundo y coordinan las interacciones entre un organismo y su entorno. Por ello, muchos científicos han conjeturado que la percepción y la acción se convirtieron en el circuito central que impulsó la evolución de la inteligencia y la base sobre la que la naturaleza creó nuestra especie: la encarnación suprema de la percepción, el aprendizaje, el pensamiento y la acción.

La inteligencia espacial desempeña un papel fundamental en la definición de cómo interactuamos con el mundo físico. A diario, nos apoyamos en ella para las acciones más cotidianas: aparcar un coche imaginando cómo se reduce la distancia entre el parachoques y la acera, atrapar un juego de llaves lanzado al otro lado de la habitación, circular por una acera abarrotada sin chocar o servir café en una taza, soñoliento, sin mirar. En circunstancias más extremas, los bomberos se desplazan entre edificios que se derrumban a través del humo cambiante, emitiendo juicios instantáneos sobre estabilidad y supervivencia, comunicándose mediante gestos, lenguaje corporal y un instinto profesional compartido insustituible en el lenguaje. Y los niños pasan la totalidad de sus meses o años preverbales aprendiendo sobre el mundo a través de interacciones lúdicas con su entorno. Todo esto ocurre de forma intuitiva y automática: una fluidez que las máquinas aún no han alcanzado.

La inteligencia espacial también es fundamental para nuestra imaginación y creatividad. Los narradores crean mundos excepcionalmente ricos en sus mentes y aprovechan diversos medios visuales para compartirlos con otros, desde pinturas rupestres antiguas hasta cine moderno y videojuegos inmersivos. Ya sean niños construyendo castillos de arena en la playa o jugando Minecraft en el ordenador, la imaginación con base espacial constituye la base de las experiencias interactivas en mundos reales o virtuales. Y en muchas aplicaciones industriales, las simulaciones de objetos, escenas y entornos interactivos dinámicos impulsan innumerables casos de uso empresarial críticos, desde el diseño industrial hasta los gemelos digitales y el entrenamiento robótico.

La historia está llena de momentos que definieron la civilización donde la inteligencia espacial jugó un papel central. En la antigua Grecia, Eratóstenes transformó las sombras en geometría —midiendo un ángulo de 7 grados en Alejandría en el momento exacto en que el sol no proyectaba sombra en Siena— para calcular la circunferencia de la Tierra. La «Spinning Jenny» de Hargreave revolucionó la fabricación textil mediante una visión espacial: la disposición de múltiples husos uno al lado del otro en un solo marco permitía a un trabajador hilar múltiples hilos simultáneamente, multiplicando por ocho la productividad. Watson y Crick descubrieron la estructura del ADN construyendo físicamente modelos moleculares en 3D, manipulando placas de metal y alambre hasta que la disposición espacial de los pares de bases encajara en su lugar. En cada caso, la inteligencia espacial impulsó la civilización cuando científicos e inventores tuvieron que manipular objetos, visualizar estructuras y razonar sobre espacios físicos, nada de lo cual puede capturarse solo en texto.

La inteligencia espacial es el andamiaje sobre el que se construye nuestra cognición. Actúa cuando observamos pasivamente o buscamos activamente crear. Impulsa nuestro razonamiento y planificación, incluso en los temas más abstractos. Y es esencial para nuestra forma de interactuar, ya sea verbal o físicamente, con nuestros semejantes o con el propio entorno. Aunque la mayoría de nosotros no revelamos nuevas verdades al nivel de Eratóstenes casi a diario, pensamos de la misma manera: damos sentido a un mundo complejo percibiéndolo a través de nuestros sentidos y luego aprovechamos una comprensión intuitiva de su funcionamiento en términos físicos y espaciales.

Desafortunadamente la IA actual todavía no piensa así.

Se han logrado enormes avances en los últimos años. Los LLM multimodales (MLLM), entrenados con voluminosos datos multimedia además de datos textuales, han introducido algunos fundamentos de la percepción espacial, y la IA actual puede analizar imágenes, responder preguntas sobre ellas y generar imágenes hiperrealistas y vídeos cortos. Y gracias a los avances en sensores y hápticos, nuestros robots más avanzados pueden empezar a manipular objetos y herramientas en entornos muy limitados.

Sin embargo, la pura verdad es que las capacidades espaciales de la IA distan mucho del nivel humano. Y sus límites se revelan rápidamente. Los modelos MLLM de vanguardia rara vez superan al azar al estimar la distancia, la orientación y el tamaño, o al rotar objetos «mentalmente» regenerándolos desde nuevos ángulos. No pueden navegar por laberintos, reconocer atajos ni predecir la física básica. Los vídeos generados por IA —incipientes y sí, muy interesantes— suelen perder coherencia después de unos segundos.

Si bien la IA de vanguardia actual puede destacar en la lectura, escritura, investigación y reconocimiento de patrones en datos, estos mismos modelos presentan limitaciones fundamentales al representar o interactuar con el mundo físico. Nuestra visión del mundo es holística: no solo lo que observamos, sino cómo todo se relaciona espacialmente, qué significa y por qué es importante. Comprender esto mediante la imaginación, el razonamiento, la creación y la interacción —no solo las descripciones— es el poder de la inteligencia espacial. Sin ella, la IA está desconectada de la realidad física que busca comprender. No puede conducir eficazmente nuestros automóviles, guiar robots en nuestros hogares y hospitales, posibilitar formas completamente nuevas de experiencias inmersivas e interactivas para el aprendizaje y el ocio, ni acelerar los descubrimientos en la ciencia de los materiales y la medicina.

El filósofo Wittgenstein escribió una vez que «los límites de mi lenguaje significan los límites de mi mundo». No soy filósofo. Pero sé que, al menos para la IA, hay más que solo palabras. La inteligencia espacial representa la frontera más allá del lenguaje: la capacidad que vincula la imaginación, la percepción y la acción, y abre posibilidades para que las máquinas mejoren verdaderamente la vida humana, desde la atención médica hasta la creatividad, desde el descubrimiento científico hasta la asistencia diaria.

La próxima década de la IA: construir máquinas verdaderamente inteligentes espacialmente

¿Cómo construimos entonces una IA espacialmente inteligente? ¿Cuál es el camino hacia modelos capaces de razonar con la visión de Eratóstenes, diseñar con la precisión de un diseñador industrial, crear con la imaginación de un narrador e interactuar con su entorno con la fluidez de un socorrista?

Desarrollar una IA espacialmente inteligente requiere algo aún más ambicioso que los LLM: modelos del mundo, un nuevo tipo de modelos generativos cuyas capacidades de comprensión, razonamiento, generación e interacción con los mundos semántica, física, geométrica y dinámicamente complejos, ya sean virtuales o reales, están muy por encima del alcance de los LLM actuales. El campo es incipiente, con métodos actuales que abarcan desde modelos de razonamiento abstracto hasta sistemas de generación de vídeo. World Labs se fundó a principios de 2024 con la convicción de que los enfoques fundamentales aún se están estableciendo, lo que lo convierte en el reto decisivo de la próxima década.

En este campo emergente, lo más importante es establecer los principios que guían el desarrollo. Para la inteligencia espacial, defino los modelos mundiales a través de tres capacidades esenciales:

1. Generativo: Los modelos mundiales pueden generar mundos con consistencia perceptual, geométrica y física.

Los modelos de mundo que desbloquean la comprensión y el razonamiento espacial también deben generar mundos simulados propios. Deben ser capaces de generar mundos simulados infinitamente variados y diversos que sigan instrucciones semánticas o perceptuales, manteniendo la coherencia geométrica, física y dinámica, ya sea que representen espacios reales o virtuales. La comunidad investigadora explora activamente si estos mundos deben representarse implícita o explícitamente en términos de las estructuras geométricas innatas. Además de las potentes representaciones latentes, creo que los resultados de un modelo de mundo universal también deben permitir la generación de un estado explícito y observable de los mundos para muchos casos de uso diferentes. En particular, su comprensión del presente debe estar vinculada coherentemente a su pasado; a los estados previos del mundo que condujeron al actual.

2. Multimodal: Los modelos mundiales son multimodales por diseño.

Al igual que los animales y los humanos, un modelo del mundo debería ser capaz de procesar entradas —conocidas como «indicaciones» en el ámbito de la IA generativa— en una amplia gama de formas. Dada información parcial —ya sean imágenes, vídeos, mapas de profundidad, instrucciones de texto, gestos o acciones—, los modelos del mundo deberían predecir o generar estados del mundo lo más completos posible. Esto requiere procesar las entradas visuales con la fidelidad de la visión real, a la vez que interpretan las instrucciones semánticas con la misma facilidad. Esto permite que tanto los agentes como los humanos se comuniquen con el modelo sobre el mundo a través de diversas entradas y reciban a cambio diversas salidas.

3. Interactivo: Los modelos mundiales pueden generar los siguientes estados en función de las acciones de entrada.

Finalmente, si las acciones y/o los objetivos forman parte de la instrucción de un modelo del mundo, sus resultados deben incluir el siguiente estado del mundo, representado implícita o explícitamente. Al proporcionar únicamente una acción con o sin un estado objetivo como entrada, el modelo del mundo debería producir un resultado coherente con el estado previo del mundo, el estado objetivo previsto, si lo hubiera, y sus significados semánticos, leyes físicas y comportamientos dinámicos. A medida que los modelos del mundo con inteligencia espacial se vuelven más potentes y robustos en sus capacidades de razonamiento y generación, es concebible que, en el caso de un objetivo dado, los propios modelos del mundo puedan predecir no solo el siguiente estado del mundo, sino también las siguientes acciones basadas en el nuevo estado.

El alcance de este desafío excede todo lo que la IA ha enfrentado antes.

Si bien el lenguaje es un fenómeno puramente generativo de la cognición humana, los mundos se rigen por reglas mucho más complejas. Aquí en la Tierra, por ejemplo, la gravedad rige el movimiento, las estructuras atómicas determinan cómo la luz produce colores y brillo, e innumerables leyes físicas restringen cada interacción. Incluso los mundos más imaginativos y creativos se componen de objetos y agentes espaciales que obedecen las leyes físicas y los comportamientos dinámicos que los definen. Conciliar todo esto de forma coherente —lo semántico, lo geométrico, lo dinámico y lo físico— exige enfoques completamente nuevos. La dimensionalidad de la representación de un mundo es mucho más compleja que la de una señal unidimensional y secuencial como el lenguaje. Lograr modelos del mundo que ofrezcan las capacidades universales que disfrutamos como humanos requerirá superar varias barreras técnicas formidables. En World Labs, nuestros equipos de investigación se dedican a lograr avances fundamentales hacia ese objetivo.

A continuación se muestran algunos ejemplos de nuestros temas de investigación actuales:

Una nueva función de tarea universal para el entrenamiento: Definir una función de tarea universal tan simple y elegante como la predicción del siguiente token en los modelos de mundo ha sido durante mucho tiempo un objetivo central de la investigación de modelos de mundo. La complejidad de sus espacios de entrada y salida dificulta inherentemente la formulación de dicha función. Sin embargo, aunque aún queda mucho por explorar, esta función objetivo y sus representaciones correspondientes deben reflejar las leyes de la geometría y la física, respetando la naturaleza fundamental de los modelos de mundo como representaciones fundamentadas tanto de la imaginación como de la realidad.

Datos de entrenamiento a gran escala: Entrenar modelos del mundo requiere datos mucho más complejos que la curación de texto. La noticia prometedora: ya existen fuentes de datos masivas. Las colecciones de imágenes y videos a escala de internet representan material de entrenamiento abundante y accesible; el desafío radica en desarrollar algoritmos que puedan extraer información espacial más profunda de estas señales bidimensionales basadas en imágenes o videos (es decir, RGB). La investigación de la última década ha demostrado el poder de las leyes de escala que vinculan el volumen de datos y el tamaño del modelo en modelos de lenguaje; la clave para desbloquear los modelos del mundo es construir arquitecturas que puedan aprovechar los datos visuales existentes a una escala comparable. Además, no subestimaría el poder de los datos sintéticos de alta calidad y las modalidades adicionales como la información de profundidad y táctil. Complementan los datos a escala de internet en pasos críticos del proceso de entrenamiento. Pero el camino a seguir depende de mejores sistemas de sensores, algoritmos de extracción de señales más robustos y métodos de simulación neuronal mucho más potentes.

Nueva arquitectura de modelos y aprendizaje representacional: La investigación sobre modelos del mundo impulsará inevitablemente avances en la arquitectura de modelos y los algoritmos de aprendizaje, en particular más allá de los paradigmas actuales de MLLM y difusión de video. Ambos paradigmas suelen tokenizar datos en secuencias 1D o 2D, lo que dificulta innecesariamente tareas espaciales sencillas, como contar sillas únicas en un video corto o recordar el aspecto de una habitación hace una hora. Arquitecturas alternativas pueden ser útiles, como los métodos 3D o 4D para la tokenización, el contexto y la memoria. Por ejemplo, en World Labs, nuestro trabajo reciente sobre un modelo generativo en tiempo real basado en cuadros llamado RTFM ha demostrado este cambio, que utiliza cuadros con base espacial como una forma de memoria espacial para lograr una generación eficiente en tiempo real, manteniendo la persistencia en el mundo generado.

Es evidente que aún enfrentamos enormes desafíos antes de poder desentrañar por completo la inteligencia espacial mediante el modelado de mundos. Esta investigación no es solo un ejercicio teórico. Es el motor principal de una nueva clase de herramientas creativas y de productividad. Y el progreso en World Labs ha sido alentador. Recientemente compartimos con un número limitado de usuarios un adelanto de Marble, el primer modelo de mundo que puede generarse mediante entradas multimodales para mantener entornos 3D consistentes que los usuarios y los creadores de historias pueden explorar, interactuar y desarrollar en su flujo de trabajo creativo. ¡Y estamos trabajando arduamente para que esté disponible para el público pronto!

Marble es solo nuestro primer paso en la creación de un modelo de mundo verdaderamente espacialmente inteligente. A medida que el progreso se acelera, investigadores, ingenieros, usuarios y líderes empresariales comienzan a reconocer su extraordinario potencial. La próxima generación de modelos de mundo permitirá a las máquinas alcanzar una inteligencia espacial completamente nueva, un logro que liberará capacidades esenciales que aún están en gran medida ausentes en los sistemas de IA actuales.

Usando modelos mundiales para construir un mundo mejor para las personas

Importa qué motiva el desarrollo de la IA. Como uno de los científicos que ayudó a marcar el comienzo de la era de la IA moderna, mi motivación siempre ha sido clara: la IA debe aumentar la capacidad humana, no reemplazarla. Durante años, he trabajado para alinear el desarrollo, la implementación y la gobernanza de la IA con las necesidades humanas. Hoy en día abundan las narrativas extremas de tecnoutopía y apocalipsis, pero sigo manteniendo una visión más pragmática: la IA es desarrollada por personas, utilizada por personas y gobernada por personas. Siempre debe respetar la autonomía y la dignidad de las personas. Su magia reside en ampliar nuestras capacidades; haciéndonos más creativos, conectados, productivos y plenos. La inteligencia espacial representa esta visión: una IA que empodera a creadores, cuidadores, científicos y soñadores humanos para lograr lo que antes era imposible. Esta creencia es lo que impulsa mi compromiso con la inteligencia espacial como la próxima gran frontera de la IA.

Las aplicaciones de la inteligencia espacial abarcan diversas cronologías. Las herramientas creativas están surgiendo ahora: Marble, de World Labs, ya pone estas capacidades al alcance de creadores y narradores. La robótica representa un ambicioso horizonte a medio plazo, a medida que perfeccionamos el vínculo entre la percepción y la acción. Las aplicaciones científicas más transformadoras tardarán más tiempo, pero prometen un profundo impacto en el desarrollo humano.

A lo largo de todas estas líneas temporales, varios ámbitos destacan por su potencial para transformar la capacidad humana. Requerirá un esfuerzo colectivo significativo, más del que un solo equipo o empresa podría lograr. Requerirá la participación de todo el ecosistema de IA (investigadores, innovadores, emprendedores, empresas e incluso legisladores) trabajando hacia una visión compartida. Pero vale la pena perseguir esta visión. Esto es lo que nos depara el futuro:

Creatividad: Narración superpoderosa y experiencias inmersivas

“La creatividad es inteligencia divirtiéndose”. Esta es una de mis citas favoritas de mi héroe personal, Albert Einstein. Mucho antes del lenguaje escrito, los humanos contaban historias: las pintaban en las paredes de cuevas, las transmitían de generación en generación, construían culturas enteras a partir de narrativas compartidas. Las historias nos permiten comprender el mundo, conectar a través de la distancia y el tiempo, explorar lo que significa ser humano y, lo más importante, encontrar el sentido de la vida y el amor en nuestro interior. Hoy en día, la inteligencia espacial tiene el potencial de transformar la forma en que creamos y experimentamos las narrativas, de maneras que honran su importancia fundamental y extienden su impacto del entretenimiento a la educación, del diseño a la construcción.

La plataforma Marble de World Labs pondrá capacidades espaciales y control editorial sin precedentes al alcance de cineastas, diseñadores de juegos, arquitectos y narradores de todo tipo, permitiéndoles crear e iterar rápidamente en mundos 3D totalmente explorables sin la sobrecarga del software de diseño 3D convencional. El acto creativo sigue siendo tan vital y humano como siempre; las herramientas de IA simplemente amplifican y aceleran los logros de los creadores. Esto incluye:

Experiencias narrativas en nuevas dimensiones: Cineastas y diseñadores de videojuegos utilizan Marble para crear mundos enteros sin las limitaciones de presupuesto ni geografía, explorando una variedad de escenas y perspectivas que habrían sido imposibles de explorar con una producción tradicional. A medida que se difuminan las fronteras entre los diferentes medios y el entretenimiento, nos acercamos a nuevos tipos de experiencias interactivas que combinan arte, simulación y juego: mundos personalizados donde cualquiera, no solo los estudios, puede crear y vivir sus propias historias. Con el auge de formas más nuevas y rápidas de convertir conceptos y guiones gráficos en experiencias completas, las narrativas ya no estarán limitadas a un solo medio, y los creadores tendrán la libertad de construir mundos con líneas argumentales compartidas en una gran variedad de superficies y plataformas.

Narrativas espaciales a través del diseño: Esencialmente, todo objeto manufacturado o espacio construido debe diseñarse virtualmente en 3D antes de su creación física. Este proceso es altamente iterativo y costoso en términos de tiempo y dinero. Con modelos espacialmente inteligentes a su disposición, los arquitectos pueden visualizar rápidamente estructuras antes de invertir meses en diseños, recorriendo espacios que aún no existen, contando historias sobre cómo podríamos vivir, trabajar y reunirnos. Los diseñadores industriales y de moda pueden plasmar la imaginación en forma al instante, explorando cómo los objetos interactúan con los cuerpos y espacios humanos.

Nuevas experiencias inmersivas e interactivas: La experiencia en sí misma es una de las formas más profundas en que, como especie, creamos significado. A lo largo de la historia de la humanidad, ha existido un único mundo 3D: el físico que todos compartimos. Solo en las últimas décadas, a través de los videojuegos y las primeras experiencias de realidad virtual (RV), hemos comenzado a vislumbrar lo que significa compartir mundos alternativos de nuestra propia creación. Ahora, la inteligencia espacial, combinada con nuevos formatos, como los auriculares de RV y realidad extendida (RX) y las pantallas inmersivas, eleva estas experiencias de maneras sin precedentes. Nos acercamos a un futuro en el que adentrarse en mundos multidimensionales plenamente desarrollados se vuelve tan natural como abrir un libro. La inteligencia espacial hace que la creación de mundos sea accesible no solo para estudios con equipos de producción profesionales, sino también para creadores individuales, educadores y cualquier persona con una visión que compartir.

Robótica: Inteligencia encarnada en acción

Los animales, desde los insectos hasta los humanos, dependen de la inteligencia espacial para comprender, navegar e interactuar con su mundo. Los robots no serán la excepción. Las máquinas con conciencia espacial han sido el sueño de este campo desde sus inicios, incluyendo mi propio trabajo con estudiantes y colaboradores en mi laboratorio de investigación de Stanford. Por eso también me entusiasma la posibilidad de implementarlas utilizando los modelos que World Labs está desarrollando.

Escalado del aprendizaje robótico mediante modelos del mundo: El progreso del aprendizaje robótico depende de una solución escalable de datos de entrenamiento viables. Dado el enorme espacio de posibilidades que los robots tienen que aprender a comprender, razonar, planificar e interactuar, muchos han conjeturado que se requiere una combinación de datos de internet, simulación sintética y captura de demostraciones humanas en el mundo real para crear robots verdaderamente generalizables. Sin embargo, a diferencia de los modelos de lenguaje, los datos de entrenamiento son escasos para la investigación robótica actual. Los modelos del mundo desempeñarán un papel decisivo en esto. A medida que aumentan su fidelidad perceptiva y eficiencia computacional, los resultados de los modelos del mundo pueden acortar rápidamente la distancia entre la simulación y la realidad. Esto, a su vez, facilitará el entrenamiento de robots en simulaciones de innumerables estados, interacciones y entornos.

Compañeros y colaboradores: Los robots, como colaboradores humanos, ya sea ayudando a científicos en el laboratorio o a personas mayores que viven solas, pueden ampliar parte de la fuerza laboral que necesita urgentemente más mano de obra y productividad. Sin embargo, esto exige una inteligencia espacial que perciba, razone, planifique y actúe, a la vez que —y esto es lo más importante— se mantiene empáticamente alineada con los objetivos y comportamientos humanos. Por ejemplo, un robot de laboratorio podría manipular instrumentos para que el científico pueda concentrarse en tareas que requieren destreza o razonamiento, mientras que un asistente doméstico podría ayudar a una persona mayor a cocinar sin disminuir su alegría ni autonomía. Los modelos del mundo verdaderamente inteligentes espacialmente, capaces de predecir el siguiente estado o incluso acciones coherentes con esta expectativa, son fundamentales para lograr este objetivo.

Expansión de las formas de encarnación: Los robots humanoides desempeñan un papel en el mundo que hemos construido para nosotros mismos. Pero el máximo beneficio de la innovación provendrá de una gama mucho más diversa de diseños: nanobots que administran medicamentos, robots blandos que navegan en espacios reducidos y máquinas diseñadas para las profundidades marinas o el espacio exterior. Sea cual sea su forma, los futuros modelos de inteligencia espacial deben integrar tanto los entornos que habitan estos robots como su propia percepción y movimiento encarnados. Sin embargo, un desafío clave en el desarrollo de estos robots es la falta de datos de entrenamiento en esta amplia variedad de factores de forma encarnados. Los modelos del mundo desempeñarán un papel crucial en los datos de simulación, los entornos de entrenamiento y las tareas de evaluación comparativa para estos esfuerzos.

El horizonte más largo: ciencia, atención médica y educación

Además de las aplicaciones creativas y robóticas, el profundo impacto de la inteligencia espacial también se extenderá a campos donde la IA puede mejorar la capacidad humana, salvando vidas y acelerando el descubrimiento. A continuación, destaco tres áreas de aplicación que pueden ser profundamente transformadoras, aunque es evidente que los casos de uso de la inteligencia espacial son realmente expansivos en muchas más industrias.

En la investigación científica, los sistemas de inteligencia espacial pueden simular experimentos, probar hipótesis en paralelo y explorar entornos inaccesibles para los humanos, desde las profundidades oceánicas hasta planetas distantes. Esta tecnología puede transformar el modelado computacional en campos como la ciencia del clima y la investigación de materiales. Al integrar la simulación multidimensional con la recopilación de datos del mundo real, estas herramientas pueden reducir las barreras computacionales y ampliar lo que cualquier laboratorio puede observar y comprender.

En el ámbito sanitario, la inteligencia espacial transformará todo, desde el laboratorio hasta la atención médica. En Stanford, mis estudiantes y colaboradores llevan muchos años trabajando con hospitales, centros de atención a personas mayores y pacientes en sus hogares. Esta experiencia me ha convencido del potencial transformador de la inteligencia espacial. La IA puede acelerar el descubrimiento de fármacos modelando interacciones moleculares multidimensionales, mejorar el diagnóstico ayudando a los radiólogos a detectar patrones en imágenes médicas y habilitar sistemas de monitorización ambiental que apoyen a pacientes y cuidadores sin reemplazar la conexión humana que requiere la curación, por no mencionar el potencial de los robots para ayudar a nuestros profesionales sanitarios y pacientes en diversos entornos.

En educación, la inteligencia espacial puede facilitar un aprendizaje inmersivo que hace tangibles conceptos abstractos o complejos y crea experiencias iterativas, esenciales para la programación de nuestro cerebro y cuerpo en el aprendizaje. En la era de la IA, la necesidad de un aprendizaje y una actualización de habilidades más rápidos y efectivos es particularmente importante tanto para niños en edad escolar como para adultos. Los estudiantes pueden explorar la maquinaria celular o recorrer eventos históricos en una perspectiva multidimensional. Los docentes obtienen herramientas para personalizar la instrucción mediante entornos interactivos. Los profesionales, desde cirujanos hasta ingenieros, pueden practicar habilidades complejas de forma segura en simulaciones realistas.

En todos estos dominios, las posibilidades son ilimitadas, pero el objetivo sigue siendo constante: una IA que aumente la experiencia humana, acelere el descubrimiento humano y amplifique la atención humana, sin reemplazar el juicio, la creatividad y la empatía que son fundamentales para ser humanos.

Conclusión

La última década ha visto a la IA convertirse en un fenómeno global y un punto de inflexión en la tecnología, la economía e incluso la geopolítica. Pero como investigador, educador y ahora emprendedor, sigue siendo el espíritu detrás de la pregunta de Turing, formulada hace 75 años, lo que más me inspira. Sigo compartiendo su capacidad de asombro. Es lo que me motiva cada día ante el desafío de la inteligencia espacial.

Por primera vez en la historia, estamos preparados para construir máquinas tan en sintonía con el mundo físico que podemos confiar en ellas como verdaderos aliados en los mayores desafíos que enfrentamos. Ya sea acelerando nuestra comprensión de las enfermedades en el laboratorio, revolucionando la forma en que contamos historias o apoyándonos en nuestros momentos más vulnerables debido a enfermedades, lesiones o la edad, estamos a punto de desarrollar tecnología que eleva los aspectos de la vida que más nos importan. Esta es una visión de vidas más profundas, más plenas y más empoderadas.

Casi quinientos millones de años después de que la naturaleza desatara los primeros destellos de inteligencia espacial en los animales ancestrales, tenemos la suerte de pertenecer a la generación de tecnólogos que pronto podría dotar a las máquinas con la misma capacidad, y el privilegio de aprovecharlas para beneficio de las personas de todo el mundo. Nuestros sueños de máquinas verdaderamente inteligentes no estarán completos sin inteligencia espacial.

Deja un comentario

Acerca de

Writing on the Wall is a newsletter for freelance writers seeking inspiration, advice, and support on their creative journey.