Gaceta Crítica

Un espacio para la información y el debate crítico con el capitalismo en España y el Mundo. Contra la guerra y la opresión social y neocolonial. Por la Democracia y el Socialismo.

Por qué nadie puede ver dentro de la caja negra de la Inteligencia Artificial (IA).

Abi Olvera, 27 d enero de 2025 (Boletín de los Científicos Atómicos de EEUU).

La mecánica precisa de cómo estos chatbots o modelos de imágenes producen su próxima palabra, imagen o idea sigue siendo un tanto misteriosa, incluso para sus creadores. Crédito: Flow37

Cuando haces clic en un botón en Microsoft Word, probablemente conoces el resultado exacto. Esto se debe a que cada acción del usuario lleva a un resultado predeterminado a través de un camino que los desarrolladores trazaron cuidadosamente, línea por línea, en el código fuente del programa. Lo mismo ocurre con muchas aplicaciones informáticas de uso frecuente disponibles hasta hace poco. Pero los sistemas de inteligencia artificial, en particular los grandes modelos de lenguaje que impulsan a programas como ChatGPT y Claude, se crearon y, por lo tanto, funcionan de una manera fundamentalmente diferente. Los desarrolladores no programaron meticulosamente estos nuevos sistemas paso a paso. Los modelos se moldearon a sí mismos a través de complejos procesos de aprendizaje, entrenándose con grandes cantidades de datos para reconocer patrones y generar respuestas.

Cuando un usuario introduce un mensaje, los chatbots que funcionan con estos modelos pueden, en aplicaciones de texto, predecir cuál podría ser la siguiente palabra de una oración y generar un texto que puede parecer extraordinariamente humano. De manera similar, los modelos de generación de imágenes como DALL-E y Midjourney crean elementos visuales entrenándose con miles de millones de pares de imágenes y texto, sin seguir instrucciones explícitas de dibujo.

La mecánica precisa de cómo estos chatbots o modelos de imágenes producen su próxima palabra, imagen o idea sigue siendo un tanto misteriosa, incluso para sus creadores. Es un poco como ver a un maestro de cocina cocinar por intuición: se pueden observar los ingredientes y el resultado, pero no está claro el proceso exacto de cómo llegaron a sus decisiones. Este desafío de comprender el funcionamiento interno de la IA no es nuevo. La investigación sobre la transparencia ha sido un campo de la informática durante más de una década, que intenta escudriñar la «caja negra» de las redes neuronales (sistemas informáticos complejos inspirados vagamente en el cerebro humano) y otros algoritmos de IA. Si bien los investigadores en el campo han explorado varios enfoques, incluidas las herramientas de «IA explicable» diseñadas para ayudar a interpretar las decisiones de la IA, estas soluciones técnicas no han demostrado ser muy útiles en la práctica.

Esta opacidad ha creado una dinámica de poder sin precedentes: en primer lugar, en el nivel más fundamental, las empresas tecnológicas que construyen estos sistemas de IA no entienden completamente cómo funcionan sus modelos internamente, un desafío inherente a la tecnología en sí. Pero hay una segunda barrera clara para la transparencia: los desarrolladores no están poniendo a disposición de personas externas a sus organizaciones los datos con los que entrenan estos sistemas. Además, los investigadores externos que tienen las habilidades y el conocimiento para estudiar estos sistemas de forma independiente carecen de los recursos y la potencia informática para realizar sus propios experimentos, incluso si tuvieran acceso a los datos. En un momento en que la IA generativa está transformando rápidamente la sociedad, desde los diagnósticos médicos hasta la enseñanza en el aula, los investigadores académicos e independientes están llevando a cabo investigaciones paralelas: esperan abrir la «caja negra» de la IA para comprender su toma de decisiones, al tiempo que estudian rigurosamente cómo estos sistemas afectan al mundo real. Los avances recientes revelan que la verdadera transparencia requiere no solo escudriñar el funcionamiento interno de la IA, sino reimaginar cómo la sociedad debería estudiar, evaluar y gobernar estos sistemas.

Transparencia significativa . Comprender los aspectos internos fundamentales de los modelos de IA es importante porque podría permitir intervenciones precisas cuando sea necesario, de la misma manera que las terapias dirigidas revolucionaron la medicina al bloquear vías biológicas exactas. “Cuando las personas quieren resolver el Parkinson, saben que comprender el mecanismo les permite centrarse en procesos específicos”, dice David Bau, profesor adjunto de informática de la Universidad Northeastern, que dirige un equipo de investigación que trabaja en la comprensión mecanicista de la IA (el estudio de cómo las redes neuronales procesan la información y toman decisiones). “No estamos ni cerca de eso con la IA, pero estamos empezando a ver los mecanismos”.

Pero la búsqueda para descifrar el proceso interno de toma de decisiones de la IA, y el campo de investigación asociado, todavía está evolucionando. “La investigación sobre la interpretabilidad es difícil y confusa”, dice Bau. “No se entiende muy bien, ni siquiera cuáles son las preguntas que estamos tratando de responder”. Sin embargo, sigue siendo optimista sobre el progreso que se está logrando. “Cada mes, se sabe un poco más”, señala Bau, señalando los avances recientes en la comprensión de los comportamientos de algunas de las capas de cálculos que realizan estos modelos, y también cómo incluso el orden de las “neuronas” artificiales o unidades de cálculos binarios, dentro del modelo de IA puede afectar significativamente su capacidad para hacer asociaciones correctas.

RELACIONADO:El posible impacto de Trump en las tecnologías emergentes y disruptivas

Sin embargo, a medida que las interacciones diarias de las personas con grandes modelos lingüísticos se vuelven más comunes, la concepción misma de lo que constituye una transparencia significativa también se está expandiendo. Algunos creen que no es necesario tener en cuenta por completo cada engranaje que gira en estas máquinas. «Lo que realmente necesitamos entender es cómo estos grandes modelos lingüísticos interactúan con el mundo», dice Sayash Kapoor, un candidato a doctorado en el Centro de Política de Tecnología de la Información de la Universidad de Princeton que fue incluido en la lista de las 100 personas más influyentes en IA de TIME en 2023. Tal vez los sistemas de IA no deberían verse como problemas puramente de ingeniería, con un enfoque únicamente en decodificar cómo los modelos de IA generan resultados. Descubrir cómo operan los modelos lingüísticos en la sociedad es lo crucial, dice Kapoor.

“Un mecánico puede tener un conocimiento profundo de cómo funciona un automóvil”, afirma, “pero cuando se trata de regular el funcionamiento de los automóviles en las carreteras, lo que más importa son los patrones observables del comportamiento humano y las interacciones del mundo real”.

Esta visión más amplia de la transparencia está ganando terreno en la comunidad de investigación. En la Universidad Radbound de los Países Bajos, los investigadores han desarrollado una matriz de transparencia que va más allá de la mera interpretación técnica, incorporando información del modelo, detalles de los datos de entrenamiento y evaluaciones del impacto social. Para Alex Hanna, director de investigación del Instituto de Investigación de IA Distribuida (DAIR), las cuestiones de transparencia más cruciales no son técnicas en absoluto. Tienen que ver con las decisiones humanas y organizacionales sobre cómo y cuándo se implementan los sistemas de IA. «Sin una transparencia significativa de la empresa, ni siquiera podemos comenzar a entender cómo estos sistemas impactan en el mundo real», explica Hanna. Si bien el acceso a los datos de entrenamiento también es importante, enfatiza que los problemas fundamentales en torno a la transparencia tienen que ver con las decisiones organizacionales, como cómo o cuándo lanzar sistemas de IA a pesar de sus alucinaciones o cómo evaluar los impactos y los riesgos, no con las explicaciones técnicas.

Algunos investigadores dicen que la decisión de las empresas de IA de no compartir los datos de sus sistemas de IA podría tener fines estratégicos. “Cuanto menos compartan sus datos de entrenamiento, más podrán afirmar que sus sistemas son mágicos”, dice Emily Bender, profesora de lingüística de la Universidad de Washington. Bender aboga por un enfoque más riguroso y científico para el desarrollo de la IA, criticando la tendencia a comercializar los modelos de lenguaje como solucionadores de problemas universales. “En lugar de capacidades, deberíamos hablar de funcionalidades”, dice. Por ejemplo, si bien un sistema de IA entrenado directamente con datos médicos puede parecer útil, depender de modelos de lenguaje para tales tareas puede no ser efectivo. “Si hay suficientes datos narrativos en el modelo de lenguaje, puede que se le ocurra algo relevante, pero no es para eso para lo que está diseñado”, dice Bender, advirtiendo que estos sistemas no están haciendo el mismo pensamiento probabilístico que los médicos cuando diagnostican a los pacientes. También podrían perpetuar inadvertidamente el racismo médico debido a los sesgos en sus datos de entrenamiento. En cambio, Bender aboga por “conjuntos de datos seleccionados y evaluados” diseñados específicamente para cada tarea. Esto sólo puede funcionar si hay suficiente transparencia.

“La mayoría de los conjuntos de datos no están abiertos, por lo que no podemos evaluar si funcionan a partir de lo que hay en los datos de entrenamiento”, afirma Hanna. Los datos de entrenamiento, que a menudo no se publican, son útiles para saber si los modelos de lenguaje son más que la suma de sus partes y en qué medida.

Una sorprendente paradoja en el desarrollo de la IA . Los mismos laboratorios que construyen sistemas de IA defienden la transparencia sobre los riesgos de la IA, pero siguen siendo sorprendentemente opacos sobre sus propios modelos y procesos de toma de decisiones. Stephen Casper, estudiante de doctorado en informática del MIT e investigador del Grupo de Alineación Algorítmica, donde estudia las estructuras y procesos internos de los sistemas de IA, dice que las preocupaciones legítimas de los laboratorios sobre los riesgos y la seguridad de los sistemas de IA pueden desviar la atención de un problema mayor: cómo estas empresas toman decisiones importantes. Las principales empresas de IA ganan, dice, cuando el público está más preocupado por la opacidad del funcionamiento interno de los sistemas de IA que por la transparencia de las operaciones, decisiones y dirección del laboratorio de IA. A pesar de dedicar gran parte de su investigación a comprender los sistemas de IA, Casper dice que la transparencia institucional puede ser más importante y difícil de abordar. La falta de transparencia corporativa en sus publicaciones de investigación, por ejemplo, impide que investigadores externos como él evalúen plenamente las direcciones de investigación elegidas por los laboratorios de IA.

RELACIONADO:Mark Cuban habla sobre la inteligencia artificial, Elon Musk y la influencia de las grandes tecnológicas en la sociedad y las elecciones

“La resistencia a la transparencia a menudo surge de preocupaciones por la competitividad, más que de cuestiones legítimas de privacidad”, dice Hanna. Si bien algunos laboratorios como Anthropic han publicado más que otros, incluso estos esfuerzos más abiertos no alcanzan los estándares académicos, según los investigadores.

Con acceso a los datos y métodos de entrenamiento de los sistemas de IA y a los recursos informáticos necesarios para estudiarlos de forma independiente, los investigadores académicos podrían ayudar a llenar este vacío de conocimiento. Incluso obtener acceso de “caja blanca” (la capacidad de ver y estudiar los parámetros internos de un modelo, que Casper señala que es esencial para una investigación y evaluación significativas) sigue estando fuera de su alcance. A pesar de que Meta lanzó Llama 3, un modelo de código abierto de 405 mil millones de parámetros hace más de seis meses, los investigadores académicos se han quedado estancados. “El modelo es tan grande que es difícil para los científicos estudiarlo”, dice Bau. “Ejecutar el modelo requiere un clúster de computadoras que cuesta más de un millón de dólares y debe distribuirse en 16 o 34 dispositivos GPU”. Compara el desafío con tratar de estudiar la fisiología de un caballo mientras el caballo corre en una pista de carreras en lugar de tumbado en una mesa de operaciones. “Queremos crear una infraestructura que permita el estudio de modelos de este tamaño”.

El proyecto National Deep Inference Computing Fabric (NDIF), un proyecto de infraestructura informática para la investigación que se puso en marcha hace seis meses gracias a una subvención de 9 millones de dólares de la National Science Foundation a la Northeastern University, tiene como objetivo abordar estos desafíos. “Hemos estado creando infraestructura y creando prototipos y empezando a hacer algo de ciencia inicial a esta escala”, afirma Bau, el investigador principal del proyecto. “Este tipo de investigación se ha intentado un poco dentro de empresas privadas, pero esta es la primera vez que intentamos hacerlo con académicos, con infraestructura pública”.

Un futuro más equilibrado. El alto coste de ejecutar y estudiar modelos lingüísticos de gran tamaño ha creado un desequilibrio en la investigación sobre IA. Si bien las grandes empresas tecnológicas poseen los recursos necesarios para una investigación exhaustiva sobre transparencia, es posible que carezcan de incentivos para dedicarse a la comprensión en lugar de a meras mejoras de capacidad.

Estas limitaciones de recursos ponen de relieve una cuestión más profunda sobre qué es lo que impulsa los esfuerzos de transparencia en primer lugar. “Las personas pueden tener una variedad de motivaciones para comprender los aspectos internos. Algunas están motivadas por cuestiones de transparencia o equidad, otras por el desarrollo de capacidades”, dice Bau. “A mí me motiva la transparencia porque somos responsables de los sistemas que creamos”. Este sentido de responsabilidad, ya sea impulsado por la curiosidad científica, la supervisión ética o el desarrollo técnico, subraya por qué el desequilibrio actual entre recursos y transparencia es tan preocupante. Sin un acceso significativo tanto a los recursos computacionales como al conocimiento institucional, la comunidad académica no puede cumplir su papel crucial en la comprensión y evaluación de estos sistemas cada vez más poderosos.

La concentración actual de la investigación en IA en empresas tecnológicas multimillonarias refleja patrones históricos de desarrollo tecnológico en el capitalismo, desde el dominio inicial de Bell Labs en las telecomunicaciones hasta el control de IBM en las primeras etapas de la informática. Sin embargo, los avances más transformadores se produjeron solo cuando las tecnologías se democratizaron más, como se vio en la forma en que la revolución de las computadoras personales y el software de código abierto hicieron avanzar la innovación.

A medida que los sistemas de IA se vuelven más complejos e influyentes, esta disparidad amenaza con socavar no sólo la innovación sino el propio proceso científico. El desafío que tenemos por delante exige abordar las barreras técnicas e institucionales a la transparencia. Crear marcos para una transparencia significativa (que vayan más allá de la divulgación selectiva) será esencial para garantizar que estas tecnologías se desarrollen de maneras que puedan ser entendidas, evaluadas y alineadas adecuadamente con el interés público. Así como la democratización de las herramientas informáticas desencadenó oleadas de innovación, ampliar el acceso a los sistemas de IA y a la infraestructura de investigación podría abrir nuevos caminos tanto en materia de capacidad como de seguridad.

Deja un comentario

Acerca de

Writing on the Wall is a newsletter for freelance writers seeking inspiration, advice, and support on their creative journey.