Gaceta Crítica

Un espacio para la información y el debate crítico con el capitalismo en España y el Mundo. Contra la guerra y la opresión social y neocolonial. Por la Democracia y el Socialismo.

Una advertencia para la ciencia abierta: AlphaFold3

Publicado originalmente: Monthly Review 4 de Junio de 2024

4 de junio de 2024 por S. Krishnaswamy

Un NUEVO modelo de IA (Inteligencia Artificial), AlphaFold3, ha entusiasmado a la comunidad científica. Desarrollado por la filial anglo-estadounidense DeepMind de Google con Isomorphic Labs (una filial de la empresa matriz del grupo Google, Alphabet), AlphaFold3 fue noticia en la revista Nature el 9 de mayo de 2024 por su capacidad para predecir la interacción de estructuras de proteínas con otras moléculas como el ADN y ARN. Esto encierra una inmensa promesa para el descubrimiento de fármacos y tratamientos médicos.

Sin embargo, una nube se cierne sobre este entusiasmo: el acceso limitado a la tecnología. DeepMind no ha publicado el código completo ni el funcionamiento interno del modelo, optando en cambio por un enfoque de código cerrado. Han proporcionado una descripción del algoritmo simplificada y un servidor web para uso limitado. Esta decisión ha reavivado el debate sobre la ciencia abierta en una era dominada por la financiación privada y la IA.

La ciencia abierta defiende la idea de compartir libremente datos, métodos y códigos de investigación. Esta apertura permite que otros verifiquen los hallazgos, fomenta la colaboración entre investigadores y, en última instancia, acelera el progreso científico. Tradicionalmente, la investigación era impulsada por financiación pública, lo que hacía de la ciencia abierta una piedra angular de la integridad académica. Sin embargo, el surgimiento de empresas privadas con financiación masiva como DeepMind y las investigaciones realizadas por ellas con un fuerte enfoque comercial han generado preocupación. Su inversión en AlphaFold3 y otros casos similares ilustra esta tensión.

CIENCIA ABIERTA Y ESTRUCTURAS PROTEICAS

Las proteínas son los incansables caballos de batalla de nuestras células, realizan funciones esenciales y construyen la infraestructura misma de la vida. Para funcionar correctamente, deben plegarse formando una estructura tridimensional particular. Este plegamiento está limitado por las propiedades físicas de los átomos y la forma en que los aminoácidos se unen en una cadena proteica. Tradicionalmente, la determinación de esta estructura se ha basado en técnicas experimentales como la cristalografía de rayos X, la espectroscopia de resonancia magnética nuclear (RMN) y, más recientemente, la microscopía crioelectrónica. Estos métodos pueden llevar mucho tiempo (de días a años) y ser costosos, especialmente para proteínas complejas que interactúan con otras moléculas como ADN, ARN u otras proteínas. Desde que se resolvió la primera estructura proteica en 1957, sólo se han determinado experimentalmente unas 200.000 estructuras. Es significativo que todas estas estructuras y los datos experimentales subyacentes estén disponibles gratuitamente en bases de datos públicas. Las revistas de investigación suelen exigir que estos datos sean accesibles como parte del proceso de publicación.

Revelar las estructuras de las proteínas y sus interacciones con otras moléculas es crucial para desarrollar rápidamente nuevos medicamentos y terapias, incluidos los tratamientos basados ​​en anticuerpos. Esto ha despertado un inmenso interés por parte de la industria farmacéutica.

Desde la década de 1950, los investigadores se han esforzado por predecir las estructuras de las proteínas únicamente a partir de su secuencia de aminoácidos, con un éxito limitado hasta hace poco. En 2018, DeepMind de Google presentó AlphaFold y lo mejoró significativamente en 2020 con AlphaFold2. Estos avances surgieron de la colaboración con el Instituto Europeo de Bioinformática, financiado con fondos públicos.

Ambas versiones de AI AlphaFold se entrenaron en una base de datos pública masiva que contiene más de 170.000 secuencias de proteínas y sus estructuras correspondientes. El programa utiliza un tipo de aprendizaje profundo llamado red de atención, algo así como un complejo rompecabezas. La red de atención permite a la IA centrarse en piezas específicas, ensamblándolas progresivamente para formar la estructura proteica completa.

SÓLO INVESTIGACIÓN FINANCIADA PRIVADA

AlphaFold3 marca una diferencia significativa con respecto a sus predecesores. Incorpora una técnica llamada Diffusion Networks, similar a las utilizadas en programas de generación de imágenes como DALL-E. En particular, este desarrollo fue una empresa totalmente privada de DeepMind de Google, en colaboración con su empresa hermana Isomorphic Labs.

DeepMind, por supuesto, justifica su modelo de acceso limitado argumentando un buen retorno de la inversión. Ofrecen un servidor web fácil de usar como una forma de democratizar el acceso a las funcionalidades de AlphaFold3, incluso si la tecnología subyacente permanece sin revelar.

Sin embargo, como señalan muchos investigadores, existen importantes inconvenientes. El servidor web restringe el uso para investigaciones no comerciales, lo que limita la capacidad de innovar de investigadores independientes y empresas emergentes. Además, no puede manejar estructuras proteicas complejas ni aquellas unidas a fármacos potenciales, aspectos cruciales del descubrimiento de fármacos. Lo más importante es que la falta de acceso al código obstaculiza el progreso científico. Los investigadores no pueden comprender, mejorar o adaptar completamente AlphaFold3 para necesidades específicas, lo que ralentiza los posibles avances.

OPOSICIÓN DE LOS INVESTIGADORES

La publicación de AlphaFold3 en Nature provocó una importante respuesta de la comunidad científica. Un miembro del equipo de revisión y un grupo de biólogos fueron coautores de una carta abierta a Nature en la que planteaban preocupaciones sobre varias desviaciones de las prácticas estándar y posibles violaciones de políticas. La carta obtuvo más de 600 respaldos. Los medios de comunicación se hicieron eco de estas preocupaciones, elogiando el potencial de la tecnología y criticando la falta de apertura.

En respuesta, Max Jaderberg (jefe de IA de Isomorphic Labs) y Pushmeet Kohli (vicepresidente de investigación de DeepMind) anunciaron en X (anteriormente Twitter) un lanzamiento planificado del código dentro de seis meses para uso académico. Nature , en un editorial del 22 de mayo, reconoció el debate y solicitó comentarios de los lectores sobre la promoción de prácticas científicas abiertas. La revista enfatizó sus políticas científicas abiertas existentes, pero admitió los desafíos que plantean la financiación del sector privado y los posibles resultados de investigación patentados.

En un avance significativo, investigadores de la Universidad de Columbia y la Facultad de Medicina de Harvard presentaron OpenFold a mediados de mayo. Esta herramienta de código abierto ofrece una alternativa a AlphaFold 2, brindando a los investigadores más transparencia sobre los procesos subyacentes. OpenFold permite a los laboratorios entrenar sus propias versiones personalizadas, incorporando potencialmente datos patentados y abordando problemas de investigación específicos. Este enfoque podría replicar una funcionalidad similar a AlphaFold 2 sin depender de los servidores de Google.

La comunidad científica busca activamente alternativas de código abierto a AlphaFold3. Mientras algunos están desarrollando nuevas herramientas, otros intentan extraer más información del servidor web existente. Sin embargo, el desafío no radica en replicar el código (estimado en un mes), sino en los inmensos recursos computacionales necesarios para entrenar el modelo de IA, una importante barrera de tiempo y costo.

CIENCIA ABIERTA VS PROPIEDAD INTELECTUAL

El caso AlphaFold3 ejemplifica un conflicto de larga data: ciencia abierta versus derechos de propiedad intelectual (PI). Las empresas tienen un interés válido en proteger sus inversiones, pero las restricciones excesivas a la propiedad intelectual pueden obstaculizar el progreso científico y limitar los beneficios sociales de la innovación.

Existen posibles soluciones. Los modelos de licencia alternativos, como los utilizados en el software de código abierto, podrían otorgar acceso público al código y al mismo tiempo salvaguardar aspectos comercialmente sensibles. Restringir el uso comercial o otorgar sublicencias podrían ser otras opciones. Además, los acuerdos de intercambio de datos podrían permitir a investigadores independientes analizar conjuntos de datos específicos utilizados para entrenar AlphaFold3, sin revelar algoritmos centrales.

Las asociaciones público-privadas pueden aprovechar recursos de ambos sectores y al mismo tiempo promover el acceso abierto. Los gobiernos pueden incentivar la ciencia abierta dirigiendo la financiación hacia proyectos con planes de intercambio de datos. Las revistas pueden exigir a los autores que revelen políticas de acceso a datos y fomentar repositorios de código fuente abierto.

El proyecto del genoma humano es un ejemplo exitoso. Este esfuerzo internacional cartografió genes humanos, utilizando un modelo híbrido con financiación pública y privada, garantizando al mismo tiempo el acceso abierto a los datos secuenciados. Este enfoque aceleró los avances en la investigación en genómica y medicina personalizada.

Las limitaciones de AlphaFold3 con respecto al acceso plantean preocupaciones éticas. Una herramienta con tal potencial para revolucionar la atención sanitaria debería estar más disponible para la comunidad científica. El acceso restringido corre el riesgo de crear un escenario en el que solo las instituciones y empresas bien financiadas puedan aprovechar AlphaFold3 para el descubrimiento de fármacos. Esto podría retrasar significativamente el desarrollo de tratamientos que salven vidas, particularmente para enfermedades que afectan a los países en desarrollo. Imagine una situación en la que una estructura proteica crítica para una enfermedad rara en un país en desarrollo sea demasiado compleja para el servidor web. Sin acceso al código subyacente, los investigadores no podrían contribuir a encontrar una cura, lo que crearía una importante barrera ética.

NECESIDAD DE CIENCIA ABIERTA EN EL DESARROLLO DE LA IA

La historia de AlphaFold3 arroja luz sobre los desafíos que plantea la IA en la investigación científica. Los modelos de IA suelen ser “cajas negras”, lo que significa que su funcionamiento interno es complejo y difícil de entender. Esta opacidad puede dificultar la verificación de sus resultados y la replicación de sus éxitos. El acceso abierto al código y a los datos de entrenamiento utilizados en modelos de IA como AlphaFold3 permitiría a los investigadores comprender los sesgos del modelo, mejorar su precisión y adaptarlo para aplicaciones específicas.

El caso AlphaFold3 sirve como advertencia. Si bien la financiación privada puede acelerar el progreso científico, no debe realizarse a expensas de la ciencia abierta. Encontrar un equilibrio entre la protección de la propiedad intelectual y el fomento de la transparencia es crucial para maximizar los beneficios sociales de los avances científicos. Adoptar los principios de la ciencia abierta garantiza que avances como AlphaFold3 hagan que los inventos científicos sean realmente accesibles para todos.

GACETA CRÍTICA, 5 DE JUNIO DE 2024

Deja un comentario

Acerca de

Writing on the Wall is a newsletter for freelance writers seeking inspiration, advice, and support on their creative journey.