La convergencia de la Inteligencia Artificial (IA), con modelos avanzados de Machine Learning, y grandes bases de datos de secuencias proteicas e información biológica ha permitido diseñar proteínas que nunca han existido en la naturaleza.
De manera similar a los modelos generativos como DALL-E 2, que pueden generar imágenes a partir de grandes volúmenes de datos, un algoritmo en la ciencia puede basarse en un enorme repositorio de información biológica para crear proteínas que sigan patrones y principios observados en la naturaleza.
Estas nuevas proteínas tienen funciones inéditas y representan una revolución para la biotecnología, debido a las posibles aplicaciones médicas y ambientales que habilitan.
David Baker, coganador del Premio Nobel de Química 2024, está desarrollando proteínas capaces de combatir enfermedades como el cáncer o el Alzheimer. Otros científicos, por ejemplo, trabajan en su aplicación en el diseño de vacunas y para la conservación de alimentos.
Sin embargo, dado su enorme potencial, el uso de la IA para el desarrollo de nuevas proteínas también implica importantes riesgos para la humanidad si se utiliza en la ingeniería de toxinas, patógenos sintéticos o moléculas con capacidad destructiva, lo cual representa un riesgo para la seguridad biológica global.
La misma IA que puede diseñar una vacuna también puede crear una proteína que interfiera con funciones celulares críticas o sea altamente tóxica. Esta dualidad exige que se establezcan marcos regulatorios y éticos para controlar el acceso, uso y difusión de estas herramientas.
¿Por qué son tan importantes las proteínas?
Dos científicos de Google DeepMind, Demis Hassabis y John Jumper, desarrollaron un modelo de Inteligencia Artificial para predecir las estructuras complejas de las proteínas, que son esenciales para la vida, la alimentación, el desarrollo de fármacos o la producción de biocombustibles.
El modelo AlphaFold2 permitió a los científicos descifrar la estructura de 200 millones de proteínas, resolviendo un problema de 50 años, dado que durante las últimas décadas se intentó descodificar su estructura para comprender su funcionamiento.
La forma o plegamiento de una proteína define su función biológica y su estabilidad en el organismo. Se ha identificado que ciertas enfermedades están relacionadas con el plegamiento incorrecto de una proteína, por lo que entender su estructura sirve para corregir esos errores.
Y en paralelo, David Baker, director del Instituto de Diseño de Proteínas de la Universidad de Washington, logró construir proteínas completamente nuevas, que pueden usarse como fármacos, vacunas, nanomateriales y sensores diminutos.
Baker avanzó en dirección contraria: en lugar de descifrar la estructura, optó por predecirla basándose en la secuencia de aminoácidos que conforman una proteína, con el apoyo de Rosetta, un software informático diseñado por su laboratorio.
Ambos avances en el campo de la biotecnología son un parteaguas para generar proteínas con características específicas y corregir problemas, como, por ejemplo, el tratamiento de ciertas enfermedades.
Inversiones detrás del diseño de proteínas
Numerosas empresas y startups, como Google DeepMind, están investigando el uso de la IA para acelerar el diseño de nuevas proteínas no vistas en la naturaleza, con la mirada puesta en capitalizar las oportunidades de negocio que esto representa.
En febrero de este año, Latent Labs ―fundada por Simon Kohl, exinvestigador de DeepMind― salió al público con una financiación de 50 millones de dólares para acelerar la construcción de modelos de IA para generar y optimizar proteínas.
Además, EvolutionaryScale ―una startup formada por excientíficos de Meta― surgió en junio de 2024 con una ronda de capital semilla de 142 millones de dólares, provenientes de inversores como NVentures, la rama de inversión de Nvidia, y Amazon, de acuerdo con Crunchbase.
Cradle es otra startup ―fundada por Stef van Grieken, exingeniero de Google― que se enfoca en la ingeniería de proteínas, y recaudó 73 millones de dólares para ampliar sus laboratorios y equipo a finales de 2024.
Y en China, MoleculeMind es una empresa de biotecnología integrada con IA que busca acelerar el desarrollo de fármacos y promover áreas como la producción industrial y agrícola, el diseño de materiales y la mejora ambiental. Aunque se desconoce el monto, a la fecha ya ha logrado tres rondas de financiación.
Existen muchas otras empresas, algunas todavía anónimas, que están invirtiendo fuertemente en el diseño de proteínas con IA, y detrás de ellas figuran inversores ángeles de empresas tecnológicas, farmacéuticas y grandes fondos de capital de riesgo.
Algunos gobiernos también están destinando fondos para impulsar el diseño de proteínas. Recién el 7 de agosto, la Dirección de Tecnología, Innovación y Alianzas de la Fundación Nacional de Ciencias de EE. UU. liberó 32 millones de dólares para posibilitar nuevas aplicaciones relevantes para la bioeconomía.
Mientras tanto, China lanzó un Plan de Desarrollo de Inteligencia Artificial de Próxima Generación en 2017, que contempla inversiones para el uso de la IA en aplicaciones biotecnológicas y farmacéuticas.
Riesgos para la seguridad biológica global
La Inteligencia Artificial ha acelerado significativamente el diseño de proteínas. Antes, los métodos empleados en este ámbito requerían miles de experimentos de prueba y error, con un enorme gasto de capital, recursos, tiempo e investigación.
Hoy en día, se emplea la IA para diseñar proteínas funcionales hechas a medida con amplia precisión y rapidez.
El progreso que ha tenido el diseño de proteínas con ayuda de la Inteligencia Artificial plantea un futuro prometedor para la biotecnología, con un abanico de posibilidades de aplicación.
Sin embargo, también ha intensificado las preocupaciones de la comunidad científica y especialistas acerca de un potencial uso indebido o malicioso.
Lo que antes requería años de laboratorio, financiamiento millonario y equipos altamente especializados, ahora puede estar al alcance de actores con formación intermedia, recursos limitados y —en el peor de los casos— actores con intenciones de destrucción.
Los modelos de Inteligencia Artificial entrenados con datos biológicos pueden usarse indebidamente para el desarrollo de amenazas químicas, biológicas, nucleares o radiológicas; por ejemplo, podrían generar nuevas enfermedades o incluso desencadenar otra pandemia como la de Covid-19.
Para mitigar riesgos biológicos, es necesario establecer métodos específicos de evaluación de la seguridad de la IA, orientados a impedir que, con ajustes en el entrenamiento, un modelo produzca secuencias proteicas con potencial dañino en sólo unas horas.
David Baker y el genetista George Church proponen que todos los datos de secuencias y síntesis de genes sintéticos se recopilen y almacenen en repositorios, y se consulten únicamente en situaciones de emergencia.
De esta manera, sostienen que se puede asegurar que el diseño de proteínas se realice de forma segura y fiable.
En la práctica, este registro funcionaría como una barrera para la creación de biomoléculas dañinas a partir del diseño de proteínas, ya sea de manera accidental o intencional.
Más allá de la creación de repositorios, también se requieren políticas y marcos para abordar el dilema de bioseguridad que plantea el diseño de proteínas.
Actualmente, de acuerdo con la investigación de un grupo de científicos estadounidenses, no existe un enfoque común en la industria de la Inteligencia Artificial para evaluar los riesgos de los modelos biológicos de IA, y sólo algunos gobiernos lo tienen en sus agendas.
Por el momento, las preocupaciones de usos dañinos están siendo abordadas principalmente por los científicos y especialistas en salud pública a través de la investigación biológica de doble uso y patógenos con potencial pandémico.
A medida que crece el interés económico y comercial por el diseño de proteínas con IA, como lo muestran las numerosas empresas (públicas y anónimas) que invierten en este campo, es crucial preservar el potencial de estas tecnologías sin abrir la puerta a escenarios de alto riesgo como la creación de armas biológicas.