Imagen de la web del modelo ESM Fold de Meta. Meta

Ciencia | Inteligencia Artificial

Predecir la estructura de las proteínas ahora es un poco más 'fácil'

El modelo de lenguaje mejorado de Meta, llamado ESMFold, puede hacer predicciones 60 veces más rápido que otros algoritmos

Madrid

Jueves, 16 de marzo 2023, 21:12

Comenta

La predicción de la estructura de las proteínas es una tarea extremadamente compleja, pero muy importante a nivel científico. Este conocimiento permite, entre otras cosas, entender la función y el papel de estas moléculas en los procesos biológicos; estudiar la evolución de los organismos o desarrollar fármacos más efectivos. Este jueves, la empresa Meta (antiguo Facebook), ha publicado un estudio en la revista 'Science' sobre un nuevo software, llamado EMSFold, capaz de predecir la estructura de las proteínas 60 veces más rápido que otros algoritmos parecidos, como AlphaFold, desarrollado por la empresa DeepMind de Google y el Instituto Europeo de Bioinformática, pero manteniendo la misma resolución y precisión.

Se estima que el cuerpo humano contiene alrededor de 20.000 proteínas diferentes. Las proteínas están compuestas por largas cadenas de aminoácidos (moléculas orgánicas) que interactúan entre sí para formar una estructura tridimensional específica. Hay muchas posibles estructuras tridimensionales que una proteína puede adoptar dependiendo de la interacción entre los aminoácidos, e incluso pequeñas variaciones en la secuencia de estas moléculas pueden generar grandes diferencias en la estructura final de la proteína. Además, el ambiente celular influye en este proceso. Todo esto hace que sea muy difícil predecir con precisión cuál será la forma final de una proteína.

El nuevo modelo —esta es la tercera versión que presenta Meta—, incluye predicciones de unos 617 millones de estructuras de proteínas. De ellas, más de 225 millones son predicciones con un alto grado de fiabilidad. «La calidad de los resultados es suficientemente convincente. La primera diferencia con las propuestas anteriores, basadas en redes neuronales profundas (AlphaFold y RoseTTAFold), es que los nuevos modelos son mucho más fáciles de calcular y mucho más rápidos (entre uno y dos órdenes de magnitud)», ha expresado Alfonso Valencia, profesor del Institución Catalana de Investigación y Estudios Avanzados (ICREA) y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC), en declaraciones recogidas por el Science Media Center (SMC).

Competencia entre compañías

Entre las predicciones de EMSFold se incluyen estructuras (más de un 10%) de algunas de las proteínas menos comprendidas de la Tierra. «Esto hace que la nueva metodología sea directamente aplicable a la predicción de las consecuencias de mutaciones puntuales, algo que estaba fuera del alcance de métodos anteriores y tiene un impacto directo en las aplicaciones en biomedicina», afirma Valencia. Asimismo, los autores han utilizado EMSFold para predecir la estructura de proteínas no naturales, aquellas modificadas en el laboratorio para tener propiedades que no se encuentran en las proteínas producidas de forma natural en los organismos vivos, lo que tiene aplicaciones muy interesantes para la biotecnología y la biomedicina.

Para determinar estas estructuras, EMSFold se ha basado en modelos de lenguaje, es decir, métodos estadísticos que se utilizan para analizar grandes conjuntos de datos de lenguaje natural y predecir la probabilidad de una secuencia de palabras. «El principio es el mismo del ya popular ChatGPT, en este caso, aplicado a cadenas de aminoácidos (un código de 20 letras) que forman las proteínas, en vez de los caracteres de un lenguaje humano», explica Valencia.

El profesor añade: «Es muy sorprendente que grandes compañías tecnológicas inviertan todos estos esfuerzos en un tema que se consideraba minoritario y teórico. Es fácil pensar que se trata de una competición entre Meta y Google/DeepMind. En este sentido, es interesante que ambas empresas hayan desarrollado un software y que los resultados estén disponibles abiertamente, algo no tan habitual en estas empresas». Otra razón posible es que la predicción de la estructura de las proteínas sea la referencia más útil para perfeccionar las predicciones de los modelos de lenguaje basados en texto.