AlphaFold, perché ci interessa così tanto prevedere la struttura delle proteine

Da oggi è possibile, con uno sguardo, coprire l’intero universo tridimensionale di tutte (o quasi) le proteine esistenti. A un anno dalla sua pubblicazione iniziale, infatti, il database di AlphaFold, il sistema di intelligenza artificiale sviluppato da DeepMind di Google e dall’European molecular biology laboratory (Embl), in grado di prevedere la struttura delle proteine, è stato espanso più di 200 volte: sono state rilasciate le strutture 3D di oltre 200 milioni di proteine, rendendole apertamente disponibili alla comunità scientifica. Nel database sono presenti quasi tutte le proteine note alla scienza finora. Da quando è stato avviato, AlphaFold ha contribuito ad accelerare la ricerca in numerose aree delle scienze della vita, dallo sviluppo dei vaccini per la malaria allo studio di metodi per eliminare l’inquinamento della plastica.

L’importanza della struttura delle proteine

Nelle proteine, tra gli elementi costitutivi della vita, la struttura tridimensionale è strettamente legata alla funzione da esse esercitata: sebbene, infatti, le singole unità di cui sono composte – gli amminoacidi – siano solo 20, disposti in sequenze precise, in natura esistono milioni di proteine diverse, ognuna delle quali ha caratteristiche e funzioni differenti. Questo è possibile perché gli amminoacidi si arrangiano nello spazio in maniera diversa, a seconda delle loro caratteristiche chimiche: pertanto, a ogni sequenza di amminoacidi di cui è costituita una proteina, corrisponderà una struttura diversa. Comprendere la configurazione tridimensionale di una proteina è fondamentale nella ricerca, perché essa fornisce informazioni sulla sua funzione e su come modificarla, bloccarla o regolarla. Nel corso degli anni, lo studio della struttura 3D delle proteine ha infatti dimostrato la sua utilità in molte aree delle scienze della vita, come per esempio nella scoperta di nuovi farmaci.

Eppure, mentre la sequenza di amminoacidi è piuttosto semplice da individuare (l’elenco della stragrande maggioranza delle proteine finora note è collezionata in uno specifico database), non è così scontato ricavarne da essa la struttura tridimensionale: generalmente, infatti, si ricorre a tecniche sperimentali che però presentano diversi ostacoli in termini di complessità e tempi di realizzazione. Ottenere una predizione della struttura con un approccio computazionale finora era possibile con tecnologie bioinformatiche, ma solo per parti limitate dell’intera struttura proteica: quello che si cercava, invece, era trovare il modo di ottenere, a partire da una sequenza amminoacidica, una previsione, affidabile e in alta risoluzione, della struttura di una proteina nella sua interezza.

“Cercare su Google” le strutture

È in questo contesto che si è inserita l’intelligenza artificiale AlphaFold, grazie a una collaborazione tra DeepMind, che ne ha sviluppato l’algoritmo, e l’Embl: basandosi su tecniche di machine learning, di bioinformatica e di biologia strutturale, il team ha costruito un database che funziona, a detta di chi l’ha progettato, come una “ricerca su Google“: si inserisce il nome, il gene, la sequenza amminoacidica o l’organismo della proteina di interesse e lo strumento offre un accesso istantaneo a previsioni di strutture tridimensionali di quella sequenza con precisione atomica, riducendo il tempo necessario agli scienziati per conoscere le probabili conformazioni della proteina che stanno studiando e di fatto accelerando il loro lavoro sperimentale. DeepMind ed Embl hanno lanciato il database di AlphaFold nel luglio 2021, che conteneva al suo interno oltre 350.000 previsioni sulla struttura delle proteine, comprese quelle che formavano l’intero proteoma umano. Successivi aggiornamenti hanno visto l’aggiunta di 27 nuovi proteomi, per arrivare a circa un milione di strutture proteiche in database, a cui hanno avuto accesso più di 500.000 ricercatori provenienti da oltre 190 paesi nel mondo.

“Siamo rimasti sorpresi dalla velocità con cui AlphaFold è già diventato uno strumento essenziale per centinaia di migliaia di scienziati nei laboratori e nelle università di tutto il mondo”, ha affermato Demis Hassabis, fondatore e Ceo di DeepMind. “AlphaFold ora offre una vista tridimensionale dell’universo delle proteine”, ha aggiunto Edith Heard, direttrice generale di Embl.

Non era abbastanza: dopo un anno di lavoro il database è stato aggiornato e adesso conta 200 milioni di sequenze, che coprono quasi ogni organismo sulla Terra a cui è stato sequenziato il genoma (piante, batteri, animali e altri organismi), aprendo nuove strade alla ricerca nell’ambito delle scienze della vita. DeepMind ed Embl, infatti, sperano che il nuovo database ampliato accelererà il lavoro di ricercatori e scienziati nell’affrontare le sfide globali a cui sono chiamati, dalla lotta alle malattie neglette alla salvaguardia dell’ambiente.

“Questo lavoro computazionale rappresenta uno straordinario progresso sul problema della struttura delle proteine, una sfida in biologia che dura da cinquant’anni”, ha affermato in un commento Venki Ramakrishnan, premio Nobel per la chimica nel 2009 per la scoperta della struttura e funzione dei ribosomi. “Sarà emozionante vedere i molti modi in cui cambierà radicalmente ricerca biologica”.


Perché l’AI di Google vuole scoprire nuove proteine


AlphaFold in azione

In effetti, dal suo lancio, AlphaFold ha già dato prova di sé nel lavoro di numerosi gruppi di ricerca: per esempio, un team di scienziati dell’università di Oxford, nel Regno Unito, ha studiato una proteina che rappresenterebbe uno dei candidati più promettenti per lo sviluppo un vaccino contro la malaria, analizzando la struttura per capire dove si potrebbero legare gli anticorpi più efficaci per bloccare la trasmissione del parassita. Tra gli altri ambiti in cui è stata usata questa tecnologia vi è anche la ricerca di base in biologia, ma non solo: hanno utilizzato AlphaFold anche alcuni studi sull’inquinamento da plastica, sulla malattia di Parkinson, sulla salute delle api da miele, sulla formazione del ghiaccio, sulle malattie neglette (come la malattia di Chagas e la Leishmaniosi) e sull’evoluzione umana, toccando ogni aspetto delle scienze della vita.

“Solo nell’ultimo anno, sono stati pubblicati oltre mille articoli scientifici su un’ampia gamma di argomenti di ricerca che utilizzano le strutture di AlphaFold”, ha dichiarato Sameer Velankar, team leader della Embl-Ebi Protein data bank europea. “E questo è solo l’impatto di un milione di previsioni: immaginate l’impatto di avere oltre 200 milioni di predizioni di strutture proteiche apertamente accessibili nel database”.

Via: Wired.it

Credits immagine: National Cancer Institute on Unsplash

L’articolo AlphaFold, perché ci interessa così tanto prevedere la struttura delle proteine sembra essere il primo su Galileo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.