Una svolta importante! L'intelligenza artificiale colma una grande lacuna nella progettazione delle proteine ​​o risolve il mistero del cancro e della demenza?

Una svolta importante! L'intelligenza artificiale colma una grande lacuna nella progettazione delle proteine ​​o risolve il mistero del cancro e della demenza?

Prefazione

Le malattie neurologiche come l'ictus e la demenza sono tra le principali cause di malattia e disabilità. Secondo l'Organizzazione Mondiale della Sanità (OMS), più di un terzo della popolazione mondiale soffre di tali malattie. Tra queste, le malattie neurodegenerative sono un tipo di patologia cronica e diffusa che rappresenta una grave minaccia per la salute e la qualità della vita umana.

Una comprensione più approfondita della struttura e della funzione delle proteine ​​fornirà importanti spunti per affrontare queste malattie. L'esplorazione del ripiegamento delle proteine ​​è iniziata già negli anni '50. L'avvento di AlphaFold ha cambiato completamente il paradigma con cui gli scienziati studiano il ripiegamento delle proteine.

Oggi, l’intelligenza artificiale per le scienze proteiche ha fatto nuovi progressi:

Di recente, un team di ricerca dell'Università di Copenaghen, dello St. Jude Children's Research Hospital e dell'Illinois Institute of Technology ha introdotto un algoritmo generale per la progettazione di varianti proteiche con proprietà strutturali specifiche, estendendo lo studio delle proteine ​​al campo delle proteine ​​intrinsecamente disordinate (IDP).

Gli IDP sono proteine ​​che non riescono a ripiegarsi in una struttura tridimensionale stabile o ordinata e si ritiene che abbiano un'importante importanza biologica sia nei sistemi sani che nella fisiopatologia di varie malattie. A differenza delle proteine ​​ripiegate, le IDP sono caratterizzate da elevato disordine, mobilità locale ed elevata dinamica, il che le rende particolarmente difficili da usare per gli strumenti di previsione esistenti.

Questo studio non solo ha proposto un nuovo metodo di progettazione in teoria, ma ha anche verificato le varianti IDP progettate attraverso esperimenti e ha utilizzato modelli di apprendimento automatico per prevedere le proprietà collettive degli IDP, fornendo nuovi strumenti per la progettazione computazionale delle proteine. Potrebbe aiutarci a comprendere la patogenesi di varie malattie neurodegenerative (come l'Alzheimer, il Parkinson, la sclerosi laterale amiotrofica) e di vari tipi di cancro, nonché a promuovere la scoperta di nuovi farmaci e lo sviluppo di biomateriali.

Il documento di ricerca correlato intitolato "Progettazione di varianti proteiche intrinsecamente disordinate con diverse proprietà strutturali" è stato pubblicato sull'autorevole rivista Science Advances.

Perché dovremmo preoccuparci degli sfollati interni?

Un pezzo di origami non è altro che polpa di legno pressata finché non viene piegata in un modo specifico; una volta piegato, diventa qualcosa di nuovo. Dopo alcune pieghe e capovolgimenti precisi, diventa un prodotto di carta in grado di predire il tuo futuro: un portafortuna. Lo stesso foglio di carta, cambiando qualche passaggio di piegatura, può trasformarsi in una gru che spiega le ali pronta a volare, simboleggiando l'arrivo della buona sorte.

Allo stesso modo, una lunga serie di molecole di amminoacidi non ha alcuna funzione finché non si ripiega spontaneamente nella sua forma specifica. Le cellule producono proteine ​​unendo insieme piccole molecole di amminoacidi in lunghe catene polipeptidiche. La scelta dell'amminoacido dipende dall'insieme di istruzioni fornite dal DNA. Pochi istanti dopo la loro creazione, le catene polipeptidiche si piegano e si ripiegano con precisione nella forma tridimensionale finale della proteina.

Se le proteine ​​non riescono a completare questo processo di ripiegamento in modo estremamente efficiente, nel corpo umano si verificheranno una serie di disastri. Le proteine ​​ripiegate in modo errato o non ripiegate possono diventare tossiche e causare la morte cellulare. Molte malattie e disturbi, come l'anemia falciforme, sono causati da proteine ​​mal ripiegate. Le proteine ​​mal ripiegate possono anche aggregarsi formando grumi, un segno distintivo di malattie neurodegenerative come l'Alzheimer e il Parkinson.

Pertanto, prevedere la forma 3D delle molecole proteiche è molto importante per la comprensione e il trattamento delle malattie neurodegenerative.

Tuttavia, il campo della biologia strutturale si è storicamente concentrato sullo studio delle proteine ​​e degli acidi nucleici che si ripiegano in strutture 3D stabili e gran parte dell'attuale comprensione del funzionamento delle proteine ​​nelle cellule si basa sul concetto di relazioni "sequenza-struttura-funzione".

Circa il 30% delle proteine ​​negli eucarioti non si ripiegano in strutture 3D stabili. Queste proteine ​​che si deformano dinamicamente sono chiamate IDP oppure, quando si trovano nel contesto di altri domini proteici strutturati, sono chiamate "regioni intrinsecamente disordinate" (IDR). Gli IDP e gli IDR svolgono diversi ruoli importanti nelle funzioni molecolari e cellulari, sfidando il paradigma sequenza-struttura-funzione.

La funzione cellulare disregolata degli IDP è stata implicata in diverse malattie neurodegenerative (morbo di Alzheimer, morbo di Parkinson, sclerosi laterale amiotrofica) e in molti tumori, e la loro capacità di auto-associarsi per formare condensati biomolecolari e generare una varietà di organelli senza membrana nell'ambiente cellulare è sempre più riconosciuta come di grande importanza nella biologia cellulare e nelle malattie.

Per comprendere più a fondo la biologia e le malattie umane, Paul Robustelli, professore associato al Dartmouth College, ha sottolineato in un articolo correlato: "La biologia strutturale deve andare oltre lo studio delle proteine ​​con strutture 3D stabili e sviluppare regole che spieghino come la sequenza degli IDR determina la distribuzione delle forme che assumono in soluzione e come questa distribuzione determina la loro funzione nelle cellule e il loro malfunzionamento nelle malattie".

Estensione della progettazione computazionale delle proteine ​​agli IDP

Le IDP presentano un'eterogeneità strutturale estrema ma generalmente non casuale e non possono formare strutture ripiegate stabili, quindi la previsione della struttura delle IDP è più impegnativa di quella delle proteine ​​ripiegate e la loro progettazione computazionale rimane limitata.

Francesco Pesce e i suoi colleghi hanno affrontato questa sfida. Basandosi su un modello computazionale precedentemente pubblicato denominato CALVADOS, hanno progettato un algoritmo generale per generare IDP con proprietà globali predefinite e lo hanno utilizzato per produrre quattro IDP con caratteristiche diverse. Si sono inoltre concentrati su un tipo di IDP denominato A1-LCD e hanno convalidato sperimentalmente la derivazione del modello delle relazioni sequenza-insieme per diverse varianti di A1-LCD.

Hanno progettato un algoritmo generale per varianti proteiche con proprietà strutturali specifiche. L'algoritmo utilizza la simulazione a grana grossa e il calcolo dell'energia libera, combinati con metodi di campionamento Monte Carlo, per effettuare ricerche nello spazio delle sequenze e generare sequenze proteiche con caratteristiche strutturali target. I ricercatori hanno utilizzato l'algoritmo per progettare diverse varianti proteiche e le hanno verificate sperimentalmente. I risultati hanno dimostrato che l'algoritmo è in grado di progettare efficacemente varianti proteiche con diversa compattezza, interazioni a lungo raggio e tendenze alla separazione di fase.

L'algoritmo analizza lo spazio delle sequenze e mette in relazione ciascuna sequenza con le sue proprietà conformazionali mediante simulazioni efficienti a grana grossa. Sono state eseguite simulazioni di dinamica molecolare (MD) a grana grossa utilizzando il modello CALVADOS e sono stati generati insiemi conformazionali di IDP. L'algoritmo campiona lo spazio delle sequenze utilizzando un metodo Monte Carlo (MCMC) e ne prevede le proprietà conformazionali (tramite simulazioni MD e calcoli di energia libera). Attraverso il processo di ottimizzazione, vengono ricercate disposizioni specifiche di amminoacidi per identificare le caratteristiche strutturali target.

Figura | Panoramica dell'algoritmo del team di ricerca per la progettazione di sequenze IDP con proprietà conformazionali target.

L'algoritmo può progettare sequenze IDP con proprietà strutturali specifiche, come compattezza, contatti a lungo raggio e propensione alla separazione di fase. Inoltre, può esplorare lo spazio delle sequenze e trovare sequenze IDP con nuove caratteristiche conformazionali. Il team di ricerca ha utilizzato anche modelli di apprendimento automatico per accelerare l'algoritmo e renderlo più efficiente.

In futuro, il team di ricerca raccomanda di campionare una gamma più ampia di spazi di sequenza e di valutare la combinazione del campionamento MCMC con altri metodi (come l'apprendimento per rinforzo e l'ottimizzazione bayesiana) per esplorare lo spazio di sequenza in modo più efficace. Inoltre, gli autori sottolineano che la combinazione di apprendimento automatico e simulazione sarà particolarmente importante quando si progettano sequenze con osservabili strutturali più complesse, dove le simulazioni potrebbero essere più costose e i calcoli chimici meno efficienti. Inoltre, l'algoritmo può essere applicato per progettare sequenze con altre caratteristiche strutturali e dimostra la possibilità di progettare sequenze con mappe di contatto mirate.

L'intelligenza artificiale per le proteine ​​continua a migliorare

Gli scienziati studiano le proteine ​​fin dagli anni '60, basandosi principalmente su tecniche tradizionali come i raggi X e la risonanza magnetica nucleare (NMR) per determinarne la struttura. Con l'approfondimento della comprensione dei meccanismi biochimici delle proteine ​​e il rapido progresso della tecnologia informatica, i ricercatori hanno iniziato a ricorrere a metodi computazionali per prevedere le strutture proteiche.

Nel 2016, il team di Xu Jinbo è stato il pioniere nell'applicazione delle reti residue profonde (ResNet) nella previsione della struttura, migliorando significativamente l'accuratezza delle previsioni di contatto dei residui proteici. Sulla base di questo risultato, è emersa una serie di studi che combinano algoritmi di coevoluzione e apprendimento profondo, come AlphaFold (incentrato sulla previsione della distanza dei residui) e trRosetta sviluppato dal team di Yang Jianyi e David Baker (incentrato sull'introduzione di informazioni sull'angolo diedro, ecc.), entrambi basati sull'architettura ResNet.

Nel 2020, AlphaFold2 ha fatto scalpore nella competizione CASP14, ottenendo un'accuratezza di previsione del 98,5%. Nel 2021, il team di David Baker ha pubblicato sulla rivista Science lo strumento open source per la previsione delle proteine ​​RoseTTAFold. Questo strumento utilizza la tecnologia di elaborazione del linguaggio naturale (NLP) per estrarre informazioni sulla coevoluzione direttamente da allineamenti di sequenze multiple (MSA). La sua accuratezza predittiva è paragonabile ad AlphaFold2 in CASP14. Da allora, i modelli pre-addestrati basati su sequenze proteiche, noti anche come modelli di linguaggio proteico (PLM), sono stati ampiamente utilizzati nella previsione della struttura proteica.

Alla fine del 2022, Meta ha lanciato ESM-2 ed ESMFold, che sono diventati uno dei modelli di linguaggio proteico più grandi e complessi mai rilasciati fino a quel momento. Nel 2024, il team di David Baker ha lanciato RoseTTAFold All-Atom (RFAA), un nuovo metodo di previsione della struttura in grado di descrivere con precisione le coordinate 3D di tutti gli atomi nelle unità biologiche, tra cui proteine, acidi nucleici, piccole molecole, metalli e modifiche chimiche.

Oltre ai progressi significativi nel campo della previsione della struttura proteica, l'intelligenza artificiale (IA) continua a fare progressi anche in molti altri ambiti della ricerca sulle proteine, come la previsione dell'interazione tra proteine ​​e altre molecole biologiche, la progettazione delle proteine, la proteomica, ecc. Guardando al futuro, l'IA continuerà ad espandere la sua influenza e a colmare molte lacune nella ricerca sulle proteine.

<<:  La Chevrolet Bolt entra ufficialmente in produzione di massa, il modello 3 può restare da parte

>>:  Di cosa si tratta esattamente "l'adenocarcinoma polmonare" di cui soffre il famoso mago? Opuscolo sulla prevenzione qui →

Consiglia articoli

La tecnologia dei condizionatori Panasonic tornerà di moda?

"Avvio in pochi secondi, raffreddamento e ri...

Un pacco da sei in movimento! Scultura grassa a bolle soniche

Vi ricordate dell'artista coreano Rain che ha...

C'è una scienza nel mangiare fagioli

Molte persone pensano che mangiare fagioli signif...