Site icon Raportul de gardă

UPDATE. Proiectul Alpha Fold: a fost lansată baza de date ce conține toate structurile proteice identificate cu ajutorul inteligenței artificiale

Instrumentul AlphaFold utilizează inteligența artificială pentru a prezice structura tridimensională a unei proteine, într-o manieră înalt eficientă, după cum a demonstrat în cadrul concursului Critical Assessment of Protein Structure Prediction (CASP), ediția 2020. În iulie 2021 au fost publicată baza de date care conține toate structurile proteice prezise de AlphaFold până acum. În acest moment, baza de date conține peste 350.000 de structuri proteice, care provin atât de la om, cât și de la alte organisme (plante și animale). Instrumentul AI a prezis structura a 98,5% din totalul proteinelor din organismul uman, iar dintre acestea, 58% sunt prezise cu un grad ridicat de acuratețe. Acest proiect își propune să extindă baza de date pentru a cuprinde toate structurile proteice cunoscute (peste 100 de milioane).

Proiectul AlphaFold are potențialul de a accelera integrarea biotehnologiei în cercetarea medicală. După cum a afirmat Dr. Eric Topol, cardiolog și directorul Institutului de cercetare translațională Scripps, pe contul personal de Twitter:

Suntem martori la unul dintre cele mai importante progrese din istoria științelor naturale, care combină mecanismele de inteligență artificială de tip deep learning, proteomul uman și accesul liber la știință (open science). În termeni simpli, acest proiect are același impact asupra proteomicii pe care îl are platforma Google asupra căutării de informații.

Specialiștii implicați în proiect s-au concentrat pe descifrarea unor proteine cu impact major în sănătatea umană – enzime sau proteine expuse la suprafața celulelor. Exemplele subliniate în articolul publicat în Nature sunt:

Un exemplu de structură proteică descifrată cu ajutorul AlphaFold: una dintre izoformele proteinei ACE2 (altă izoformă decât cea care reprezintă receptor pentru SARS-CoV-2). Culorile simbolizează gradul de acuratețe al predicției: zonele albastru deschis și închis sunt secvențe proteice cu un grad ridicat și foarte ridicat de acuratețe.

În continuare, eforturile se concentrează pe îmbunătățirea predicției în cazul structurilor proteice identificate (în special cele cu un grad scăzut de acuratețe). Cercetarea proteomului are potențialul de a conduce la noi biomarkeri, mecanisme patologice sau chiar molecule terapeutice.


Un instrument bazat pe inteligență artificială (AI) poate prezice structura tridimensională a unei proteine, pornind de la secvența genetică corespunzătoare. Capacitatea acestuia este similară metodelor considerate standard de aur în acest domeniu, al biologiei moleculare structurale, cristalografia cu raze X și microscopia electronică. Acest instrument, denumit AlphaFold, este dezvoltat de compania DeepMind, care, în colaborare cu Google, are drept scop cercetarea aplicațiilor AI în știință și societate.  

Rezultatele precise au fost obținute în cadrul concursului Critical Assessment of Structure Prediction – în cadrul căruia AlphaFold a avut rezultate superioare altor peste 100 de instrumente de predicție a structurii tridimensionale proteice.

Instrumentul AlphaFold se bazează pe o rețea neurală artificială, care identifică rapid în baze de date de proteine anumite fragmente similare proteinei-țintă. Ulterior, rețeaua neurală calculează probabilitatea ca anumite grupări prezente la nivelul aminoacizilor să interacționeze, în funcție de distanța dintre ele. Pe baza distribuției distanțelor probabile dintre fragmentele proteice și a unghiurilor formate de aceste legături, structura finală a proteinei este prezisă cu un grad ridicat de acuratețe.

Instrumente de predicție, precum AlphaFold, ar putea contribui la numeroase inovații în biologie și sănătatea umană: de la dezvoltarea de noi terapii țintite, până la înțelegerea bolilor genetice, care acționează prin existența unor proteine cu structura finală disfuncțională.

De la structură la funcție

În lumea vie, proteinele reprezintă elemente de bază, atât structural (proteine precum colagenul), cât și funcțional (de exemplu enzimele). În esență, proteinele sunt o succesiune liniară de aminoacizi, a căror secvență este dictată de succesiunea de nucleotide corespunzătoare din ADN-ul care codifică respectiva proteină. Cu toate acestea, proteinele nu acționează sub forma lor bidimensională, liniară, ci în etapele finale de sinteză formează structuri tridimensionale complexe. 

Secvența liniară de aminoacizi reprezintă structura primară a proteinei. Ulterior, lanțul de aminoacizi se pliază, formând structuri secundare, de tipul spiralelor (alfa helix) sau a straturilor paralele (beta sheet). Aceste structuri se organizează în structura terțiară a proteinei. Aminoacizi, care nu sunt vecini în structura bidimensională, interacționează în funcție de o serie de proprietăți:

În cercetarea biomedicală centrată pe dezvoltarea de noi molecule terapeutice, predicția structurii tridimensionale este esențială. Moleculele noi, de dimensiuni mari, funcționează frecvent prin intermediul unui situs activ, în care molecula își desfășoară activitatea (de exemplu, în cazul unui enzime, reacția este catalizată la nivelul situsului activ, iar în cazul unui anticorp monoclonal, acesta se leagă de ținta sa la nivelul unei regiune specifice).

Lanțul de aminoacizi se organizează în structuri complexe tridimensionale, pentru a facilita exercitarea funcției specifice a proteinei

Cea mai frecvent folosită metodă de determinare a structurii tridimensionale proteice este cristalografia cu raze X: 89% din structurile care fac parte din Baza de date mondială referitoare la proteine au fost determinate prin această metodă. Aceasta presupune analiza refracției produse de proteină, la expunerea la raze X. Din acest proces rezultă o hartă a densității electronilor, care poate fi corelată cu structura 3D a proteinei. Totuși, această metodă are o serie de dezavantaje: doar molecule cu structură cristalină pot fi examinate, și nu pot fi analizate moleculele aflate în soluții sau sub forma de gaz sau pudră. De asemenea, nu pot fi analizate moleculele în dinamică, și nici analiza țintită a anumitor secvențe proteice nu poate fi realizată.

Cum funcționează inteligența artificială și deep learning?

În domenii precum genomica și biologia moleculară structurală, instrumentele de tip inteligență artificială devin tot mai utilizate în ultimii ani, datorită capacității de a analiza în mod rapid cantități enorme de date, acumulate în aceste domenii de-a lungul timpului.

Deep learning reprezintă o componentă a acestui domeniu vast, ce presupune utilizarea de rețele neurale artificiale pentru a extrage informații din cantități mari de date. Acest instrument poate procesa datele fără suportul unor algoritmi, etichete sau procese de antrenament, supervizate de oameni. La fiecare nouă procesare de date, instrumentele bazate pe deep learning perfecționează maniera prin care au ajuns la concluzie și generează reguli interne de procesare exactă a datelor. 

Aplicațiile acestor tehnologii în medicină au un mare potențial, deoarece în medicină se acumulează cantități mari de date, denumite în mod colectiv big data, dificil de interpretat prin metode convenționale. Inteligența artificială are astăzi aplicații numeroase în medicină: poate contribui la interpretarea corectă a explorărilor imagistice, detecția precoce și precisă a cancerului, accidentului vascular cerebral sau a unor maladii oculare.

Citește și:

Exit mobile version