UPDATE. Proiectul Alpha Fold: a fost lansată baza de date ce conține toate structurile proteice identificate cu ajutorul inteligenței artificiale




Instrumentul AlphaFold utilizează inteligența artificială pentru a prezice structura tridimensională a unei proteine, într-o manieră înalt eficientă, după cum a demonstrat în cadrul concursului Critical Assessment of Protein Structure Prediction (CASP), ediția 2020. În iulie 2021 au fost publicată baza de date care conține toate structurile proteice prezise de AlphaFold până acum. În acest moment, baza de date conține peste 350.000 de structuri proteice, care provin atât de la om, cât și de la alte organisme (plante și animale). Instrumentul AI a prezis structura a 98,5% din totalul proteinelor din organismul uman, iar dintre acestea, 58% sunt prezise cu un grad ridicat de acuratețe. Acest proiect își propune să extindă baza de date pentru a cuprinde toate structurile proteice cunoscute (peste 100 de milioane).

baza date proteine structura descifrata instrument AlphaFold AI deep learning

Proiectul AlphaFold are potențialul de a accelera integrarea biotehnologiei în cercetarea medicală. După cum a afirmat Dr. Eric Topol, cardiolog și directorul Institutului de cercetare translațională Scripps, pe contul personal de Twitter:

abonare

Suntem martori la unul dintre cele mai importante progrese din istoria științelor naturale, care combină mecanismele de inteligență artificială de tip deep learning, proteomul uman și accesul liber la știință (open science). În termeni simpli, acest proiect are același impact asupra proteomicii pe care îl are platforma Google asupra căutării de informații.

Specialiștii implicați în proiect s-au concentrat pe descifrarea unor proteine cu impact major în sănătatea umană – enzime sau proteine expuse la suprafața celulelor. Exemplele subliniate în articolul publicat în Nature sunt:

  • glucozo-6-fosfataza (enzimă implicată în metabolismul glucidic, a cărei structură completă nu a fost identificată până acum);
  • Diacilglicerol O-acil transferasa 2 (enzimă implicată în sinteza trigliceridelor – a cărei inhibiție a prezentat efecte benefice hepatice pe animale de laborator) – modelul AlphaFold a descris cu acuratețe atât structura enzimei, cât și maniera în care aceasta interacționează cu o moleculă inhibitorie cunoscută;
  • Wolframina (proteină transmembranară, a cărei mutații conduc la Sindromul Wolfram).
Baza date AlphaFold - instrument AI de rpezicere a structurii terțiare a proteinelor, pornind de la secvența aminoacidică
Un exemplu de structură proteică descifrată cu ajutorul AlphaFold: una dintre izoformele proteinei ACE2 (altă izoformă decât cea care reprezintă receptor pentru SARS-CoV-2). Culorile simbolizează gradul de acuratețe al predicției: zonele albastru deschis și închis sunt secvențe proteice cu un grad ridicat și foarte ridicat de acuratețe.

În continuare, eforturile se concentrează pe îmbunătățirea predicției în cazul structurilor proteice identificate (în special cele cu un grad scăzut de acuratețe). Cercetarea proteomului are potențialul de a conduce la noi biomarkeri, mecanisme patologice sau chiar molecule terapeutice.


Un instrument bazat pe inteligență artificială (AI) poate prezice structura tridimensională a unei proteine, pornind de la secvența genetică corespunzătoare. Capacitatea acestuia este similară metodelor considerate standard de aur în acest domeniu, al biologiei moleculare structurale, cristalografia cu raze X și microscopia electronică. Acest instrument, denumit AlphaFold, este dezvoltat de compania DeepMind, care, în colaborare cu Google, are drept scop cercetarea aplicațiilor AI în știință și societate.  

Rezultatele precise au fost obținute în cadrul concursului Critical Assessment of Structure Prediction – în cadrul căruia AlphaFold a avut rezultate superioare altor peste 100 de instrumente de predicție a structurii tridimensionale proteice.

Instrumentul AlphaFold se bazează pe o rețea neurală artificială, care identifică rapid în baze de date de proteine anumite fragmente similare proteinei-țintă. Ulterior, rețeaua neurală calculează probabilitatea ca anumite grupări prezente la nivelul aminoacizilor să interacționeze, în funcție de distanța dintre ele. Pe baza distribuției distanțelor probabile dintre fragmentele proteice și a unghiurilor formate de aceste legături, structura finală a proteinei este prezisă cu un grad ridicat de acuratețe.

Instrumente de predicție, precum AlphaFold, ar putea contribui la numeroase inovații în biologie și sănătatea umană: de la dezvoltarea de noi terapii țintite, până la înțelegerea bolilor genetice, care acționează prin existența unor proteine cu structura finală disfuncțională.

structura 3D proteine predicție inteligență artificială deep learning rețele neurale artificiale AlphaFord DeepMind

De la structură la funcție

În lumea vie, proteinele reprezintă elemente de bază, atât structural (proteine precum colagenul), cât și funcțional (de exemplu enzimele). În esență, proteinele sunt o succesiune liniară de aminoacizi, a căror secvență este dictată de succesiunea de nucleotide corespunzătoare din ADN-ul care codifică respectiva proteină. Cu toate acestea, proteinele nu acționează sub forma lor bidimensională, liniară, ci în etapele finale de sinteză formează structuri tridimensionale complexe. 

Secvența liniară de aminoacizi reprezintă structura primară a proteinei. Ulterior, lanțul de aminoacizi se pliază, formând structuri secundare, de tipul spiralelor (alfa helix) sau a straturilor paralele (beta sheet). Aceste structuri se organizează în structura terțiară a proteinei. Aminoacizi, care nu sunt vecini în structura bidimensională, interacționează în funcție de o serie de proprietăți:

  • Gradul de atracție față de apă:
    • Hidrofil – interacționează rapid cu apa, formând legături de hidrogen – se găsește mai frecvent la suprafața proteinei;
    • Hidrofob – nu interacționează cu apa, găsindu-se mai frecvent în interiorul structurii 3D;
  • Existența aminoacidului cisteină în structura primară, care formează legături disulfidice;
  • Existența aminoacizilor polari, care formează legături de hidrogen;
  • pH-ul la care diferite grupări chimice din structura aminoacidului devin ionizate (grupurile hidroxil și amină) – astfel, în funcție de pH-ul soluției în care se găsește proteina, diverse fragmente, bogate în aminoacizi bazici, acizi sau neutri, pot deveni polarizate pozitiv sau negativ.

În cercetarea biomedicală centrată pe dezvoltarea de noi molecule terapeutice, predicția structurii tridimensionale este esențială. Moleculele noi, de dimensiuni mari, funcționează frecvent prin intermediul unui situs activ, în care molecula își desfășoară activitatea (de exemplu, în cazul unui enzime, reacția este catalizată la nivelul situsului activ, iar în cazul unui anticorp monoclonal, acesta se leagă de ținta sa la nivelul unei regiune specifice).

predicție structură terțiară proteine din secvență genetică alphaford deepmind deep learning inteligență artificială rețele neurale
Lanțul de aminoacizi se organizează în structuri complexe tridimensionale, pentru a facilita exercitarea funcției specifice a proteinei

Cea mai frecvent folosită metodă de determinare a structurii tridimensionale proteice este cristalografia cu raze X: 89% din structurile care fac parte din Baza de date mondială referitoare la proteine au fost determinate prin această metodă. Aceasta presupune analiza refracției produse de proteină, la expunerea la raze X. Din acest proces rezultă o hartă a densității electronilor, care poate fi corelată cu structura 3D a proteinei. Totuși, această metodă are o serie de dezavantaje: doar molecule cu structură cristalină pot fi examinate, și nu pot fi analizate moleculele aflate în soluții sau sub forma de gaz sau pudră. De asemenea, nu pot fi analizate moleculele în dinamică, și nici analiza țintită a anumitor secvențe proteice nu poate fi realizată.

Cum funcționează inteligența artificială și deep learning?

În domenii precum genomica și biologia moleculară structurală, instrumentele de tip inteligență artificială devin tot mai utilizate în ultimii ani, datorită capacității de a analiza în mod rapid cantități enorme de date, acumulate în aceste domenii de-a lungul timpului.

Deep learning reprezintă o componentă a acestui domeniu vast, ce presupune utilizarea de rețele neurale artificiale pentru a extrage informații din cantități mari de date. Acest instrument poate procesa datele fără suportul unor algoritmi, etichete sau procese de antrenament, supervizate de oameni. La fiecare nouă procesare de date, instrumentele bazate pe deep learning perfecționează maniera prin care au ajuns la concluzie și generează reguli interne de procesare exactă a datelor. 

Aplicațiile acestor tehnologii în medicină au un mare potențial, deoarece în medicină se acumulează cantități mari de date, denumite în mod colectiv big data, dificil de interpretat prin metode convenționale. Inteligența artificială are astăzi aplicații numeroase în medicină: poate contribui la interpretarea corectă a explorărilor imagistice, detecția precoce și precisă a cancerului, accidentului vascular cerebral sau a unor maladii oculare.

Citește și: