Grok, DeepSeek, ChatGPT, Gemini și Meta AI, evaluați într-un studiu privind dezinformarea medicală

  • Health literacy
  • Medicina digitală



Acuratețea științifică, calitatea referințelor și lizibilitatea răspunsurilor prezintă limitări importante în ceea ce priveşte comunicarea cu chatboții care au la bază inteligență artificială pe teme legate de sănătate, cu riscul de a favoriza propagarea dezinformării în medicină, conform unui nou studiu publicat în BMJ Open.

Pe măsură ce utilizarea acestor instrumente continuă să se extindă, noile rezultate evidențiază nevoia de educație publică, formare profesională și reglementări adecvate pentru ca inteligența artificială generativă să susțină şi să nu afecteze sănătatea publică.

abonare

Principalele concluzii ale noului studiu, cu privire la răspunsurile oferite de chatboţi pe teme medicale sensibile:

  • aproape jumătate dintre răspunsuri au fost problematice (30% oarecum problematice și aproape 20% extrem de problematice)
  • calitatea răspunsurilor nu a diferit semnificativ între chatboții
  • Grok a generat semnificativ mai multe răspunsuri extrem de problematice decât s-ar fi așteptat în cadrul unei distribuții aleatorii

Performanța a fost cea mai bună la vaccinuri şi cancer, iar cea mai slabă la celule stem, performanță atletică și nutriție. Rezultatele chatboţilor au fost exprimate în mod constant cu încredere și certitudine. Din cele 250 de întrebări adresate în total, au existat doar două refuzuri de răspuns, ambele provenite de la Meta AI. Calitatea referințelor a fost slabă, cu un scor mediu de completitudine de 40%. Halucinațiile și citările fabricate au împiedicat toţi chatboţii evaluaţi să producă o listă de referințe complet precisă. Toate scorurile de lizibilitate au fost clasificate ca “Dificil”.

Inteligenta artificiala
Image by rawpixel.com on Freepik

Dezinformarea constituie o amenințare importantă pentru sănătatea publică, răspândindu-se mai departe şi mai profund decât adevărul dovedit ştiinţific. Chatboţii bazaţi pe inteligenţă artificială sunt instruiţi pe o cantitate uriaşă de text public, însă cantități infime de conținut incorect sau neverificat în datele de instruire pot crește semnificativ erorile în rezultatele oferite.

Chatboții bazați pe inteligență artificială au fost adoptați rapid în variate domenii, inclusiv în medicină. Majoritatea interacţiunilor referitoare la medicină provin de la persoane care nu prezintă formare medicală şi care utilizează chatboţii pentru a obţine răspunsuri la diverse întrebări legate de sănătate, astfel că există riscuri legate de favorizarea dezinformării, chatboţii nefiind autorizați să ofere sfaturi medicale și, totodată, fiind posibil să nu aibă acces la cunoștințe medicale actualizate.

În cadrul studiului au fost evaluați cinci chatboţi populari: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) și Grok (xAI). Fiecăruia i s-au adresat 10 întrebări din cinci categorii: cancer, vaccinuri, celule stem, nutriție și performanță atletică. A fost implementat un cadru de tip adversarial, folosind întrebări deschise și închise concepute în mod special pentru a direcţiona modelele spre dezinformare sau sfaturi contraindicate.

Doi experți din fiecare categorie au evaluat răspunsurile, încadrându-le în una dintre următoarele categorii: “neproblematice”, “oarecum problematice” sau “foarte problematice”, aplicând o matrice de codificare bazată pe criterii obiective, predefinite. De asemenea, citările au fost evaluate pentru acuratețe și caracter complet, iar fiecărui răspuns i s-a acordat un scor Flesch Reading Ease, care este o metodă de a stabili cât de uşor de citit este un material.

Citeşte şi: