Ερευνητές στην Ιατρική Σχολή του Χάρβαρντ και στο Ιατρικό Κέντρο Beth Israel Deaconess στις Ηνωμένες Πολιτείες συνέκριναν τεχνητή νοημοσύνη – γιατρούς σε ένα ευρύ φάσμα κλινικών εργασιών συλλογισμού.
Διαπίστωσαν, όπως αναφέρει το Euronews, ότι τα μοντέλα μεγάλης γλώσσας (LLM) ξεπέρασαν τις επιδόσεις των γιατρών σε διάφορες εργασίες, όπως η λήψη αποφάσεων για τα επείγοντα περιστατικά με βάση τις διαθέσιμες πληροφορίες, ο εντοπισμός πιθανών διαγνώσεων και η επιλογή των επόμενων βημάτων στη διαχείριση του προβλήματος υγείας.
«Δοκιμάσαμε το μοντέλο τεχνητής νοημοσύνης σε σχέση με σχεδόν κάθε σημείο αναφοράς και επισκίασε τόσο προηγούμενα μοντέλα όσο και γιατρούς», δήλωσε ο Arjun Manrai, συν-επικεφαλής συγγραφέας και καθηγητής στην Ιατρική Σχολή του Χάρβαρντ.
«Ωστόσο, αυτό δεν σημαίνει ότι η τεχνητή νοημοσύνη θα βελτιώσει απαραίτητα την περίθαλψη – το πώς και πού θα πρέπει να αναπτυχθεί παραμένει ένα ερώτημα που δεν έχει μελετηθεί αρκετά και χρειαζόμαστε απεγνωσμένα αυστηρές δοκιμές για να αξιολογήσουμε τον αντίκτυπο της τεχνητής νοημοσύνης στην κλινική πρακτική».
Πώς δοκιμάστηκε το μοντέλο Τεχνητής Νοημοσύνης
Οι ερευνητές αξιολόγησαν αρχικά το o1-preview, το μοντέλο συλλογισμού της OpenAI που κυκλοφόρησε το 2024, στο οποίο έδωσαν μια σειρά κλινικών περιστατικών, συμπεριλαμβανομένων δημοσιευμένων συνεδρίων περιστατικών και αρχείων τμημάτων επειγόντων περιστατικών. Όλα τα περιστατικά ήταν παραγματικά.
Η Τεχνητή Νοημοσύνη ξεπέρασε τους γιατρούς στα περισσότερα κρίσιμα πεδία, ειδικά στη συλλογιστική διαχείρισης, την κλινική συλλογιστική, την τεκμηρίωση και τις πραγματικές συνθήκες έκτακτης ανάγκης με περιορισμένες πληροφορίες, όπως αναφέρει το Euronews.
«Τα μοντέλα γίνονται ολοένα και πιο ικανά. Συνήθιζα να αξιολογούμε μοντέλα με τεστ πολλαπλής επιλογής. Τώρα βαθμολογούνται σταθερά κοντά στο 100% και δεν μπορούμε πλέον να παρακολουθούμε την πρόοδο επειδή βρισκόμαστε ήδη στο ανώτατο όριο», δήλωσε ο συν-πρώτος συγγραφέας Peter Brodeur, κλινικός ερευνητής ιατρικής του HMS στο Beth Israel Deaconess.
Σε μια δοκιμή, οι ερευνητές ζήτησαν από τους LLM –o1 και GPT-4o– να αξιολογήσουν ασθενείς σε διάφορα επίπεδα σε ένα τυπικό περιβάλλον τμήματος επειγόντων περιστατικών, που κυμαίνονταν από την πρώιμη διαλογή έως τις μεταγενέστερες αποφάσεις εισαγωγής.
Σε κάθε στάδιο, στο μοντέλο δόθηκαν μόνο οι πληροφορίες που ήταν διαθέσιμες εκείνη τη στιγμή και του ζητήθηκε να καταληξει σε πιθανές διαγνώσεις και να προτείνει τι θα έπρεπε να συμβεί στη συνέχεια.
Το μεγαλύτερο χάσμα μεταξύ της Τεχνητής Νοημοσύνης και των γιατρών ήταν στο στάδιο της διαλογής, στο οποίο οι πληροφορίες του ασθενούς είναι πιο περιορισμένες. Όπως και με τους γιατρούς, τα μοντέλα Τεχνητής Νοημοσύνης βελτίωσαν τις διαγνωστικές τους ικανότητες καθώς περισσότερες πληροφορίες έγιναν διαθέσιμες.
«Παρόλο που η εφαρμογή της Τεχνητής Νοημοσύνης για την υποστήριξη της κλινικής λήψης αποφάσεων θεωρείται μερικές φορές ως μια προσπάθεια υψηλού κινδύνου, η μεγαλύτερη χρήση αυτών των εργαλείων θα μπορούσε να μετριάσει το ανθρώπινο και οικονομικό κόστος του διαγνωστικού σφάλματος, της καθυστέρησης και της έλλειψης πρόσβασης», έγραψαν οι συγγραφείς.
Απαιτείται περαιτέρω έρευνα
Οι ερευνητές ζήτησαν περισσότερες δοκιμές για την αξιολόγηση αυτών των τεχνολογιών σε πραγματικό περιβάλλον και για τα συστήματα υγειονομικής περίθαλψης να επενδύσουν σε υποδομές υπολογιστών και να αναπτύξουν πλαίσια που μπορούν να υποστηρίξουν την ασφαλή ενσωμάτωση εργαλείων Τεχνητής Νοημοσύνης στις κλινικές ροές εργασίας.
«Ένα μοντέλο μπορεί να κάνει τη σωστή διάγνωση, αλλά και να προτείνει περιττές δοκιμές που θα μπορούσαν να εκθέσουν έναν ασθενή σε βλάβη», δήλωσε ο Brodeur. «Οι άνθρωποι θα πρέπει να αποτελούν την τελική βάση αναφοράς όσον αφορά την αξιολόγηση της απόδοσης και της ασφάλειας».
Η μελέτη έχει ορισμένους περιορισμούς.
Οι συγγραφείς σημείωσαν ότι η μελέτη αντικατοπτρίζει μόνο την απόδοση του μοντέλου και επικεντρώνεται κυρίως στην έκδοση προεπισκόπησης του μοντέλου o1, το οποίο έκτοτε έχει αντικατασταθεί από νεότερα μοντέλα όπως το μοντέλο o3 της OpenAI.
«Παρόλο που αναμένουμε ότι η απόδοση του θα διατηρηθεί ή θα βελτιωθεί με νεότερα μοντέλα, θα πρέπει να γίνουν περαιτέρω μελέτες για να διευκρινιστεί πώς η απόδοση ποικίλλει μεταξύ των μοντέλων και να μελετηθεί πώς οι άνθρωποι και οι LLM μπορούν να συνεργαστούν», έγραψαν οι συγγραφείς.