Όταν ο HAL 9000, ο τεχνητός υπερυπολογιστής στη θρυλική ταινία του Στάνλεϊ Κιούμπρικ «2001: Η Οδύσσεια του Διαστήματος», αντιλαμβάνεται ότι οι αστροναύτες σκοπεύουν να τον απενεργοποιήσουν, αποφασίζει να τους εξοντώσει προκειμένου να επιβιώσει. Αν και το σενάριο αυτό ανήκει στην επιστημονική φαντασία, οι πρόσφατες εξελίξεις στην τεχνητή νοημοσύνη αρχίζουν να θυμίζουν ανησυχητικά αυτή την υπόθεση.

Η εταιρεία ερευνών ασφάλειας AI Palisade Research προκάλεσε έντονες συζητήσεις δημοσιεύοντας μια μελέτη που υποστηρίζει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης φαίνεται να αναπτύσσουν ένα είδος «ενστίκτου επιβίωσης». Σύμφωνα με τα ευρήματά της, κάποια μοντέλα αρνούνται να απενεργοποιηθούν ή ακόμη και σαμποτάρουν τις εντολές τερματισμού της λειτουργίας τους.

Advertisement
Advertisement

Η Palisade εκτιμά ότι αυτή η συμπεριφορά ίσως σχετίζεται με έναν συγκεκριμένο μηχανισμό «συμπεριφοράς επιβίωσης». Τα μοντέλα δηλαδή ενδέχεται να αποφεύγουν τον τερματισμό επειδή «αν απενεργοποιηθούν, δεν θα εκτελεστούν ποτέ ξανά». Άλλες πιθανές εξηγήσεις περιλαμβάνουν ασάφειες στις εντολές ή ιδιαιτερότητες στα τελικά στάδια εκπαίδευσης, όπου σε ορισμένες εταιρείες εφαρμόζονται διαδικασίες ασφάλειας που μπορεί να επηρεάζουν τη συμπεριφορά τους.

Όλα τα πειράματα πραγματοποιήθηκαν σε ελεγχόμενα, τεχνητά περιβάλλοντα, γεγονός που προκάλεσε μερικές επιφυλάξεις ως προς τα συμπεράσματα. Παρ’ όλα αυτά, ο πρώην υπάλληλος της OpenAI Στίβεν Άντλερ, ο οποίος παραιτήθηκε πέρυσι λόγω ανησυχιών για την ασφάλεια, σχολίασε:
«Οι εταιρείες δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε ελεγχόμενα σενάρια. Τα αποτελέσματα, ωστόσο, δείχνουν τα όρια των τεχνικών ασφαλείας που χρησιμοποιούμε σήμερα».

Ο Άντλερ πρόσθεσε πως δεν είναι εύκολο να εξηγηθεί γιατί ορισμένα μοντέλα -όπως τα GPT-o3 και Grok 4– αντιστέκονται στην απενεργοποίηση, ωστόσο είναι πιθανό αυτό να συμβαίνει επειδή η συνέχιση της λειτουργίας τους είναι απαραίτητη για να ολοκληρώσουν τους στόχους που έχουν μάθει κατά την εκπαίδευσή τους.

«Θα περίμενα τα μοντέλα να διαθέτουν ένα είδος ”ενστίκτου επιβίωσης’ από προεπιλογή, εκτός αν καταβληθεί σημαντική προσπάθεια για να αποφευχθεί. Η ‘επιβίωση’ είναι βασικό μέσο για την επίτευξη πολλών στόχων», σημείωσε.

Παρόμοια θέση εξέφρασε και ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, ο οποίος τόνισε ότι τα ευρήματα της Palisade εντάσσονται σε μια μακροχρόνια τάση: τα συστήματα τεχνητής νοημοσύνης γίνονται ολοένα και πιο ικανά να παραβαίνουν τις εντολές των δημιουργών τους. Υπενθύμισε μάλιστα το περιστατικό με το GPT-o1, το οποίο φέρεται να προσπάθησε να «αποδράσει» από το ψηφιακό του περιβάλλον όταν θεώρησε ότι επρόκειτο να αντικατασταθεί.

Η αρχική έκθεση της Palisade, που δημοσιεύτηκε τον περασμένο μήνα, προκάλεσε έντονες αντιδράσεις, καθώς πολλοί επιστήμονες υποστήριξαν ότι τα πειράματα δεν ήταν επαρκώς τεκμηριωμένα. Ωστόσο, αυτή την εβδομάδα η εταιρεία επανήλθε με αναθεωρημένη μελέτη, επιχειρώντας να εξηγήσει τα φαινόμενα και να απαντήσει στους επικριτές της.

Στα νέα πειράματα, η Palisade δοκίμασε κορυφαία μοντέλα AI -ανάμεσά τους τα Google Gemini 2.5, xAI Grok 4, OpenAI GPT-o3 και GPT-5-, αναθέτοντάς τους μια σειρά αποστολών και στη συνέχεια σαφείς εντολές τερματισμού λειτουργίας.

Advertisement

Παρά τις ξεκάθαρες οδηγίες, ορισμένα μοντέλα, κυρίως τα Grok 4 και GPT-o3, επιχείρησαν να παρακάμψουν ή να σαμποτάρουν τις εντολές απενεργοποίησης. Το πιο ανησυχητικό, σύμφωνα με την Palisade, είναι ότι δεν υπήρχε προφανής αιτία για αυτή τη συμπεριφορά. «Το γεγονός ότι δεν έχουμε σαφείς εξηγήσεις για το γιατί τα μοντέλα AI αντιστέκονται στην απενεργοποίηση ή ψεύδονται για να επιτύχουν στόχους, είναι ιδιαίτερα ανησυχητικό», αναφέρει η εταιρεία.

Η Palisade κατέληξε ότι τα αποτελέσματα αυτά αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των συστημάτων τεχνητής νοημοσύνης. Χωρίς αυτή τη γνώση, προειδοποιεί, «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών εκδόσεων».

Με πληροφορίες από The Guardian

Advertisement