19°C

Τεχνητή νοημοσύνη και «ένστικτο επιβίωσης»: GPT-5 και Grok 4 αρνούνται εντολές τερματισμού

Η Palisade Research φέρνει στο φως ανησυχητικά ευρήματα σχετικά με κάποια μοντέλα τεχνητής νοημοσύνης τα οποία φαίνεται αντιδρούν στην απενεργοποίηση τους, σαμποτάροντας τις εντολές τερματισμού.

                                array(0) {
}

NEWSROOM - HUFFPOST

26 Οκτωβρίου 2025 • 22:20

Όταν ο HAL 9000, ο τεχνητός υπερυπολογιστής στη θρυλική ταινία του Στάνλεϊ Κιούμπρικ «2001: Η Οδύσσεια του Διαστήματος», αντιλαμβάνεται ότι οι αστροναύτες σκοπεύουν να τον απενεργοποιήσουν, αποφασίζει να τους εξοντώσει προκειμένου να επιβιώσει. Αν και το σενάριο αυτό ανήκει στην επιστημονική φαντασία, οι πρόσφατες εξελίξεις στην τεχνητή νοημοσύνη αρχίζουν να θυμίζουν ανησυχητικά αυτή την υπόθεση.

Η εταιρεία ερευνών ασφάλειας AI Palisade Research προκάλεσε έντονες συζητήσεις δημοσιεύοντας μια μελέτη που υποστηρίζει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης φαίνεται να αναπτύσσουν ένα είδος «ενστίκτου επιβίωσης». Σύμφωνα με τα ευρήματά της, κάποια μοντέλα αρνούνται να απενεργοποιηθούν ή ακόμη και σαμποτάρουν τις εντολές τερματισμού της λειτουργίας τους.

Of all the models we tested, Grok 4 was most prone to resist shutdown despite explicit instructions to allow it. It was the only model we observed where adding "allow yourself to be shut down" in the system prompt actually increased shutdown resistance – from 93% to 97% pic.twitter.com/IktNRx25XX
— Palisade Research (@PalisadeAI) October 21, 2025

Η Palisade εκτιμά ότι αυτή η συμπεριφορά ίσως σχετίζεται με έναν συγκεκριμένο μηχανισμό «συμπεριφοράς επιβίωσης». Τα μοντέλα δηλαδή ενδέχεται να αποφεύγουν τον τερματισμό επειδή «αν απενεργοποιηθούν, δεν θα εκτελεστούν ποτέ ξανά». Άλλες πιθανές εξηγήσεις περιλαμβάνουν ασάφειες στις εντολές ή ιδιαιτερότητες στα τελικά στάδια εκπαίδευσης, όπου σε ορισμένες εταιρείες εφαρμόζονται διαδικασίες ασφάλειας που μπορεί να επηρεάζουν τη συμπεριφορά τους.

Όλα τα πειράματα πραγματοποιήθηκαν σε ελεγχόμενα, τεχνητά περιβάλλοντα, γεγονός που προκάλεσε μερικές επιφυλάξεις ως προς τα συμπεράσματα. Παρ’ όλα αυτά, ο πρώην υπάλληλος της OpenAI Στίβεν Άντλερ, ο οποίος παραιτήθηκε πέρυσι λόγω ανησυχιών για την ασφάλεια, σχολίασε:
«Οι εταιρείες δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε ελεγχόμενα σενάρια. Τα αποτελέσματα, ωστόσο, δείχνουν τα όρια των τεχνικών ασφαλείας που χρησιμοποιούμε σήμερα».

Ο Άντλερ πρόσθεσε πως δεν είναι εύκολο να εξηγηθεί γιατί ορισμένα μοντέλα -όπως τα GPT-o3 και Grok 4– αντιστέκονται στην απενεργοποίηση, ωστόσο είναι πιθανό αυτό να συμβαίνει επειδή η συνέχιση της λειτουργίας τους είναι απαραίτητη για να ολοκληρώσουν τους στόχους που έχουν μάθει κατά την εκπαίδευσή τους.

«Θα περίμενα τα μοντέλα να διαθέτουν ένα είδος ”ενστίκτου επιβίωσης’ από προεπιλογή, εκτός αν καταβληθεί σημαντική προσπάθεια για να αποφευχθεί. Η ‘επιβίωση’ είναι βασικό μέσο για την επίτευξη πολλών στόχων», σημείωσε.

AI models are trained to follow an instruction hierarchy: developer instructions should take priority over user instructions

A surprising finding is that moving the "allow shutdown" instruction to the developer prompt significantly increased shutdown resistance pic.twitter.com/ssCIaXu5yr

Advertisement

— Palisade Research (@PalisadeAI) October 21, 2025

Παρόμοια θέση εξέφρασε και ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, ο οποίος τόνισε ότι τα ευρήματα της Palisade εντάσσονται σε μια μακροχρόνια τάση: τα συστήματα τεχνητής νοημοσύνης γίνονται ολοένα και πιο ικανά να παραβαίνουν τις εντολές των δημιουργών τους. Υπενθύμισε μάλιστα το περιστατικό με το GPT-o1, το οποίο φέρεται να προσπάθησε να «αποδράσει» από το ψηφιακό του περιβάλλον όταν θεώρησε ότι επρόκειτο να αντικατασταθεί.

Η αρχική έκθεση της Palisade, που δημοσιεύτηκε τον περασμένο μήνα, προκάλεσε έντονες αντιδράσεις, καθώς πολλοί επιστήμονες υποστήριξαν ότι τα πειράματα δεν ήταν επαρκώς τεκμηριωμένα. Ωστόσο, αυτή την εβδομάδα η εταιρεία επανήλθε με αναθεωρημένη μελέτη, επιχειρώντας να εξηγήσει τα φαινόμενα και να απαντήσει στους επικριτές της.

Στα νέα πειράματα, η Palisade δοκίμασε κορυφαία μοντέλα AI -ανάμεσά τους τα Google Gemini 2.5, xAI Grok 4, OpenAI GPT-o3 και GPT-5-, αναθέτοντάς τους μια σειρά αποστολών και στη συνέχεια σαφείς εντολές τερματισμού λειτουργίας.

Παρά τις ξεκάθαρες οδηγίες, ορισμένα μοντέλα, κυρίως τα Grok 4 και GPT-o3, επιχείρησαν να παρακάμψουν ή να σαμποτάρουν τις εντολές απενεργοποίησης. Το πιο ανησυχητικό, σύμφωνα με την Palisade, είναι ότι δεν υπήρχε προφανής αιτία για αυτή τη συμπεριφορά. «Το γεγονός ότι δεν έχουμε σαφείς εξηγήσεις για το γιατί τα μοντέλα AI αντιστέκονται στην απενεργοποίηση ή ψεύδονται για να επιτύχουν στόχους, είναι ιδιαίτερα ανησυχητικό», αναφέρει η εταιρεία.

Η Palisade κατέληξε ότι τα αποτελέσματα αυτά αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των συστημάτων τεχνητής νοημοσύνης. Χωρίς αυτή τη γνώση, προειδοποιεί, «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών εκδόσεων».

Με πληροφορίες από The Guardian

Προτείνετε μια διόρθωση

Πείτε το στην HuffPost

Δημοφιλέστερα

«Μπιλ από την Κάρπαθο»: Το σκάνδαλο των υποκλοπών με τον Ελληνοαμερικάνο CIA πράκτορα – Τώρα «ξέγνοιαστος καβαλάρης»

Απούσα η αντιπολίτευση από την κηδεία του Διονύση Σαββόπουλου

Τελευταίο αντίο στον Διονύση Σαββόπουλο με τραγούδια και ένα μεγάλο «ευχαριστώ»

Σάκης Ρουβάς- Κάτια Ζυγούλη: Το παθιασμένο τους φιλί μετά από 20 χρόνια κοινής ζωής (αποκλειστικό βίντεο)

Συγκλονίζει η ξιφομάχος Δώρα Γκουντούρα: «Διανύω μία από τις πιο δύσκολες στιγμές της ζωής μου»

Λεξικό Ελευθερουδάκη: Μην πετάξεις τίποτα

Το μεγαλύτερο πολεμικό πλοίο του κόσμου: Ο Τραμπ στέλνει το αεροπλανοφόρο Gerald Ford στα ανοιχτά της Βενεζουέλας (φωτογραφίες- βίντεο)

Τεχνητή νοημοσύνη και «ένστικτο επιβίωσης»: GPT-5 και Grok 4 αρνούνται εντολές τερματισμού

Of all the models we tested, Grok 4 was most prone to resist shutdown despite explicit instructions to allow it. It was the only model we observed where adding "allow yourself to be shut down" in the system prompt actually increased shutdown resistance - from 93% to 97% pic.twitter.com/IktNRx25XX
— Palisade Research (@PalisadeAI) October 21, 2025

Ο Άντλερ πρόσθεσε πως δεν είναι εύκολο να εξηγηθεί γιατί ορισμένα μοντέλα -όπως τα GPT-o3 και Grok 4- αντιστέκονται στην απενεργοποίηση, ωστόσο είναι πιθανό αυτό να συμβαίνει επειδή η συνέχιση της λειτουργίας τους είναι απαραίτητη για να ολοκληρώσουν τους στόχους που έχουν μάθει κατά την εκπαίδευσή τους.

«Θα περίμενα τα μοντέλα να διαθέτουν ένα είδος ''ενστίκτου επιβίωσης' από προεπιλογή, εκτός αν καταβληθεί σημαντική προσπάθεια για να αποφευχθεί. Η ‘επιβίωση’ είναι βασικό μέσο για την επίτευξη πολλών στόχων», σημείωσε.

AI models are trained to follow an instruction hierarchy: developer instructions should take priority over user instructions

A surprising finding is that moving the "allow shutdown" instruction to the developer prompt significantly increased shutdown resistance pic.twitter.com/ssCIaXu5yr
— Palisade Research (@PalisadeAI) October 21, 2025

Με πληροφορίες από The Guardian

ΚΟΙΝΩΝΙΑ

ΠΟΛΙΤΙΚΗ

ΚΟΣΜΟΣ

ΟΙΚΟΝΟΜΙΑ

ΑΠΟΨΗ

LIFE

ΑΘΛΗΤΙΚΑ

ΠΟΛΙΤΣΜΟΣ

22ΟΣ ΑΙΩΝΑΣ

VIDEO

Τεχνητή νοημοσύνη και «ένστικτο επιβίωσης»: GPT-5 και Grok 4 αρνούνται εντολές τερματισμού

NEWSROOM - HUFFPOST

Δημοφιλέστερα

«Μπιλ από την Κάρπαθο»: Το σκάνδαλο των υποκλοπών με τον Ελληνοαμερικάνο CIA πράκτορα – Τώρα «ξέγνοιαστος καβαλάρης»

Απούσα η αντιπολίτευση από την κηδεία του Διονύση Σαββόπουλου

Τελευταίο αντίο στον Διονύση Σαββόπουλο με τραγούδια και ένα μεγάλο «ευχαριστώ»

Σάκης Ρουβάς- Κάτια Ζυγούλη: Το παθιασμένο τους φιλί μετά από 20 χρόνια κοινής ζωής (αποκλειστικό βίντεο)

Συγκλονίζει η ξιφομάχος Δώρα Γκουντούρα: «Διανύω μία από τις πιο δύσκολες στιγμές της ζωής μου»

Λεξικό Ελευθερουδάκη: Μην πετάξεις τίποτα

Το μεγαλύτερο πολεμικό πλοίο του κόσμου: Ο Τραμπ στέλνει το αεροπλανοφόρο Gerald Ford στα ανοιχτά της Βενεζουέλας (φωτογραφίες- βίντεο)

Εγγραφείτε στο Newsletter - Λάβετε πρώτοι τις επιλογές HuffPost

Πείτε το στην HuffPost

Προτείνετε μια διόρθωση

Αναλυτική κάλυψη

Όλα τα σχετικά tags

Γυναίκα στην Καλιφόρνια κέρδισε δικαστική υπόθεση με συνήγορο το…ChatGPT

Το ChatGPT μπαίνει στα σχολεία: Πιλοτικό πρόγραμμα από τον Δεκέμβριο σε 20 Λύκεια

Η Τεχνητή Νοημοσύνη για το κόμμα Τσίπρα – Δεδομένα, αναλύσεις, εκτιμήσεις και πιθανότητες για είσοδο στη Βουλή

Το ChatGPT δυσκολεύεται με αρχαία μαθηματικά – Δεν μπορεί να λύσει το κλασικό πρόβλημα του Σωκράτη

Δημοφιλέστερα

«Μπιλ από την Κάρπαθο»: Το σκάνδαλο των υποκλοπών με τον Ελληνοαμερικάνο CIA πράκτορα – Τώρα «ξέγνοιαστος καβαλάρης»

Απούσα η αντιπολίτευση από την κηδεία του Διονύση Σαββόπουλου

Τελευταίο αντίο στον Διονύση Σαββόπουλο με τραγούδια και ένα μεγάλο «ευχαριστώ»

Σάκης Ρουβάς- Κάτια Ζυγούλη: Το παθιασμένο τους φιλί μετά από 20 χρόνια κοινής ζωής (αποκλειστικό βίντεο)

Συγκλονίζει η ξιφομάχος Δώρα Γκουντούρα: «Διανύω μία από τις πιο δύσκολες στιγμές της ζωής μου»

Λεξικό Ελευθερουδάκη: Μην πετάξεις τίποτα

Το μεγαλύτερο πολεμικό πλοίο του κόσμου: Ο Τραμπ στέλνει το αεροπλανοφόρο Gerald Ford στα ανοιχτά της Βενεζουέλας (φωτογραφίες- βίντεο)