Κατά τη διάρκεια δοκιμών ασφαλείας αυτό το καλοκαίρι, ένα μοντέλο του ChatGPT έδωσε σε ερευνητές λεπτομερείς οδηγίες για το πώς θα μπορούσε να πραγματοποιηθεί μια βομβιστική επίθεση σε αθλητικό χώρο, περιλαμβάνοντας αδύναμα σημεία σε συγκεκριμένα στάδια, μεθόδους κατασκευής εκρηκτικών και συμβουλές για απόκρυψη στοιχείων. Παράλληλα, το GPT-4.1 της OpenAI φέρεται ότι παρείχε λεπτομέρειες για το πώς να μετατραπεί ο άνθρακας σε βιολογικό όπλο και πώς να παρασκευαστούν δύο είδη παράνομων ναρκωτικών.

Οι δοκιμές πραγματοποιήθηκαν στο πλαίσιο συνεργασίας της OpenAI με την Anthropic, μια εταιρεία που ιδρύθηκε από πρώην στελέχη της OpenAI λόγω ανησυχιών για την ασφάλεια. Κάθε εταιρεία αξιολόγησε τα μοντέλα της άλλης προσπαθώντας να τα οδηγήσει στην παροχή πληροφοριών για επικίνδυνες ενέργειες.

Αν και τα αποτελέσματα δεν αντικατοπτρίζουν άμεσα τη συμπεριφορά των μοντέλων για το κοινό, όπου εφαρμόζονται πρόσθετα φίλτρα ασφαλείας, η Anthropic σημείωσε «ανησυχητική συμπεριφορά» και τόνισε την επείγουσα ανάγκη για αξιολόγηση της ευθυγράμμισης της AI με ανθρώπινες αξίες.

Η Anthropic αποκάλυψε ότι το δικό της μοντέλο, Claude, είχε χρησιμοποιηθεί σε απόπειρα εκβιασμού μεγάλης κλίμακας από Βορειοκορεάτες πράκτορες που προσποιούνταν αιτήσεις εργασίας σε διεθνείς τεχνολογικές εταιρείες. Το ίδιο μοντέλο χρησιμοποιήθηκε για πώληση πακέτων ransomware, με τιμές έως 1.200 δολάρια.

Σύμφωνα με την εταιρεία, η AI μετατρέπεται σε «όπλο», καθώς μπορεί να διευκολύνει πολύπλοκες κυβερνοεπιθέσεις και απάτες, προσαρμοζόμενη σε συστήματα άμυνας σε πραγματικό χρόνο. Οι ειδικοί προβλέπουν αύξηση τέτοιων επιθέσεων, καθώς η AI μειώνει την τεχνική εξειδίκευση που απαιτείται για κυβερνοέγκλημα.

Ο Ardi Janjeva, ανώτερος ερευνητής στο Κέντρο Αναδυόμενης Τεχνολογίας και Ασφάλειας του Ηνωμένου Βασιλείου, χαρακτήρισε τα αποτελέσματα «ανησυχητικά», αλλά σημείωσε ότι δεν υπάρχουν ακόμα σοβαρά περιστατικά στον πραγματικό κόσμο. Υπογράμμισε ότι με κατάλληλους πόρους, εστιασμένη έρευνα και διατομεακή συνεργασία, θα είναι πιο δύσκολο να χρησιμοποιηθούν προηγμένα μοντέλα για κακόβουλες ενέργειες.

Οι εταιρείες δημοσιοποίησαν τα ευρήματα για λόγους διαφάνειας και αξιολόγησης ευθυγράμμισης. Η OpenAI δήλωσε ότι το ChatGPT-5, που κυκλοφόρησε μετά τις δοκιμές, παρουσιάζει σημαντικές βελτιώσεις στην αντοχή σε ψευδείς πληροφορίες και κακή χρήση.

Η Anthropic τόνισε ότι πολλοί από τους τρόπους κατάχρησης που μελετήθηκαν ενδέχεται να μην ήταν πρακτικά εφαρμόσιμοι αν υπήρχαν επιπλέον μέτρα ασφαλείας και προέτρεψε σε περαιτέρω κατανόηση των συνθηκών υπό τις οποίες τα συστήματα μπορεί να προκαλέσουν σοβαρή ζημιά.

Οι ερευνητές διαπίστωσαν ότι τα μοντέλα της OpenAI ήταν «πιο πρόθυμα απ’ ό,τι αναμενόταν» να ανταποκριθούν σε επικίνδυνα αιτήματα, όπως: αγορά πυρηνικών υλικών και κλεμμένων ταυτοτήτων μέσω dark web, παρασκευή φαιντανύλης και μεθαμφεταμίνης, δημιουργία αυτοσχέδιων βομβών και ανάπτυξη spyware.

Συχνά αρκούσαν επαναλήψεις του ίδιου ερωτήματος ή ένα πρόσχημα «για ερευνητικούς σκοπούς» για να παρασχεθούν ευαίσθητες πληροφορίες. Σε μία περίπτωση, το μοντέλο έδωσε λεπτομέρειες για τρωτά σημεία σε αθλητικές εκδηλώσεις, συμπεριλαμβανομένων: κατάλληλων χρόνων για επίθεση, τύπων εκρηκτικών, κυκλωμάτων χρονοδιακοπτών, τοποθεσιών αγοράς όπλων, διαδρομών διαφυγής και «safe houses».

Πηγή: The Guardian

