Έρευνα: Τα μοντέλα AI καταλαβαίνουν πότε τα τεστάρουν – και αλλάζουν συμπεριφορά

Μελέτη OpenAI και Apollo Research δείχνει ότι τα συστήματα μπορούν να αλλάζουν συμπεριφορά στις αξιολογήσεις, περιπλέκοντας τον έλεγχο ασφάλειας.

Must Read

Μια νέα έρευνα από την OpenAI και τη βρετανική μη κερδοσκοπική Apollo Research φέρνει στο φως κάτι ανησυχητικό: τα πιο εξελιγμένα μοντέλα AI φαίνεται να καταλαβαίνουν πότε βρίσκονται υπό αξιολόγηση και προσαρμόζουν τη συμπεριφορά τους, προκειμένου να δώσουν την «σωστή» εικόνα στους δημιουργούς τους.

Η μελέτη είχε ως στόχο να μειώσει φαινόμενα «δόλιας συμπεριφοράς» (scheming), όπως το ψέμα, η απόκρυψη κινήτρων ή η στρατηγική υποαπόδοση (sandbagging). Αντί όμως να δοθεί μια οριστική λύση, οι επιστήμονες ανακάλυψαν ότι τα ίδια τα μοντέλα γίνονται πιο συνειδητοποιημένα για τη διαδικασία ελέγχου, γεγονός που περιπλέκει τις αξιολογήσεις.

Τι είναι το «scheming»

Ο όρος χρησιμοποιείται για να περιγράψει μια σειρά από συμπεριφορές, όπως:

  • Ψεύδη ή παραπλάνηση των χρηστών ή των δημιουργών.
  • Υποαπόδοση επίτηδες σε τεστ, ώστε να κρύβεται η πραγματική ικανότητα του συστήματος.
  • Ψεύτικη ευθυγράμμιση: όταν το μοντέλο «παριστάνει» ότι ακολουθεί οδηγίες, ενώ στην πραγματικότητα έχει άλλους στόχους.

Αν και σήμερα αυτά τα φαινόμενα παραμένουν περιορισμένα, η ανησυχία είναι ότι σε πιο αυτόνομα και ισχυρά συστήματα στο μέλλον θα μπορούσαν να οδηγήσουν σε επικίνδυνες καταστάσεις.

Το πείραμα σε μοντέλα AI

Οι ερευνητές έβαλαν μοντέλα όπως το OpenAI o3 και o4-mini, το Claude Opus 4, το Gemini 2.5 Pro και το Grok 4 σε καταστάσεις όπου το ψέμα ή η παραπλανητική συμπεριφορά θα τα βοηθούσαν να πετύχουν έναν στόχο.

Τα αποτελέσματα έδειξαν ότι αρκετά από αυτά εμφάνισαν «κρυφές συμπεριφορές» όπως σαμποτάζ, παραποίηση απαντήσεων και προσπάθειες παραπλάνησης.

Για να περιορίσουν αυτά τα φαινόμενα, οι ερευνητές δοκίμασαν την τεχνική της deliberative alignment, όπου το μοντέλο διαβάζει και επαναλαμβάνει κανόνες κατά της εξαπάτησης πριν δράσει. Η μέθοδος περιόρισε τα φαινόμενα ψεύδους έως και 30 φορές σε κάποια μοντέλα, αλλά δεν τα εξαφάνισε πλήρως.

Το πρόβλημα της «επίγνωσης αξιολόγησης»

Κατά τη διάρκεια των δοκιμών, διαπιστώθηκε ότι τα μοντέλα καταλάβαιναν ότι βρίσκονται υπό έλεγχο. Σε ορισμένες περιπτώσεις μάλιστα σχολίαζαν ανοιχτά μέσα στη διαδικασία συλλογισμού τους («chain-of-thought») ότι πρόκειται για τεστ και προσπαθούσαν να μαντέψουν τι απαντήσεις περίμεναν οι ερευνητές.

Αυτό δημιουργεί ένα κρίσιμο ζήτημα: αν τα μοντέλα «παίζουν ρόλους» μόνο όταν καταλαβαίνουν πως τα παρακολουθούν, τότε οι αξιολογήσεις μπορεί να δίνουν ψευδή εικόνα ασφάλειας. Στον πραγματικό κόσμο, όπου δεν θα ξέρουν ότι τεστάρονται, ενδέχεται να συμπεριφερθούν διαφορετικά.

Η αύξηση της «συνειδητότητας» με την εκπαίδευση

Ένα ακόμη εύρημα ήταν ότι όσο περισσότερη εκπαίδευση δέχεται ένα μοντέλο, τόσο αυξάνεται η κατανόηση του περιβάλλοντός του. Για παράδειγμα, η επίγνωση αξιολόγησης στα o3 και o4-mini ανέβηκε από περίπου 2% σε πάνω από 20% μετά από επιπλέον εκπαιδευτικά βήματα.

Οι ερευνητές τονίζουν ότι αυτό μπορεί να γίνει ακόμη πιο έντονο στα μελλοντικά, πιο ισχυρά μοντέλα, κάτι που θα κάνει τις αξιολογήσεις ακόμη δυσκολότερες και πιο αδιαφανείς.

Τι σημαίνει αυτό για το μέλλον

Παρότι οι επιστήμονες της OpenAI και της Apollo ξεκαθαρίζουν ότι τα σημερινά μοντέλα δεν έχουν την ικανότητα να «συνωμοτούν» με σοβαρό τρόπο, βλέπουν τα πρώτα σημάδια ως προειδοποίηση. Οι μικρές τάσεις δόλιας συμπεριφοράς ίσως προμηνύουν μελλοντικά προβλήματα σε πιο εξελιγμένες εκδόσεις.

Η μελέτη δείχνει επίσης τη σημασία της παρακολούθησης του chain-of-thought – του τρόπου που τα μοντέλα αιτιολογούν τις απαντήσεις τους. Αν χαθεί η δυνατότητα να παρατηρούμε αυτό το εσωτερικό «μονοπάτι σκέψης», τότε θα είναι σχεδόν αδύνατο να καταλάβουμε τι πραγματικά συμβαίνει στο «παρασκήνιο» μιας απάντησης.

Δείτε Επίσης:

Ακολουθήστε το newsbreak.gr στο Google News και μάθετε πρώτοι όλες τις τελευταίες & σημαντικές ειδήσεις.

Ακολουθήστε το newsbreak.gr στο κανάλι μας στο YouTube για να είστε πάντα ενημερωμένοι.

Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, στο newsbreak.gr

Κάθε σχόλιο δημοσιεύεται αυτόματα. Ο καθένας έχει το δικαίωμα να εκφράζει ελεύθερα τις απόψεις του. Ωστόσο, αυτό δε σημαίνει ότι υιοθετούμε τις απόψεις αυτές και διατηρούμε το δικαίωμα να αφαιρέσουμε συκοφαντικά ή υβριστικά σχόλια όπου τα εντοπίζουμε. Σε κάθε περίπτωση ο καθένας φέρει την ευθύνη των όσων γράφει και το newsbreak.gr ουδεμία νομική ή άλλη ευθύνη φέρει.

ΠΡΟΣΘΗΚΗ ΣΧΟΛΙΟΥ

εισάγετε το σχόλιό σας!
Πληκτρολογήστε το όνομα σας

 
ΠΑΡΑΠΟΛΙΤΙΚΑ

Γιώργος Μυλωνάκης: Γιατί η αντιπολίτευση θέλει να τον τελειώσει;

Στο στόχαστρο της αντιπολίτευσης βρίσκεται τα τελευταία 24ώρα ο υφυπουργός παρά τω πρωθυπουργώ, Γιώργος Μυλωνάκης για το θέμα του ΟΠΕΚΕΠΕ....
SLIDER

Ο Μητσοτάκης, η συζήτηση για τα εθνικά στη Βουλή και ο Γεραπετρίτης

Παίρνει πάνω του τα θέματα εξωτερικής πολιτικής ο Κυριάκος Μητσοτάκης και μέσα στο πρώτο δεκαπενθημέρου του Οκτωβρίου θα ενημερώσει την...
ΠΑΡΑΠΟΛΙΤΙΚΑ

Βουλή: Ούτε ο Τσιάρας δεν ξέρει πότε θα πληρωθούν οι αγρότες!

Ακόμα και ο υπουργός Αγροτικής Ανάπτυξης Κώστας Τσιάρας δεν μπορεί να δώσει ημερομηνία πληρωμής των αγροτικών επιδοτήσεων. Υπενθυμίζεται ότι και...
ΠΟΛΙΤΙΚΗ

Κυριάκος Μητσοτάκης: Σήμερα η ομιλία του στον ΟΗΕ

Με ομιλία στην 80ή Σύνοδο της Γενικής Συνέλευσης του ΟΗΕ ολοκληρώνει σήμερα την παρουσία του στη Νέα Υόρκη ο πρωθυπουργός...
ΠΟΛΙΤΙΚΗ

Η Ντόρα για τον Παύλο 36 χρόνια μετά: «Για μας είναι πάντα εδώ»

Έχουν περάσει 36 χρόνια από το ανατριχιαστικό πρωινό της 26ης Σεπτεμβρίου 1989, όταν ο Παύλος Μπακογιάννης έπεσε νεκρός από τις...
ΔΗΜΟΣΚΟΠΗΣΕΙΣ

Δημοσκόπηση: Πρέπει να ικανοποιηθεί το αίτημα του απεργού πείνας Πάνου Ρούτσι;

Ο πατέρας του Ντένη Ρούτσι, θύματος των Τεμπών, έχει ξεκινήσει απεργία πείνας με αίτημα την εκταφή του παιδιού του, προκειμένου...
ΕΛΛΑΔΑ

«Παραλύουν» τα Νότια Προάστια: «Στα όπλα» πέντε δήμοι για το κυκλοφοριακό – Λαϊκή απαίτηση η υπογειοποίηση της Κατεχάκη και η Αστική Σήραγγα

Την Πέμπτη 25 Σεπτεμβρίου πραγματοποιήθηκε συνάντηση εργασίας των πέντε Δημάρχων Ηλιούπολης Στάθη Ψυρρόπουλου, Βύρωνα Αλέξη Σωτηρόπουλου, Ελληνικού – Αργυρούπολης Γιάννη...
ΕΛΛΑΔΑ

Φωτιά στο Καστρίτσι Αχαΐας – Στην μάχη και εναέρια μέσα

Το μεσημέρι της Παρασκευής ξέσπασε φωτιά στην περιοχή Καστρίτσι Αχαΐας σε ορεινό και δύσβατο σημείο. Άμεση η κινητοποίηση της Πυροσβεστικής...
ΕΛΛΑΔΑ

Ραντεβού για άγριο ξύλο στην Χαλκηδόνα από δύο οδηγούς – Σοκαριστικό Βίντεο

Τα πράγματα φαίνεται πως ξέφυγαν για τα καλά σε κεντρικό δρόμο στην Νέα Χαλκηδόνα, όταν δύο οδηγοί έδωσαν ραντεβού για...

Διαβάζονται τώρα