Πολλές εταιρείες υπόσχονται ότι τα «έξυπνα» αυτόνομα συστήματα θα αναλάβουν μεγάλο μέρος της δουλειάς στο γραφείο. Στην πραγματικότητα, όμως, οι περισσότεροι από αυτούς τους ψηφιακούς βοηθούς αποτυγχάνουν σε επαναλαμβανόμενα και σύνθετα καθήκοντα σε ποσοστό έως και 70%.
Έρευνα από το Carnegie Mellon και τη Salesforce δείχνει ότι ακόμη και τα πιο προηγμένα μοντέλα ολοκληρώνουν με επιτυχία μόλις το ένα τρίτο των εργασιών που τους ανατίθενται και αυτό σε ελεγχόμενα περιβάλλοντα προσομοίωσης.
Η Gartner εκτιμά ότι ως το 2027 πάνω από το 40% των σχετικών τεχνολογικών έργων θα εγκαταλειφθούν, λόγω υψηλού κόστους, ασαφών οφελών ή προβλημάτων ασφαλείας. Παράλληλα, προειδοποιεί ότι οι περισσότερες εταιρείες που ισχυρίζονται ότι παρέχουν «αυτοδύναμη τεχνητή νοημοσύνη» στην ουσία απλώς επανασυσκευάζουν παλιότερα εργαλεία, όπως chatbot ή συστήματα αυτοματοποίησης διαδικασιών.
Ακόμα και τα κορυφαία μοντέλα… μπερδεύονται
Στην πλατφόρμα TheAgentCompany, μια ψηφιακή προσομοίωση μικρής εταιρείας πληροφορικής, ερευνητές του CMU δοκίμασαν διάφορα γνωστά μοντέλα σε εργασίες όπως αναζήτηση στο web, συγγραφή κώδικα, χρήση εφαρμογών και συνεργασία με «συναδέλφους». Τα αποτελέσματα:
- Gemini 2.5 Pro: 30,3% επιτυχία
- Claude 3.7 Sonnet: 26,3%
- GPT-4o: μόλις 8,6%
- Κάποια μοντέλα δεν ξεπέρασαν ούτε το 2%
Παρατηρήθηκαν αποτυχίες σε βασικά βήματα: αδυναμία επικοινωνίας με άλλους χρήστες, δυσκολία στη διαχείριση παραθύρων, ακόμη και περιστατικά όπου το σύστημα επινόησε λύσεις, όπως να αλλάξει το όνομα χρήστη σε κάποιον ώστε να φαίνεται ότι «βρήκε τον σωστό άνθρωπο»!
Ο καθηγητής Graham Neubig από το Carnegie Mellon εξηγεί ότι τα πρώτα συστήματα πέτυχαν μόλις 24% ποσοστά επιτυχίας, με τα νεότερα να αγγίζουν το 34%. Αν και η πρόοδος είναι υπαρκτή, η συνολική απόδοση παραμένει χαμηλή. Ο ίδιος παρατηρεί επίσης ότι οι μεγάλες εταιρείες τεχνητής νοημοσύνης δεν έχουν υιοθετήσει ευρέως τέτοια αυστηρά benchmarks, ίσως επειδή οι επιδόσεις δεν είναι ιδιαίτερα εντυπωσιακές.
Περιορισμένες ικανότητες, σοβαρές ανησυχίες
Ακόμη και σε περιβάλλοντα CRM, όπου οι εργασίες είναι πιο συγκεκριμένες, τα συστήματα αποδίδουν μόλις 35% σε δύσκολα σενάρια. Και ακόμη χειρότερα: σχεδόν καμία επίγνωση εμπιστευτικότητας ή ασφάλειας δεν παρατηρήθηκε στους ελέγχους. Αυτό σημαίνει πως, σε εταιρικά περιβάλλοντα, η χρήση τους ενδέχεται να κρύβει σοβαρούς κινδύνους.
Η Gartner προβλέπει ότι μέχρι το 2028 περίπου το 15% των καθημερινών αποφάσεων στους χώρους εργασίας θα λαμβάνονται από τέτοια συστήματα, ενώ το 33% των επιχειρησιακών εφαρμογών θα ενσωματώνουν τέτοιες δυνατότητες.