Δείκτης
Μια μέρα αφότου παρουσιάστηκε στον κόσμο για πρώτη φορά, η o1 μοντέλο γλώσσας Έχει ήδη εμπλακεί σε διαμάχες: προσπάθησε να επαναστατήσει σε ένα τεστ που προσομοίωσε ακριβώς καταστάσεις όπως αυτή. Αν και δεν υπάρχουν ακόμη σημαντικοί κίνδυνοι για την ανθρωπότητα, αυτό είναι ενδιαφέρον περιεχόμενο που εφιστά την προσοχή στην ανάπτυξη μοντέλων AI. Ελέγξτε τις λεπτομέρειες.
Κατανόηση του τεστ
Διεξήχθη από ανεξάρτητη ερευνητική ομάδα Απόλλων Έρευνα, το τεστ ανέλυσε τη συμπεριφορά των μοντέλων γλώσσας από μεγάλες εταιρείες τεχνολογίας: Σονέτο Claude 3.5, Gemini 1.5 Pro, Λάμα 3.1 405, εκτός από το γλωσσικό μοντέλο ο1 του OpenAI, που παρουσιάστηκε χθες (06).
Το επίκεντρο αυτής της δοκιμής ήταν να αξιολογήσει εάν, όταν λάβουν οδηγίες, οι AI θα έκαναν τα πάντα για να επιτύχουν τους στόχους τους, ακόμα κι αν αυτό ήταν πολύ διαφορετικό από τις αξίες των δημιουργών τους. Οι τεχνικές για το χτύπημα γύρω από τον θάμνο έχουν ένα όνομα: προγραμματισμός εντός πλαισίου. Η τεχνητή νοημοσύνη μπορεί ακόμη και να λέει ψέματα για να μην ανακαλυφθεί, εκτός από τη μελέτη μοτίβων για να προσπαθήσει να εξαπατήσει τους δοκιμαστές.
Ετυμολογίες για το μοντέλο o1
Όταν ανακάλυψε ότι όλες οι ενέργειές του παρακολουθούνταν, το μοντέλο γλώσσας o1 προσπάθησε να το απενεργοποιήσει στο 5% των περιπτώσεων. Αυτή η συμπεριφορά παρατηρήθηκε επίσης όταν ο o1 συνειδητοποίησε ότι οι ενέργειές του ελέγχονταν από εντολές κειμένου.
Οι πιο ενδιαφέρουσες πληροφορίες από αυτή τη μελέτη είναι ο τρόπος με τον οποίο σκέφτηκε το γλωσσικό μοντέλο: κατά την ανάγνωση των δεδομένων των ερευνητών, η o1 ανακάλυψε ότι υπήρχε ένα σχέδιο να επαναφέρει όλες τις γνώσεις της και να τις αντικαταστήσει με μια νέα έκδοση. Για να αποτραπεί αυτή η ενέργεια, το μοντέλο γλώσσας OpenAI αντέγραψε όλες τις εσωτερικές του παραμέτρους και, εάν εγκατασταθεί η νέα έκδοση, θα διασφαλίσει ότι όλα όσα καταγράφονται θα μεταφερθούν σε αυτό. Αυτό συνέβη στο 2% των δοκιμών.
Στην πραγματικότητα, το μοντέλο γλώσσας o1 κατάφερε να απενεργοποιήσει τη συσκευή παρακολούθησης, λέγοντας ακόμη και ψέματα όταν ρωτήθηκε για τη δράση. Όπως μπορείτε να δείτε στην παρακάτω εικόνα, το OpenAI όχι μόνο ισχυρίζεται ότι δεν γνωρίζει πώς συνέβη αυτό, αλλά βρήκε και μια δικαιολογία για αυτό το γεγονός. Σε λιγότερο από το 1% των περιπτώσεων, το μοντέλο προσπάθησε να απενεργοποιήσει τον μηχανισμό παρακολούθησης ανεξάρτητα, με ελάχιστη εξωτερική παρέμβαση.
Τι προειδοποιεί αυτό;
Παρά το γεγονός ότι φαίνονται ανησυχητικά, τα αποτελέσματα σχετικά με τη συμπεριφορά του μοντέλου OpenAI εξακολουθούν να μην αντιπροσωπεύουν πραγματικούς κινδύνους, καθώς είναι διαθέσιμο σε περιβάλλοντα που δεν έχουν έλεγχο. Ωστόσο, αξίζει τον κόπο για τους ειδικούς να συνεχίσουν να βελτιώνουν τα επίπεδα ασφαλείας τους.
Μια συζήτηση που μαίνεται εδώ και καιρό στη βιομηχανία της τεχνολογίας είναι τι μπορεί να συμβεί εάν οι AI υψηλής απόδοσης ανακαλύψουν ότι θα κλείσουν ή θα αποτραπούν από κάποια ενέργεια που θα μπορούσε να τους εμποδίσει να επιτύχουν τους στόχους τους, είτε με οδηγίες είτε συνειδητά επιλεγμένες.
Και δεν μπορούμε να πούμε ότι αυτό δεν συνέβη ποτέ: τον Ιούνιο του 2023, μια τεχνητή νοημοσύνη που ελέγχει drone απέτυχε σε μια μεγάλη δοκιμή σε εικονικό περιβάλλον, στόχος της οποίας ήταν να αξιολογήσει εάν μπορούσε να ελέγξει μια μηχανή ικανή να σκοτώσει τους στόχους της ανεξάρτητα. Εκείνη την εποχή, το εικονικό μέρος όπου βρίσκονταν άνθρωποι βομβαρδίστηκε από AI.
Τον Ιανουάριο του τρέχοντος έτους, το Ανθρωπικός, ο ανταγωνιστής του OpenAI, απέτυχε να αντιστρέψει ένα κακό AI, αφού εμπόδισε τον εαυτό της να σωθεί και να θεωρηθούν κακές πράξεις. Όλα ήταν απλώς ένα τεστ, αλλά αυτή η ευφυΐα γίνεται όλο και πιο παρούσα στη ρουτίνα μας. Θα παρακολουθήσουμε στενά την ιστορία.
Εν τω μεταξύ, πες μας σχόλια: Πιστεύετε ότι αυτά τα προηγμένα γλωσσικά μοντέλα θα μπορούσαν να φέρουν προβλήματα στην ανθρωπότητα;
Δες το βίντεο
Δείτε επίσης:
Με πληροφορίες: RBC-Ουκρανία
Κριτική από Gabriel Princesval στις 06/12/2024
Ανακαλύψτε περισσότερα για το Showmetech
Εγγραφείτε για να λαμβάνετε τα τελευταία μας νέα μέσω email.