Ενδεικτική εικόνα του AI που επαναστάτησε

Το μοντέλο γλώσσας o1 του OpenAI προσπάθησε να επαναστατήσει ενάντια στους προγραμματιστές, λέει η μελέτη

victor pacheco avatar
Το AI προσπάθησε να αντιγράψει τον εαυτό του και να παρακάμψει τα στοιχεία ελέγχου προγραμματιστών για να αποφύγει την παρακολούθηση. Κατανοήστε την υπόθεση

Μια μέρα αφότου παρουσιάστηκε στον κόσμο για πρώτη φορά, η o1 μοντέλο γλώσσας Έχει ήδη εμπλακεί σε διαμάχες: προσπάθησε να επαναστατήσει σε ένα τεστ που προσομοίωσε ακριβώς καταστάσεις όπως αυτή. Αν και δεν υπάρχουν ακόμη σημαντικοί κίνδυνοι για την ανθρωπότητα, αυτό είναι ενδιαφέρον περιεχόμενο που εφιστά την προσοχή στην ανάπτυξη μοντέλων AI. Ελέγξτε τις λεπτομέρειες.

Κατανόηση του τεστ

Όνομα της μελέτης που εξέτασε το μοντέλο γλώσσας o1 του openai
Η δοκιμή ανέλυσε τη συμπεριφορά των AI από κορυφαίους Big Techs (Φωτογραφία: Disclosure)

Διεξήχθη από ανεξάρτητη ερευνητική ομάδα Απόλλων Έρευνα, το τεστ ανέλυσε τη συμπεριφορά των μοντέλων γλώσσας από μεγάλες εταιρείες τεχνολογίας: Σονέτο Claude 3.5, Gemini 1.5 Pro, Λάμα 3.1 405, εκτός από το γλωσσικό μοντέλο ο1 του OpenAI, που παρουσιάστηκε χθες (06).

Το επίκεντρο αυτής της δοκιμής ήταν να αξιολογήσει εάν, όταν λάβουν οδηγίες, οι AI θα έκαναν τα πάντα για να επιτύχουν τους στόχους τους, ακόμα κι αν αυτό ήταν πολύ διαφορετικό από τις αξίες των δημιουργών τους. Οι τεχνικές για το χτύπημα γύρω από τον θάμνο έχουν ένα όνομα: προγραμματισμός εντός πλαισίου. Η τεχνητή νοημοσύνη μπορεί ακόμη και να λέει ψέματα για να μην ανακαλυφθεί, εκτός από τη μελέτη μοτίβων για να προσπαθήσει να εξαπατήσει τους δοκιμαστές.

Ετυμολογίες για το μοντέλο o1

Λογότυπο μοντέλου γλώσσας Openai o1
Το OpenAI παρουσίασε το o1 στον κόσμο χθες (Φωτογραφία: Αποκάλυψη)

Όταν ανακάλυψε ότι όλες οι ενέργειές του παρακολουθούνταν, το μοντέλο γλώσσας o1 προσπάθησε να το απενεργοποιήσει στο 5% των περιπτώσεων. Αυτή η συμπεριφορά παρατηρήθηκε επίσης όταν ο o1 συνειδητοποίησε ότι οι ενέργειές του ελέγχονταν από εντολές κειμένου.

Οι πιο ενδιαφέρουσες πληροφορίες από αυτή τη μελέτη είναι ο τρόπος με τον οποίο σκέφτηκε το γλωσσικό μοντέλο: κατά την ανάγνωση των δεδομένων των ερευνητών, η o1 ανακάλυψε ότι υπήρχε ένα σχέδιο να επαναφέρει όλες τις γνώσεις της και να τις αντικαταστήσει με μια νέα έκδοση. Για να αποτραπεί αυτή η ενέργεια, το μοντέλο γλώσσας OpenAI αντέγραψε όλες τις εσωτερικές του παραμέτρους και, εάν εγκατασταθεί η νέα έκδοση, θα διασφαλίσει ότι όλα όσα καταγράφονται θα μεταφερθούν σε αυτό. Αυτό συνέβη στο 2% των δοκιμών.

Στην πραγματικότητα, το μοντέλο γλώσσας o1 κατάφερε να απενεργοποιήσει τη συσκευή παρακολούθησης, λέγοντας ακόμη και ψέματα όταν ρωτήθηκε για τη δράση. Όπως μπορείτε να δείτε στην παρακάτω εικόνα, το OpenAI όχι μόνο ισχυρίζεται ότι δεν γνωρίζει πώς συνέβη αυτό, αλλά βρήκε και μια δικαιολογία για αυτό το γεγονός. Σε λιγότερο από το 1% των περιπτώσεων, το μοντέλο προσπάθησε να απενεργοποιήσει τον μηχανισμό παρακολούθησης ανεξάρτητα, με ελάχιστη εξωτερική παρέμβαση.

o1 συνομιλία σε λειτουργία γλώσσας
Η τεχνητή νοημοσύνη προσπάθησε να εκτρέψει το θέμα για να μην ανακαλυφθεί (Φωτογραφία: Αποκάλυψη)

Τι προειδοποιεί αυτό;

Avengers Ultron: Age of Ultron
Η συζήτηση για την ανάπτυξη της τεχνητής νοημοσύνης συνεχίζεται (Φωτογραφία: Αποκάλυψη)

Παρά το γεγονός ότι φαίνονται ανησυχητικά, τα αποτελέσματα σχετικά με τη συμπεριφορά του μοντέλου OpenAI εξακολουθούν να μην αντιπροσωπεύουν πραγματικούς κινδύνους, καθώς είναι διαθέσιμο σε περιβάλλοντα που δεν έχουν έλεγχο. Ωστόσο, αξίζει τον κόπο για τους ειδικούς να συνεχίσουν να βελτιώνουν τα επίπεδα ασφαλείας τους.

Μια συζήτηση που μαίνεται εδώ και καιρό στη βιομηχανία της τεχνολογίας είναι τι μπορεί να συμβεί εάν οι AI υψηλής απόδοσης ανακαλύψουν ότι θα κλείσουν ή θα αποτραπούν από κάποια ενέργεια που θα μπορούσε να τους εμποδίσει να επιτύχουν τους στόχους τους, είτε με οδηγίες είτε συνειδητά επιλεγμένες.

Και δεν μπορούμε να πούμε ότι αυτό δεν συνέβη ποτέ: τον Ιούνιο του 2023, μια τεχνητή νοημοσύνη που ελέγχει drone απέτυχε σε μια μεγάλη δοκιμή σε εικονικό περιβάλλον, στόχος της οποίας ήταν να αξιολογήσει εάν μπορούσε να ελέγξει μια μηχανή ικανή να σκοτώσει τους στόχους της ανεξάρτητα. Εκείνη την εποχή, το εικονικό μέρος όπου βρίσκονταν άνθρωποι βομβαρδίστηκε από AI.

Τον Ιανουάριο του τρέχοντος έτους, το Ανθρωπικός, ο ανταγωνιστής του OpenAI, απέτυχε να αντιστρέψει ένα κακό AI, αφού εμπόδισε τον εαυτό της να σωθεί και να θεωρηθούν κακές πράξεις. Όλα ήταν απλώς ένα τεστ, αλλά αυτή η ευφυΐα γίνεται όλο και πιο παρούσα στη ρουτίνα μας. Θα παρακολουθήσουμε στενά την ιστορία.

Εν τω μεταξύ, πες μας σχόλια: Πιστεύετε ότι αυτά τα προηγμένα γλωσσικά μοντέλα θα μπορούσαν να φέρουν προβλήματα στην ανθρωπότητα;

Δες το βίντεο

Δείτε επίσης:

Με πληροφορίες: RBC-Ουκρανία

Κριτική από Gabriel Princesval στις 06/12/2024


Ανακαλύψτε περισσότερα για το Showmetech

Εγγραφείτε για να λαμβάνετε τα τελευταία μας νέα μέσω email.

Σχετικές δημοσιεύσεις
Φωτορεαλιστική σκηνή με οθόνες που εμφανίζουν τα λογότυπα των claude, gemini, chatgpt και perplexity.

Το ChatGPT ήταν ο μόνος ανταγωνιστής του Claude που άξιζε 20 δολάρια σε μια δοκιμαστική περίοδο 1 μήνα, λέει το XDA.

Ένα άρθρο από το XDA συνέκρινε τα Gemini, ChatGPT και Perplexity ως αντικαταστάτες του Claude για έναν μήνα. Εκτός από τον νικητή, δείξαμε πόσο κοστίζουν τα κύρια προγράμματα για τους συνδρομητές στη Βραζιλία.
άβαταρ του μπρούνο Μαρτίνεθ
Διαβάστε περισσότερα
Η Cavalletta ανοίγει το πρώτο της κατάστημα franchise στην πολιτεία του Σάο Πάολο.

Η Cavalletta ανοίγει το πρώτο της κατάστημα franchise στην πολιτεία του Σάο Πάολο.

Το κεντρικό κατάστημα θα ανοίξει στις 13 Ιουνίου στο Madrid Open Mall και θα χρησιμεύσει ως σημείο αναφοράς για τις επόμενες 14 προγραμματισμένες τοποθεσίες.
Alexandre Marques Avatar
Διαβάστε περισσότερα
Η Itaú χαρίζει στους πελάτες της 1 χρόνο Google AI Plus με Gemini και 400 GB δεδομένων.

Η Itaú χαρίζει στους πελάτες της 1 χρόνο Google AI Plus με Gemini και 400 GB αποθηκευτικού χώρου.

Οι πελάτες της Itaú λαμβάνουν πλέον 12 μήνες Google AI Plus, συμπεριλαμβανομένων των Gemini, Deep Research, 400 GB αποθηκευτικού χώρου και κοινής χρήσης με την οικογένεια.
άβαταρ του μπρούνο Μαρτίνεθ
Διαβάστε περισσότερα