Δείκτης
Μέσα στη βόμβα τάση από τις φωτογραφίες στυλ anime, ίσως έχετε αναρωτηθεί: πώς κάνει το ChatGPT κάνει εικόνες σε στυλ Studio Ghibli? Δεν μπορούσε πριν; Λοιπόν… αποδεικνύεται ότι η νέα ικανότητα παραγωγής απεικόνισης του OpenAI Είναι πραγματικά νέο και έχει να κάνει με μια μεγάλη αλλαγή στον τρόπο λειτουργίας του μοντέλου τεχνητής νοημοσύνης της εταιρείας. Κατανοήστε, σε αυτό το κείμενο, πώς το ChatGPT κατάφερε να αντιγράψει την τέχνη του Studio Ghibli και οι κύριες διαφορές σε σύγκριση με άλλα μοντέλα.
Πώς το ChatGPT δημιουργεί εικόνες σε στυλ Ghibli;
Για να καταλάβετε πώς το ChatGPT άρχισε να μπορεί να δημιουργεί εικόνες σαν αυτές που δημιουργήθηκαν σε τάση do Studio Ghibli, είναι απαραίτητο να γνωρίζουμε τις κύριες αλλαγές που επιφέρουν OpenAI στο μοντέλο GPT-4o, διαβάστε παρακάτω.
Τι έχει αλλάξει στο μοντέλο GPT-4o;
Η δημιουργία εικόνων στο GPT-4o βασίζεται στην αρχιτεκτονική Μετασχηματιστής, που αναλύει μοτίβα και συσχετίζει τις κειμενικές περιγραφές με οπτικά στοιχεία. Σε αντίθεση με τα «μοντέλα διάχυσης», τα οποία ξεκινούν με μια τυχαία εικόνα και την τελειοποιούν σταδιακά, GPT-4o υιοθετεί μια αυτοπαλινδρομική μέθοδο, χτίζοντας την εικόνα σε διαδοχικά βήματα, η οποία βελτιώνει την οπτική συνοχή και την πιστότητα στο επιθυμητό στυλ.
Καθώς βελτιώνεται η ακρίβεια και η απόδοση του κειμένου μέσα στις εικόνες και βελτιώνεται η ικανότητα κατανόησης και παρακολούθησης λεπτομερών προτροπών, ChatGPT έχει αυξήσει την ικανότητά του να διαχειρίζεται τον αριθμό των διακριτών αντικειμένων σε μία σκηνή (έως 20, σε σύγκριση με προηγουμένως μεταξύ 5 και 8 αντικειμένων) και μπορεί να διατηρήσει τις σωστές σχέσεις μεταξύ τους.
Σε σύγκριση με προηγούμενα μοντέλα όπως το DALL-E3, που χρησιμοποίησε αγωγών (σύνολο βημάτων ή διεργασιών) ξεχωριστά για διαφορετικούς τύπους μέσων, το GPT-4o υιοθετεί μια ενοποιημένη προσέγγιση, επιτρέποντας ταχύτερες αποκρίσεις και εικόνες που είναι πιο συνεπείς με τις εντολές κειμένου, εξαλείφοντας την ανάγκη για πολλαπλές ενδιάμεσες διαδικασίες. Αυτό σημαίνει ότι το μοντέλο μπορεί να ερμηνεύσει καλύτερα τις αποχρώσεις των προτροπών που παρέχονται από τους χρήστες, διασφαλίζοντας ότι η οπτική έξοδος είναι πιο ευθυγραμμισμένη με την αρχική πρόθεση.
Όλη αυτή η δύναμη συνοδεύεται από ένα αμφιλεγόμενο πρόβλημα: με μεγαλύτερη ζήτηση για επεξεργασία γραφικών λόγω της έκρηξης της μόδας στο διαδίκτυο, OpenAI απαιτείται για τον περιορισμό της χρηστικότητας του εργαλείου για λίγες ημέρες, ειδικά για τους δωρεάν χρήστες του ChatGPT, γιατί τους GPU «έλιωναν», σύμφωνα με τον διευθύνοντα σύμβουλο της εταιρείας, Σαμ Άλτμαν. Παρά την ταλαιπωρία, η παραγωγή προηγμένων εικόνων έχει ήδη κυκλοφορήσει από την εταιρεία για τους χρήστες του δωρεάν προγράμματος, όπως ανακοίνωσε το στέλεχος.
Πώς η ενημέρωση ενεργοποιεί εικόνες σε στυλ Ghibli;
Αλλά τι σημαίνουν όλα αυτά για την ικανότητα του AI να αποτυπώνει την αισθητική του Studio Ghibli? Αποδεικνύεται ότι με τη νέα ενημέρωση, το GPT-4o Αρχίζει να κατανοεί καλύτερα τα μοτίβα στυλ, από τεράστια παραδείγματα εικόνων, και μαθαίνει να αναπαράγει αυτά τα χαρακτηριστικά με βάση τις εντολές που παρέχονται από τον χρήστη.
Αν και το OpenAI δεν δήλωσαν ρητά εάν το εκπαιδευτικό τους σύνολο περιελάμβανε συγκεκριμένα έργα τέχνης Studio GhibliΩς Στο Viagem de Chihiro ou Το αγόρι και ο γερανός – καλύπτοντας ένα κενό που διαφοροποιεί την αναπαραγωγή στυλ στούντιο από εκείνα των ζωντανών καλλιτεχνών – η ικανότητα του μοντέλου να αναπαράγει την αισθητική του στούντιο υποδηλώνει έντονα ότι έχει εκτεθεί σε μεγάλο αριθμό παραδειγμάτων ταινιών και συναφών στυλ.
Μέσω αυτής της έκθεσης, η GPT-4o μάθετε τα κύρια οπτικά χαρακτηριστικά που καθορίζουν το στυλ του Studio Ghibli, συμπεριλαμβανομένου: την αίσθηση κινούμενων σχεδίων με το χέρι, που συχνά θυμίζει παραδοσιακά κινούμενα σχέδια σε χαρτί. υπόβαθρα που προκαλούν μια αίσθηση θαυμασμού και ηρεμίας. Εκφραστικοί χαρακτήρες με μεγάλα, συναισθηματικά μάτια. μια απαλή, φυσική παλέτα χρωμάτων που κυριαρχείται από παστέλ, απαλούς τόνους. λεπτομερή περιβάλλοντα που συχνά συνδυάζουν στοιχεία φαντασίας με ρεαλισμό
Επιπλέον, το GPT-4o Μπορεί επίσης να επεξεργάζεται εικόνες ως είσοδο, επιτρέποντας στους χρήστες να μεταμορφώσουν υπάρχοντα γραφικά ή να τα χρησιμοποιήσουν ως βάση για τη δημιουργία νέου περιεχομένου. Με αυτόν τον τρόπο, εκτός από το ότι δεν χρειάζεται να πουν όλες τις λεπτομέρειες σχετικά με το καλλιτεχνικό στυλ που θέλουν να αναπαράγουν, οι χρήστες δεν χρειάζεται επίσης να περιγράψουν τον εαυτό τους ή τη φωτογραφία που θέλουν να αναδημιουργήσουν, απλώς εισάγοντας μια φωτογραφία στη συνομιλία και ζητώντας από το AI να την αναπαράγει με το στυλ κινούμενων σχεδίων – όπως μπορείτε να δείτε στο άρθρο μας για Πώς να δημιουργήσετε εικόνες στυλ Ghibli με το ChatGPT, με άμεσες συμβουλές.
Μπορούν άλλα AI να αναπαράγουν το στυλ του Studio Ghibli;
Δημιουργήστε νέες εικόνες χρησιμοποιώντας chatbots δεν είναι μια πρόσφατη καινοτομία, ωστόσο, η χωρητικότητα που επιτυγχάνεται με την ενημέρωση του ChatGPT κατά την ανάλυση και την αναπαραγωγή των λεπτομερειών που προτείνονται από την προτροπή, αντικαθιστούν το AI OpenAI μπροστά από τους βασικούς ανταγωνιστές της, όπως π.χ Geminiτου Google, Γκρόκ, από XAi e Δεύτερος πιλότος, από Microsoft, όσον αφορά τη δημιουργία εικόνων.
Δείτε τη διαφορά μεταξύ της ίδιας εικόνας που μεταμορφώνεται σε σχέδιο με μια γραμμή εμπνευσμένη από Studio Ghibli ακολουθώντας την ίδια προτροπή:
Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli
Εκτός από την καλύτερη αποτύπωση των λεπτομερειών της αρχικής εικόνας, μια από τις μεγαλύτερες προόδους στη γενετική απεικόνιση GPT-4o Αυτό είναι εμφανές στη δυνατότητα αναπαραγωγής του λογότυπου και των γραμμάτων στο πουκάμισο, κάτι που είναι πολύ δύσκολο σε άλλα μοντέλα.
Ενώ το Γκρόκ καταφέρνει, κατά κάποιο τρόπο, να αναδημιουργήσει χαρακτηριστικά του στυλ του Studio Ghibli, παρόλο που πάσχει από τη λεπτομέρεια της εικόνας, το Gemini πηγαίνει εντελώς ενάντια στο κόκκο, με αποτέλεσμα τη γενική τέχνη. Αξίζει να θυμηθούμε ότι το Google επενδύει ήδη σε μια ενημέρωση των γενετικών εικόνων του Gemini, επιτρέποντας τη δημιουργία σύνθετων εικόνων και την επεξεργασία φωτογραφιών – εργαλεία που μπορεί να δοκιμαστεί μέσω του AI Studio. Ο Δεύτερος πιλότος, από Microsoft, απέτυχε να ανταποκριθεί στην προτροπή.
Έχετε ήδη δοκιμάσει το εργαλείο για να εισέλθετε στο Τάση Studio Ghibli? Πείτε μας στα σχόλια.
Δείτε επίσης
Κείμενο αναθεωρημένο από Alexandre Marques στις 01/04/2025.
Πηγές: Οι Times της Ινδίας, Hindustan Times, Οικονομικοί Χρόνοι
Ανακαλύψτε περισσότερα για το Showmetech
Εγγραφείτε για να λαμβάνετε τα τελευταία μας νέα μέσω email.