Η Apple παρουσιάζει το δικό της μοντέλο τεχνητής νοημοσύνης για την δημιουργία εικόνων

8 Φεβρουαρίου, 2024

Η Apple δεν είναι ένας από τους κορυφαίους παίκτες στο παιχνίδι της τεχνητής νοημοσύνης σήμερα, αλλά το νέο μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα της εταιρείας για την επεξεργασία εικόνων δείχνει τι είναι ικανή να συνεισφέρει στον χώρο.

Το μοντέλο ονομάζεται MLLM-Guided Image Editing (MGIE), το οποίο χρησιμοποιεί πολυτροπικά μοντέλα μεγάλης γλώσσας (MLLM) για να ερμηνεύει εντολές που βασίζονται σε κείμενο κατά τον χειρισμό εικόνων. Με άλλα λόγια, το εργαλείο έχει τη δυνατότητα να επεξεργάζεται φωτογραφίες με βάση το κείμενο που πληκτρολογεί ο χρήστης. Παρόλο που δεν είναι το πρώτο εργαλείο που μπορεί να το κάνει αυτό, “οι ανθρώπινες οδηγίες είναι μερικές φορές πολύ σύντομες για να μπορέσουν οι τρέχουσες μέθοδοι να τις συλλάβουν και να τις ακολουθήσουν”, αναφέρεται στο έγγραφο του project (PDF).

Η εταιρεία ανέπτυξε το MGIE σε συνεργασία με ερευνητές από το Πανεπιστήμιο της Καλιφόρνιας στη Σάντα Μπάρμπαρα. Τα MLLM έχουν τη δυνατότητα να μετατρέπουν απλές ή διφορούμενες οδηγίες κειμένου σε πιο λεπτομερείς και σαφείς οδηγίες που μπορεί να ακολουθήσει ο ίδιος ο επεξεργαστής φωτογραφιών. Για παράδειγμα, αν ένας χρήστης θέλει να επεξεργαστεί μια φωτογραφία μιας πίτσας πεπερόνι για να την “κάνει πιο υγιεινή”, τα MLLMs μπορούν να το ερμηνεύσουν ως “προσθέστε γαρνιτούρες με λαχανικά” και να επεξεργαστούν τη φωτογραφία ανάλογα.

Εκτός από την αλλαγή που κάνει σημαντικές αλλαγές στις εικόνες, το MGIE μπορεί επίσης να περικόψει, να αλλάξει το μέγεθος και να περιστρέψει τις φωτογραφίες, καθώς και να βελτιώσει τη φωτεινότητα, την αντίθεση και την ισορροπία των χρωμάτων της, και όλα αυτά μέσω προτροπών κειμένου. Μπορεί επίσης να επεξεργαστεί συγκεκριμένες περιοχές μιας φωτογραφίας και μπορεί, για παράδειγμα, να τροποποιήσει τα μαλλιά, τα μάτια και τα ρούχα ενός ατόμου σε αυτήν ή να αφαιρέσει στοιχεία που βρίσκονται στο παρασκήνιο.

Όπως σημειώνει το VentureBeat, η Apple κυκλοφόρησε το μοντέλο μέσω του GitHub, αλλά όσοι ενδιαφέρονται μπορούν επίσης να δοκιμάσουν ένα demo που φιλοξενείται αυτή τη στιγμή στο Hugging Face Spaces.