Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στην EMO

Ημερομηνία:

Ερευνητές του Ινστιτούτου Ευφυούς Υπολογισμού του Ομίλου Alibaba ανέπτυξαν ένα εργαλείο τεχνητής νοημοσύνης γνωστό ως EMO: Emote Portrait Alive, το οποίο ζωντανεύει τα πορτρέτα.

Το εργαλείο επιτρέπει στους χρήστες να προσθέτουν ήχο και βίντεο σε μια ακίνητη εικόνα. Χρησιμοποιώντας το εργαλείο, μπορεί κανείς να παίξει με ένα παλιό πορτρέτο, όπως το διάσημο La Gioconda του Leonardo da Vinci, πιο γνωστό ως Mona Lisa, κάνοντας την να μιλάει και να τραγουδά με πόζες κεφαλιού, κίνηση, εκφράσεις προσώπου και ακριβή συγχρονισμό χειλιών.

Εκφραστικό εργαλείο δημιουργίας πορτρέτου-βίντεο που βασίζεται στον ήχο

Στην έκθεσή τους, "EMO: Emote Portrait Alive: Δημιουργία εκφραστικών πορτραίτων βίντεο με μοντέλο διάχυσης ήχου 2 βίντεο υπό αδύναμες συνθήκες",  οι ερευνητές δίνουν πληροφορίες για το νέο τους εργαλείο, τις λειτουργίες του και τον τρόπο χρήσης του για τέλεια αποτελέσματα.

Με το εκφραστικό εργαλείο AI δημιουργίας πορτρέτων που βασίζεται στον ήχο, οι χρήστες μπορούν να δημιουργήσουν φωνητικά βίντεο avatar με εκφράσεις προσώπου. Σύμφωνα με τους ερευνητές, το εργαλείο τους επιτρέπει να δημιουργούν βίντεο οποιασδήποτε διάρκειας «ανάλογα με τη διάρκεια του ήχου εισόδου».

«Εισαγάγετε μια εικόνα μεμονωμένου χαρακτήρα και έναν φωνητικό ήχο, όπως το τραγούδι, και η μέθοδός μας μπορεί να δημιουργήσει φωνητικά βίντεο avatar με εκφραστικές εκφράσεις του προσώπου και διάφορες στάσεις κεφαλιού», είπαν οι ερευνητές.

«Η μέθοδός μας υποστηρίζει τραγούδια σε διάφορες γλώσσες και ζωντανεύει διαφορετικά στυλ πορτρέτου. Αναγνωρίζει διαισθητικά τις τονικές παραλλαγές στον ήχο, επιτρέποντας τη δημιουργία δυναμικών avatar με πλούσια έκφραση."

Διαβάστε επίσης: Η OpenAI ισχυρίζεται ότι οι New York Times «χάκαραν» το ChatGPT για να αναπτύξουν μια υπόθεση πνευματικών δικαιωμάτων

Μιλώντας, τραγουδώντας από πορτρέτο

Σύμφωνα με τους ερευνητές, το εργαλείο που τροφοδοτείται με τεχνητή νοημοσύνη δεν επεξεργάζεται μόνο μουσική αλλά φιλοξενεί και προφορικό ήχο σε διάφορες γλώσσες.

«Επιπλέον, η μέθοδός μας έχει τη δυνατότητα να ζωντανεύει πορτρέτα από περασμένες εποχές, πίνακες και τρισδιάστατα μοντέλα και περιεχόμενο που δημιουργείται από την τεχνητή νοημοσύνη, εμφυσώντας τους ρεαλιστική κίνηση και ρεαλισμό», είπαν οι ερευνητές.

Δεν τελειώνει όμως εκεί. Οι χρήστες μπορούν επίσης να παίξουν με πορτρέτα και εικόνες αστέρων του κινηματογράφου που παραδίδουν μονολόγους ή παραστάσεις σε διάφορα στυλ και γλώσσες.

Μερικοί λάτρεις της τεχνητής νοημοσύνης που ακολούθησαν την πλατφόρμα X την περιέγραψαν ως «συναρπαστική».

Αδυνατίζει το όριο μεταξύ πραγματικού και AI

Νέα του εργαλείου EMO από Alibaba έχει κάνει άλλους χρήστες να πιστεύουν ότι τα όρια μεταξύ τεχνητής νοημοσύνης και πραγματικότητας πρόκειται να εξαφανιστούν καθώς οι εταιρείες τεχνολογίας συνεχίζουν να απελευθερώνουν νέα προϊόντα.

«Η άκρη μεταξύ AI και real είναι πιο λεπτή από ποτέ», δημοσίευσε ο Ρούμπεν στο Χ, ενώ άλλοι πιστεύουν TikTok σύντομα θα πλημμυρίσει από τις δημιουργίες.

«Είναι η πρώτη φορά που βλέπω ένα τόσο ακριβές και ρεαλιστικό αποτέλεσμα. Βίντεο AI αυτή η χρονιά υπόσχεται να είναι αξιόπιστη», είπε Paul Covert.

Ενώ άλλοι πιστεύουν ότι αυτό θα μπορούσε να αλλάξει το παιχνίδι για τα δημιουργικά, ο Min Choi είναι επίσης προσεκτικός σχετικά με αυτό.

«Ελπίζω μόνο για δημιουργικά πράγματα. Αυτό μπορεί να είναι επικίνδυνο σε λάθος χέρια».

Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στην EMO

Χρησιμοποιώντας το εργαλείο

Εξηγώντας τη διαδικασία, οι ερευνητές τόνισαν ότι το πλαίσιο EMO έχει δύο στάδια, με το πρώτο γνωστό ως Frames Encoding, όπου το ReferenceNet αναπτύσσεται για την εξαγωγή χαρακτηριστικών από εικόνες αναφοράς και καρέ κίνησης.

Το επόμενο στάδιο είναι το στάδιο της διαδικασίας διάχυσης, όπου ένας προεκπαιδευμένος κωδικοποιητής ήχου "επεξεργάζεται την ενσωμάτωση ήχου". Για να δημιουργήσουν τέλειες εικόνες προσώπου, οι χρήστες ενσωματώνουν μάσκες περιοχής προσώπου και θόρυβο πολλαπλών καρέ.

«Αυτοί οι μηχανισμοί είναι απαραίτητοι για τη διατήρηση της ταυτότητας του χαρακτήρα και τη ρύθμιση των κινήσεων του χαρακτήρα, αντίστοιχα», αναφέρεται σε μέρος της εξήγησης.

"Επιπλέον, οι Timeoral Modules χρησιμοποιούνται για τον χειρισμό της χρονικής διάστασης και τη ρύθμιση της ταχύτητας κίνησης."

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?