Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στο EMO

Ερευνητές του Ινστιτούτου Ευφυούς Υπολογισμού του Ομίλου Alibaba ανέπτυξαν ένα εργαλείο τεχνητής νοημοσύνης γνωστό ως EMO: Emote Portrait Alive, το οποίο ζωντανεύει τα πορτρέτα.

Το εργαλείο επιτρέπει στους χρήστες να προσθέτουν ήχο και βίντεο σε μια ακίνητη εικόνα. Χρησιμοποιώντας το εργαλείο, μπορεί κανείς να παίξει με ένα παλιό πορτρέτο, όπως το διάσημο La Gioconda του Leonardo da Vinci, πιο γνωστό ως Mona Lisa, κάνοντας την να μιλάει και να τραγουδά με πόζες κεφαλιού, κίνηση, εκφράσεις προσώπου και ακριβή συγχρονισμό χειλιών.

Εκφραστικό εργαλείο δημιουργίας πορτρέτου-βίντεο που βασίζεται στον ήχο

Στην έκθεσή τους, "EMO: Emote Portrait Alive: Δημιουργία εκφραστικών πορτραίτων βίντεο με μοντέλο διάχυσης ήχου 2 βίντεο υπό αδύναμες συνθήκες", οι ερευνητές δίνουν πληροφορίες για το νέο τους εργαλείο, τις λειτουργίες του και τον τρόπο χρήσης του για τέλεια αποτελέσματα.

Με το εκφραστικό εργαλείο AI δημιουργίας πορτρέτων που βασίζεται στον ήχο, οι χρήστες μπορούν να δημιουργήσουν φωνητικά βίντεο avatar με εκφράσεις προσώπου. Σύμφωνα με τους ερευνητές, το εργαλείο τους επιτρέπει να δημιουργούν βίντεο οποιασδήποτε διάρκειας «ανάλογα με τη διάρκεια του ήχου εισόδου».

«Εισαγάγετε μια εικόνα μεμονωμένου χαρακτήρα και έναν φωνητικό ήχο, όπως το τραγούδι, και η μέθοδός μας μπορεί να δημιουργήσει φωνητικά βίντεο avatar με εκφραστικές εκφράσεις του προσώπου και διάφορες στάσεις κεφαλιού», είπαν οι ερευνητές.

«Η μέθοδός μας υποστηρίζει τραγούδια σε διάφορες γλώσσες και ζωντανεύει διαφορετικά στυλ πορτρέτου. Αναγνωρίζει διαισθητικά τις τονικές παραλλαγές στον ήχο, επιτρέποντας τη δημιουργία δυναμικών avatar με πλούσια έκφραση."

Διαβάστε επίσης: Η OpenAI ισχυρίζεται ότι οι New York Times «χάκαραν» το ChatGPT για να αναπτύξουν μια υπόθεση πνευματικών δικαιωμάτων

Μιλώντας, τραγουδώντας από πορτρέτο

Σύμφωνα με τους ερευνητές, το εργαλείο που τροφοδοτείται με τεχνητή νοημοσύνη δεν επεξεργάζεται μόνο μουσική αλλά φιλοξενεί και προφορικό ήχο σε διάφορες γλώσσες.

«Επιπλέον, η μέθοδός μας έχει τη δυνατότητα να ζωντανεύει πορτρέτα από περασμένες εποχές, πίνακες και τρισδιάστατα μοντέλα και περιεχόμενο που δημιουργείται από την τεχνητή νοημοσύνη, εμφυσώντας τους ρεαλιστική κίνηση και ρεαλισμό», είπαν οι ερευνητές.

Δεν τελειώνει όμως εκεί. Οι χρήστες μπορούν επίσης να παίξουν με πορτρέτα και εικόνες αστέρων του κινηματογράφου που παραδίδουν μονολόγους ή παραστάσεις σε διάφορα στυλ και γλώσσες.

Μερικοί λάτρεις της τεχνητής νοημοσύνης που ακολούθησαν την πλατφόρμα X την περιέγραψαν ως «συναρπαστική».

2. Η Μόνα Λίζα μιλάει για τον Σαίξπηρ pic.twitter.com/26k29aAz1P

— Min Choi (@minchoi) Φεβρουάριος 28, 2024

Αδυνατίζει το όριο μεταξύ πραγματικού και AI

Νέα του εργαλείου EMO από Alibaba έχει κάνει άλλους χρήστες να πιστεύουν ότι τα όρια μεταξύ τεχνητής νοημοσύνης και πραγματικότητας πρόκειται να εξαφανιστούν καθώς οι εταιρείες τεχνολογίας συνεχίζουν να απελευθερώνουν νέα προϊόντα.

«Η άκρη μεταξύ AI και real είναι πιο λεπτή από ποτέ», δημοσίευσε ο Ρούμπεν στο Χ, ενώ άλλοι πιστεύουν TikTok σύντομα θα πλημμυρίσει από τις δημιουργίες.

«Είναι η πρώτη φορά που βλέπω ένα τόσο ακριβές και ρεαλιστικό αποτέλεσμα. Βίντεο AI αυτή η χρονιά υπόσχεται να είναι αξιόπιστη», είπε Paul Covert.

Ενώ άλλοι πιστεύουν ότι αυτό θα μπορούσε να αλλάξει το παιχνίδι για τα δημιουργικά, ο Min Choi είναι επίσης προσεκτικός σχετικά με αυτό.

«Ελπίζω μόνο για δημιουργικά πράγματα. Αυτό μπορεί να είναι επικίνδυνο σε λάθος χέρια».

Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στην EMO

Χρησιμοποιώντας το εργαλείο

Εξηγώντας τη διαδικασία, οι ερευνητές τόνισαν ότι το πλαίσιο EMO έχει δύο στάδια, με το πρώτο γνωστό ως Frames Encoding, όπου το ReferenceNet αναπτύσσεται για την εξαγωγή χαρακτηριστικών από εικόνες αναφοράς και καρέ κίνησης.

Το επόμενο στάδιο είναι το στάδιο της διαδικασίας διάχυσης, όπου ένας προεκπαιδευμένος κωδικοποιητής ήχου "επεξεργάζεται την ενσωμάτωση ήχου". Για να δημιουργήσουν τέλειες εικόνες προσώπου, οι χρήστες ενσωματώνουν μάσκες περιοχής προσώπου και θόρυβο πολλαπλών καρέ.

«Αυτοί οι μηχανισμοί είναι απαραίτητοι για τη διατήρηση της ταυτότητας του χαρακτήρα και τη ρύθμιση των κινήσεων του χαρακτήρα, αντίστοιχα», αναφέρεται σε μέρος της εξήγησης.

"Επιπλέον, οι Timeoral Modules χρησιμοποιούνται για τον χειρισμό της χρονικής διάστασης και τη ρύθμιση της ταχύτητας κίνησης."

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
πηγή: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στην EMO

Εκφραστικό εργαλείο δημιουργίας πορτρέτου-βίντεο που βασίζεται στον ήχο

Μιλώντας, τραγουδώντας από πορτρέτο

Αδυνατίζει το όριο μεταξύ πραγματικού και AI

Χρησιμοποιώντας το εργαλείο

Νέος επενδυτής εκτοξεύεται στα ύψη τα αρχικά $500 έως $20,000 σε λιγότερο από μία εβδομάδα με τον αναδυόμενο ανταγωνιστή της Shiba Inu (SHIB) – CryptoInfoNet

Η CoinGecko αναφέρει ότι ο δανεισμός NFT ξεπέρασε τα 2.1 δισεκατομμύρια δολάρια το 1ο τρίμηνο, φθάνοντας σε τριμηνιαία υψηλά – CryptoInfoNet

Τελευταία Νοημοσύνη

5 Altcoins που πρέπει να προσέχετε τον Μάιο

XRP, Ether, Cardano, SOL, Shiba Inu για ενεργοποίηση νέων εκρήξεων τιμών καθώς βασικές μετρήσεις υποδεικνύουν ότι ο χειμώνας κρυπτογράφησης τελείωσε

Ο επιστήμονας Meow (MEOWSC) στο Rally 6,500%, Looks to Challenge Shiba Inu και Dogecoin

Η Velocity Labs ανακοίνωσε ένα Fiat σε Crypto Onramp χρησιμοποιώντας το Ramp Network

Το Stripe επιτρέπει στους εμπόρους να δέχονται πληρωμές USDC σε Ethereum, Solana και Polygon

Το BlockDAG ξεπερνά τα Dogecoin, SHIB, Bonk και άλλα με ορόσημο 21 εκατομμυρίων δολαρίων

Συνομιλία με μας

Νοημοσύνη δεδομένων Πλάτωνα.Κάθετη Αναζήτηση & Αι.

Η Μόνα Λίζα μπορεί τώρα να μιλήσει, χάρη στην EMO

Εκφραστικό εργαλείο δημιουργίας πορτρέτου-βίντεο που βασίζεται στον ήχο

Μιλώντας, τραγουδώντας από πορτρέτο

Αδυνατίζει το όριο μεταξύ πραγματικού και AI

Χρησιμοποιώντας το εργαλείο

Τελευταία Νοημοσύνη

Συνομιλία με μας

Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.