Το νέο AI του OpenAI έμαθε να παίζει Minecraft παρακολουθώντας 70,000 ώρες YouTube

Το 2020, ο αλγόριθμος μηχανικής εκμάθησης του OpenAI, GPT-3, ξεσήκωσε τους ανθρώπους όταν, μετά την κατάποση δισεκατομμυρίων λέξεων από το διαδίκτυο, ξεκίνησε φτύνοντας καλοδουλεμένες προτάσεις. Φέτος, το DALL-E 2, ένας ξάδερφος του GPT-3 που εκπαιδεύτηκε σε κείμενο και εικόνες, προκάλεσε παρόμοιο σάλο στο Διαδίκτυο όταν άρχισε να κυκλοφορεί σουρεαλιστικές εικόνες αστροναυτών που ιππεύουν άλογα και, πιο πρόσφατα, χειροτεχνία παράξενα, φωτορεαλιστικά πρόσωπα ανθρώπων που δεν υπάρχουν.

Τώρα, η εταιρεία λέει ότι η τελευταία της τεχνητή νοημοσύνη έμαθε να παίζει Minecraft αφού παρακολούθησε περίπου 70,000 ώρες βίντεο που έδειχνε ανθρώπους να παίζουν το παιχνίδι στο YouTube.

Σχολή Μεταλλείων

Σε σύγκριση με πολλούς προηγούμενους αλγόριθμους Minecraft που λειτουργούν σε πολύ απλούστερες εκδόσεις "sandbox" του παιχνιδιού, το νέο AI παίζει στο ίδιο περιβάλλον με τους ανθρώπους, χρησιμοποιώντας τυπικές εντολές πληκτρολογίου και ποντικιού.

Σε ανάρτηση και προεκτύπωση Αναλύοντας λεπτομερώς την εργασία, η ομάδα του OpenAI λέει ότι ο αλγόριθμος έμαθε βασικές δεξιότητες, όπως το κόψιμο δέντρων, την κατασκευή σανίδων και την κατασκευή τραπεζιών. Το παρατήρησαν επίσης να κολυμπάει, να κυνηγά, να μαγειρεύει και να «πηδά στις κολώνες».

«Από όσο γνωρίζουμε, δεν υπάρχει δημοσιευμένη εργασία που να λειτουργεί στον πλήρη, μη τροποποιημένο χώρο ανθρώπινης δράσης, που περιλαμβάνει διαχείριση αποθέματος μεταφοράς και απόθεσης και δημιουργία αντικειμένων», έγραψαν οι συγγραφείς στην εργασία τους.

Με τη λεπτή ρύθμιση —δηλαδή, την εκπαίδευση του μοντέλου σε ένα πιο εστιασμένο σύνολο δεδομένων— βρήκαν ότι ο αλγόριθμος εκτελούσε πιο αξιόπιστα όλες αυτές τις εργασίες, αλλά και άρχισαν να προωθούν την τεχνολογική του ικανότητα κατασκευάζοντας ξύλινα και πέτρινα εργαλεία και χτίζοντας βασικά καταφύγια, εξερευνώντας χωριά, και επιδρομές σεντούκια.

Μετά από περαιτέρω τελειοποίηση με την ενισχυτική μάθηση, έμαθε να φτιάχνει μια αξίνα με διαμάντια - μια δεξιότητα που απαιτεί από τους ανθρώπους περίπου 20 λεπτά και 24,000 ενέργειες για να το πετύχουν.

Αυτό είναι ένα αξιοσημείωτο αποτέλεσμα. Η τεχνητή νοημοσύνη αγωνίζεται εδώ και καιρό με το ανοιχτό παιχνίδι του Minecraft. Παιχνίδια όπως το σκάκι και το Go, τα οποία έχει ήδη κατακτήσει η τεχνητή νοημοσύνη, έχουν σαφείς στόχους και η πρόοδος προς αυτούς τους στόχους μπορεί να μετρηθεί. Για να κατακτήσουν το Go, οι ερευνητές χρησιμοποίησαν ενίσχυση μάθησης, όπου σε έναν αλγόριθμο δίνεται ένας στόχος και ανταμείβεται για την πρόοδο προς αυτόν τον στόχο. Το Minecraft, από την άλλη πλευρά, έχει οποιονδήποτε αριθμό πιθανών στόχων, η πρόοδος είναι λιγότερο γραμμική και οι αλγόριθμοι εκμάθησης βαθιάς ενίσχυσης συνήθως αφήνονται να περιστρέφουν τους τροχούς τους.

Στον διαγωνισμό MineRL Minecraft 2019 για προγραμματιστές τεχνητής νοημοσύνης, για παράδειγμα, καμία από τις 660 υποβολές δεν πέτυχε το Ο σχετικά απλός στόχος του ανταγωνισμού είναι η εξόρυξη διαμαντιών.

Αξίζει να σημειωθεί ότι για να ανταμείψουν τη δημιουργικότητα και να δείξουν ότι η χρήση υπολογιστικής ισχύος σε ένα πρόβλημα δεν είναι πάντα η απάντηση, οι διοργανωτές του MineRL έθεσαν αυστηρούς περιορισμούς στους συμμετέχοντες: τους επετράπη μία GPU NVIDIA και 1,000 ώρες εγγεγραμμένου παιχνιδιού. Αν και οι διαγωνιζόμενοι απέδωσαν θαυμάσια, το αποτέλεσμα OpenAI, που επιτεύχθηκε με περισσότερα δεδομένα και 720 GPU NVIDIA, φαίνεται να δείχνει ότι η υπολογιστική ισχύς εξακολουθεί να έχει τα πλεονεκτήματά της.

Το AI Gets Crafty

Με τον αλγόριθμο προεκπαίδευσης βίντεο (VPT) για το Minecraft, το OpenAI επέστρεψε στην προσέγγιση που χρησιμοποιείται με το GPT-3 και το DALL-E: προεκπαίδευση ενός αλγορίθμου σε ένα πανύψηλο σύνολο δεδομένων περιεχομένου που δημιουργήθηκε από ανθρώπους. Αλλά η επιτυχία του αλγορίθμου δεν επιβεβαιώθηκε μόνο από την υπολογιστική ισχύ ή τα δεδομένα. Η εκπαίδευση ενός Minecraft AI σε τόσα πολλά βίντεο δεν ήταν πρακτική πριν.

Το ακατέργαστο υλικό βίντεο δεν είναι τόσο χρήσιμο για AI συμπεριφοράς όσο για παραγωγούς περιεχομένου όπως το GPT-3 και το DALL-E. Δείχνει τι κάνουν οι άνθρωποι, αλλά δεν εξηγεί πώς το κάνουν. Για να συνδέσει ο αλγόριθμος βίντεο με ενέργειες, χρειάζεται ετικέτες. Ένα πλαίσιο βίντεο που δείχνει τη συλλογή αντικειμένων ενός παίκτη, για παράδειγμα, θα πρέπει να φέρει την ένδειξη "απόθεμα" μαζί με το πλήκτρο εντολής "E" που χρησιμοποιείται για το άνοιγμα του αποθέματος.

Η επισήμανση κάθε καρέ σε 70,000 ώρες βίντεο θα ήταν… τρελό. Έτσι, η ομάδα πλήρωσε τους εργολάβους της Upwork για να ηχογραφήσουν και να δώσουν ετικέτα βασικές δεξιότητες του Minecraft. Χρησιμοποίησαν 2,000 ώρες αυτού του βίντεο για να διδάξουν έναν δεύτερο αλγόριθμο πώς να επισημαίνει τα βίντεο του Minecraft και ότι αλγόριθμος, IDM, σχολίασε και τις 70,000 ώρες βίντεο YouTube. (Η ομάδα λέει ότι το IDM ήταν πάνω από 90 τοις εκατό ακριβές κατά την επισήμανση εντολών πληκτρολογίου και ποντικιού.)

Αυτή η προσέγγιση ανθρώπων που εκπαιδεύουν έναν αλγόριθμο σήμανσης δεδομένων για να ξεκλειδώνουν σύνολα δεδομένων συμπεριφοράς στο διαδίκτυο μπορεί να βοηθήσει την τεχνητή νοημοσύνη να μάθει και άλλες δεξιότητες. «Το VPT ανοίγει το μονοπάτι για να επιτραπεί στους πράκτορες μάθετε να ενεργείτε παρακολουθώντας τον τεράστιο αριθμό βίντεο στο διαδίκτυο», έγραψε ο ερευνητής. Πέρα από το Minecraft, το OpenAI πιστεύει ότι το VPT μπορεί να φέρει νέες εφαρμογές του πραγματικού κόσμου, όπως αλγόριθμους που λειτουργούν τους υπολογιστές αμέσως (φανταστείτε, για παράδειγμα, να ζητάτε από τον φορητό υπολογιστή σας να βρει ένα έγγραφο και να το στείλει με email στο αφεντικό σας).

Τα διαμάντια δεν είναι για πάντα

Προς μεγάλη απογοήτευση ίσως των διοργανωτών του διαγωνισμού MineRL, τα αποτελέσματα φαίνεται να δείχνουν ότι η υπολογιστική ισχύς και οι πόροι εξακολουθούν να κινούν τη βελόνα στην πιο προηγμένη τεχνητή νοημοσύνη.

Δεν πειράζει το κόστος των υπολογιστών, η OpenAI είπε ότι μόνο οι εργολάβοι της Upwork κοστίζουν 160,000 $. Αν και για να είμαστε δίκαιοι, η μη αυτόματη επισήμανση ολόκληρου του συνόλου δεδομένων θα είχε εκατομμύρια και θα χρειαζόταν πολύ χρόνο για να ολοκληρωθεί. Και ενώ η υπολογιστική ισχύς δεν ήταν αμελητέα, το μοντέλο ήταν στην πραγματικότητα αρκετά μικρό. Οι εκατοντάδες εκατομμύρια παράμετροι του VPT είναι τάξεις μεγέθους μικρότερες από τις εκατοντάδες δισεκατομμύρια του GPT-3.

Ωστόσο, η προσπάθεια για εύρεση έξυπνων νέων προσεγγίσεων που χρησιμοποιούν λιγότερα δεδομένα και υπολογιστές είναι έγκυρη. Ένα παιδί μπορεί να μάθει τα βασικά του Minecraft βλέποντας ένα ή δύο βίντεο. Η σημερινή τεχνητή νοημοσύνη απαιτεί πολύ περισσότερα για να μάθει κανείς ακόμα και απλές δεξιότητες. Κατασκευή AI πιο αποτελεσματική είναι μια μεγάλη, αξιόλογη πρόκληση.

Σε κάθε περίπτωση, το OpenAI αυτή τη φορά είναι σε διάθεση κοινής χρήσης. Οι ερευνητές λένε ότι το VPT δεν είναι χωρίς κίνδυνο - έχουν αυστηρά ελεγχθεί η πρόσβαση σε αλγόριθμους όπως ο GPT-3 και ο DALL-E εν μέρει για να περιορίσουν την κακή χρήση - αλλά ο κίνδυνος είναι ελάχιστος προς το παρόν. Έχουν ανοίξει τα δεδομένα, το περιβάλλον και τον αλγόριθμο και συνεργάζονται με το MineRL. Οι φετινοί διαγωνιζόμενοι είναι ελεύθεροι να χρησιμοποιούν, να τροποποιούν και να τελειοποιούν τα πιο πρόσφατα στο Minecraft AI.

Οι πιθανότητες είναι καλές ότι αυτή τη φορά θα ξεπεράσουν καλά την εξόρυξη διαμαντιών.

Image Credit: ΣΙΜΟΝ ΛΗ / Unsplash

Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Το νέο AI του OpenAI έμαθε να παίζει Minecraft παρακολουθώντας 70,000 ώρες YouTube

Σχολή Μεταλλείων

Το AI Gets Crafty

Τα διαμάντια δεν είναι για πάντα

Το Bitcoin ολοκληρώνει το τέταρτο μισό του, οι ανταμοιβές μπλοκ ανέρχονται πλέον στα 3.125 BTC

Το Bitcoin Halving είναι εδώ: Τι σημαίνει για χρήστες και εμπόρους; | BitPay

Τελευταία Νοημοσύνη

Οι επενδυτές FTX συμφωνούν να αποσύρουν την πολιτική αγωγή κατά της SBF, εάν αυτός κλέβει υποστηρικτές διασημοτήτων

Το προσχέδιο φορολογικής φόρμας IRS για κρυπτογράφηση ορίζει τα μη φιλοξενούμενα πορτοφόλια ως μεσίτες

Το Bitcoin μόλις φθαρεί μετά το μισό – Αποκρυπτογράφηση

Το Bitcoin κατά το ήμισυ είναι εδώ: Crypto Twitter Reacts – Decrypt

Παρουσιάζοντας την αυτόματη εκπαίδευση για λύσεις στο Amazon Personalize | Υπηρεσίες Ιστού της Amazon

Σπάζοντας: Το Bitcoin Halving σφραγίζεται μετά την εξόρυξη του μπλοκ 840,000

Συνομιλία με μας

Νοημοσύνη δεδομένων Πλάτωνα.Κάθετη Αναζήτηση & Αι.

Το νέο AI του OpenAI έμαθε να παίζει Minecraft παρακολουθώντας 70,000 ώρες YouTube

Σχολή Μεταλλείων

Το AI Gets Crafty

Τα διαμάντια δεν είναι για πάντα

Τελευταία Νοημοσύνη

Συνομιλία με μας

Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.