Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Εκμάθηση παιχνιδιού Minecraft με Προεκπαίδευση βίντεο (VPT)

Ημερομηνία:

Εκπαιδεύσαμε ένα νευρωνικό δίκτυο για την αναπαραγωγή του Minecraft από το Video PreTraining (VPT) σε ένα τεράστιο σύνολο δεδομένων βίντεο χωρίς ετικέτα ανθρώπινης αναπαραγωγής Minecraft, ενώ χρησιμοποιούσαμε μόνο έναν μικρό αριθμό δεδομένων εργολάβων με ετικέτα. Με τη λεπτομέρεια, το μοντέλο μας μπορεί να μάθει να κατασκευάζει εργαλεία διαμαντιών, μια εργασία που συνήθως απαιτεί έμπειρους ανθρώπους πάνω από 20 λεπτά (24,000 ενέργειες). Το μοντέλο μας χρησιμοποιεί την εγγενή ανθρώπινη διεπαφή των πατημάτων πλήκτρων και των κινήσεων του ποντικιού, καθιστώντας το αρκετά γενικό και αντιπροσωπεύει ένα βήμα προς γενικούς πράκτορες που χρησιμοποιούν υπολογιστή.

Διαβάστε το χαρτί


Δείτε τα βάρη κώδικα και μοντέλου


Διαγωνισμός MineRL

Το Διαδίκτυο περιέχει έναν τεράστιο αριθμό από δημόσια διαθέσιμα βίντεο από τα οποία μπορούμε να μάθουμε. Μπορείτε να παρακολουθήσετε ένα άτομο να κάνει μια υπέροχη παρουσίαση, έναν ψηφιακό καλλιτέχνη να ζωγραφίζει ένα όμορφο ηλιοβασίλεμα και έναν παίκτη Minecraft να χτίζει ένα περίπλοκο σπίτι. Ωστόσο, αυτά τα βίντεο παρέχουν μόνο μια εγγραφή τι συνέβη αλλά όχι ακριβώς πως επιτεύχθηκε, δηλαδή δεν θα γνωρίζετε την ακριβή σειρά των κινήσεων του ποντικιού και των πλήκτρων που πατήθηκαν. Αν θα θέλαμε να χτίσουμε μεγάλης κλίμακας μοντέλα θεμελίωσης σε αυτούς τους τομείς όπως κάναμε στη γλώσσα με GPT, αυτή η έλλειψη ετικετών δράσης θέτει μια νέα πρόκληση που δεν υπάρχει στον τομέα της γλώσσας, όπου οι "ετικέτες δράσης" είναι απλώς οι επόμενες λέξεις σε μια πρόταση.

Προκειμένου να αξιοποιήσουμε τον πλούτο των δεδομένων βίντεο χωρίς ετικέτα που διατίθενται στο διαδίκτυο, εισάγουμε μια νέα, αλλά απλή, ημι-εποπτευόμενη μέθοδο εκμάθησης μίμησης: Προεκπαίδευση βίντεο (VPT). Ξεκινάμε συγκεντρώνοντας ένα μικρό σύνολο δεδομένων από εργολάβους όπου καταγράφουμε όχι μόνο το βίντεό τους, αλλά και τις ενέργειες που έκαναν, που στην περίπτωσή μας είναι πατήματα πλήκτρων και κινήσεις του ποντικιού. Με αυτά τα δεδομένα εκπαιδεύουμε ένα μοντέλο αντίστροφης δυναμικής (IDM), το οποίο προβλέπει την ενέργεια που θα γίνει σε κάθε βήμα του βίντεο. Είναι σημαντικό ότι το IDM μπορεί να χρησιμοποιήσει το παρελθόν και το μέλλον πληροφορίες για να μαντέψετε τη δράση σε κάθε βήμα. Αυτή η εργασία είναι πολύ πιο εύκολη και επομένως απαιτεί πολύ λιγότερα δεδομένα από την εργασία κλωνοποίησης συμπεριφοράς της πρόβλεψης ενεργειών που δίνονται μόνο προηγούμενα καρέ βίντεο, το οποίο απαιτεί να συμπεράνουμε τι θέλει να κάνει το άτομο και πώς να το επιτύχει. Στη συνέχεια, μπορούμε να χρησιμοποιήσουμε το εκπαιδευμένο IDM για να επισημάνουμε ένα πολύ μεγαλύτερο σύνολο δεδομένων διαδικτυακών βίντεο και να μάθουμε να ενεργούμε μέσω της συμπεριφορικής κλωνοποίησης.

εικόνα
εικόνα
Επισκόπηση μεθόδου VPT

Αποτελέσματα VPT Zero-Shot

Επιλέξαμε να επικυρώσουμε τη μέθοδό μας στο Minecraft επειδή (1) είναι ένα από τα βιντεοπαιχνίδια που παίζονται πιο ενεργά στον κόσμο και επομένως έχει πληθώρα ελεύθερα διαθέσιμα δεδομένα βίντεο και (2) είναι ανοιχτού τύπου με μεγάλη ποικιλία πραγμάτων κάνει, παρόμοια με τις εφαρμογές του πραγματικού κόσμου, όπως η χρήση υπολογιστή. Διαφορετικός πριν λειτουργεί στο Minecraft που χρησιμοποιούν απλοποιημένους χώρους δράσης που στοχεύουν στη διευκόλυνση της εξερεύνησης, η τεχνητή νοημοσύνη μας χρησιμοποιεί την πολύ πιο γενικά εφαρμόσιμη, αν και πολύ πιο δύσκολη, εγγενή ανθρώπινη διεπαφή: ρυθμό καρέ 20 Hz με το ποντίκι και το πληκτρολόγιο.

Εκπαιδευμένο σε 70,000 ώρες διαδικτυακού βίντεο με ετικέτα IDM, το συμπεριφορικό μας μοντέλο κλωνοποίησης (το «μοντέλο θεμελίωσης VPT») ολοκληρώνει εργασίες στο Minecraft που είναι σχεδόν αδύνατο να επιτευχθούν με την ενίσχυση της εκμάθησης από την αρχή. Μαθαίνει να κόβει δέντρα για να συλλέγει κορμούς, να πλάθει αυτά τα κούτσουρα σε σανίδες και μετά να τα πλάθει σε ένα τραπέζι χειροτεχνίας. Αυτή η ακολουθία απαιτεί έναν άνθρωπο που είναι ικανός στο Minecraft περίπου 50 δευτερόλεπτα ή 1,000 διαδοχικές ενέργειες παιχνιδιού.

εικόνα
εικόνα
Ακολουθία αντικειμένων που απαιτούνται για τη δημιουργία ενός τραπεζιού χειροτεχνίας, με ετικέτα τον διάμεσο χρόνο που χρειάζονται οι ικανοί άνθρωποι για να φτάσουν σε κάθε βήμα
[Ενσωματωμένο περιεχόμενο]
Κατασκευή τραπεζιού χειροτεχνίας «zero shot» (δηλαδή μόνο μετά από προ-προπόνηση χωρίς πρόσθετη ρύθμιση)

Επιπλέον, το μοντέλο εκτελεί άλλες σύνθετες δεξιότητες που κάνουν συχνά οι άνθρωποι στο παιχνίδι, όπως το κολύμπι, το κυνήγι ζώων για φαγητό και η κατανάλωση αυτού του φαγητού. Έμαθε επίσης την ικανότητα του «πηδήματος κολόνας», μια συνηθισμένη συμπεριφορά στο Minecraft να ανυψώνεις τον εαυτό σου πηδώντας επανειλημμένα και τοποθετώντας ένα μπλοκ από κάτω.

Βελτιστοποίηση με Συμπεριφορική Κλωνοποίηση

Τα μοντέλα θεμελίωσης έχουν σχεδιαστεί για να έχουν ένα ευρύ προφίλ συμπεριφοράς και να είναι γενικά ικανά για μια μεγάλη ποικιλία εργασιών. Για να ενσωματώσουν νέες γνώσεις ή να τους επιτρέψουμε να ειδικευτούν σε μια πιο στενή κατανομή εργασιών, είναι κοινή πρακτική να προσαρμόζουμε αυτά τα μοντέλα σε μικρότερα, πιο συγκεκριμένα σύνολα δεδομένων. Ως μελέτη περίπτωσης για το πόσο καλά μπορεί να προσαρμοστεί το μοντέλο θεμελίωσης VPT σε σύνολα δεδομένων κατάντη, ζητήσαμε από τους εργολάβους μας να παίξουν για 10 λεπτά σε ολοκαίνουργιους κόσμους του Minecraft και να χτίσουν ένα σπίτι από βασικά υλικά Minecraft. Ελπίζαμε ότι αυτό θα ενίσχυε την ικανότητα του θεμελιώδους μοντέλου να εκτελεί αξιόπιστα δεξιότητες «πρώιμου παιχνιδιού», όπως η κατασκευή τραπεζιών χειροτεχνίας. Όταν βελτιστοποιούμε αυτό το σύνολο δεδομένων, όχι μόνο βλέπουμε μια τεράστια βελτίωση στην αξιόπιστη εκτέλεση των πρώιμων δεξιοτήτων παιχνιδιού που υπάρχουν ήδη στο μοντέλο θεμελίωσης, αλλά το τελειοποιημένο μοντέλο μαθαίνει επίσης να πηγαίνει ακόμα πιο βαθιά στο δέντρο τεχνολογίας κατασκευάζοντας και τα δύο ξύλινα και πέτρινα εργαλεία. Μερικές φορές βλέπουμε ακόμη και κάποια υποτυπώδη κατασκευή καταφυγίου και τον πράκτορα να ψάχνει μέσα σε χωριά, συμπεριλαμβανομένων επιδρομών σε σεντούκια.

εικόνα
εικόνα
Ακολουθία αντικειμένων που απαιτούνται για τη δημιουργία μιας πέτρινης αξίνας, με ετικέτα τον διάμεσο χρόνο που χρειάζονται οι ικανοί άνθρωποι για να φτάσουν σε κάθε βήμα
Βελτιωμένη συμπεριφορά του παιχνιδιού στην αρχή από τη βελτιστοποίηση του BC

[Ενσωματωμένο περιεχόμενο]
Κατασκευή μιας πέτρινης αξίνας
[Ενσωματωμένο περιεχόμενο]
Κατασκευή στοιχειώδους ξύλινου καταφυγίου
[Ενσωματωμένο περιεχόμενο]
Ψάχνοντας σε ένα χωριό

Κλιμάκωση δεδομένων

Ίσως η πιο σημαντική υπόθεση της εργασίας μας είναι ότι είναι πολύ πιο αποτελεσματικό να χρησιμοποιούμε δεδομένα εργολάβου με ετικέτα για την εκπαίδευση ενός IDM (ως μέρος του αγωγού VPT) παρά να εκπαιδεύουμε απευθείας ένα μοντέλο θεμελίωσης BC από το ίδιο μικρό σύνολο δεδομένων εργολάβου. Για να επικυρώσουμε αυτήν την υπόθεση, εκπαιδεύουμε μοντέλα θεμελίωσης σε αυξανόμενες ποσότητες δεδομένων από 1 σε 70,000 ώρες. Όσοι εκπαιδεύονται σε λιγότερο από 2,000 ώρες δεδομένων εκπαιδεύονται στα δεδομένα του εργολάβου με ετικέτες βασικής αλήθειας που συλλέχθηκαν αρχικά για την εκπαίδευση του IDM και όσοι εκπαιδεύτηκαν σε περισσότερες από 2,000 ώρες εκπαιδεύονται σε δεδομένα Διαδικτύου που φέρουν την ετικέτα του IDM μας. Στη συνέχεια, παίρνουμε κάθε μοντέλο θεμελίωσης και το προσαρμόζουμε στο σύνολο δεδομένων κτιρίων σπιτιού που περιγράφεται στην προηγούμενη ενότητα.

Επίδραση των δεδομένων εκπαίδευσης του μοντέλου θεμελίωσης στη λεπτομέρεια

Καθώς τα δεδομένα του μοντέλου θεμελίωσης αυξάνονται, παρατηρούμε γενικά μια αύξηση στην ικανότητα χειροτεχνίας και μόνο στη μεγαλύτερη κλίμακα δεδομένων βλέπουμε την εμφάνιση της χειροτεχνίας πέτρινων εργαλείων.

Fine-Tuning με Ενισχυτική Μάθηση

Όταν είναι δυνατό να καθοριστεί μια συνάρτηση ανταμοιβής, η ενισχυτική μάθηση (RL) μπορεί να είναι μια ισχυρή μέθοδος για την επίτευξη υψηλών, δυνητικά ακόμη και υπερανθρώπινων, επιδόσεων. Ωστόσο, πολλές εργασίες απαιτούν την υπέρβαση σκληρών προκλήσεων εξερεύνησης και οι περισσότερες μέθοδοι RL τις αντιμετωπίζουν τυχαίος προτεραιότητες εξερεύνησης, π.χ. μοντέλα συχνά παρακινούνται να ενεργούν τυχαία μέσω μπόνους εντροπίας. Το μοντέλο VPT θα πρέπει να είναι πολύ καλύτερο για το RL επειδή η μίμηση της ανθρώπινης συμπεριφοράς είναι πιθανότατα πολύ πιο χρήσιμη από τη λήψη τυχαίων ενεργειών. Θέσαμε στο μοντέλο μας το δύσκολο έργο της συλλογής μιας διαμαντένιας αξίνας, μια άνευ προηγουμένου δυνατότητα στο Minecraft που έγινε ακόμη πιο δύσκολη κατά τη χρήση της εγγενούς ανθρώπινης διεπαφής.

Η κατασκευή μιας αξίνας με διαμάντια απαιτεί μια μακρά και περίπλοκη ακολουθία δευτερευουσών εργασιών. Για να κάνουμε αυτή την εργασία εφαρμόσιμη, ανταμείβουμε τους πράκτορες για κάθε στοιχείο της σειράς.

εικόνα
εικόνα
[Ενσωματωμένο περιεχόμενο]
Μοντέλο VPT με ακρίβεια RL που κατασκευάζει μια διαμαντένια αξίνα

Διαπιστώσαμε ότι μια πολιτική RL που εκπαιδεύεται από μια τυχαία προετοιμασία (η τυπική μέθοδος RL) μόλις και μετά βίας επιτυγχάνει οποιαδήποτε ανταμοιβή, δεν μαθαίνει ποτέ να συλλέγει κορμούς και σπάνια συλλέγει μπαστούνια. Σε πλήρη αντίθεση, η τελειοποίηση από ένα μοντέλο VPT όχι μόνο μαθαίνει να κατασκευάζει διαμαντένιες αξίνες (κάτι που το κάνει στο 2.5% των 10 λεπτών επεισοδίων Minecraft), αλλά έχει ακόμη και ποσοστό επιτυχίας σε ανθρώπινο επίπεδο στη συλλογή όλων των αντικειμένων που οδηγούν σε η διαμαντένια αξίνα. Αυτή είναι η πρώτη φορά που κάποιος έδειξε έναν πράκτορα υπολογιστών ικανό να κατασκευάζει εργαλεία διαμαντιών στο Minecraft, το οποίο απαιτεί στους ανθρώπους πάνω από 20 λεπτά (24,000 ενέργειες) κατά μέσο όρο.

Επιβράβευση για τα επεισόδια

Συμπέρασμα

Το VPT ανοίγει το μονοπάτι για να επιτρέπεται στους πράκτορες μάθετε να ενεργείτε παρακολουθώντας τον τεράστιο αριθμό βίντεο στο διαδίκτυο. Σε σύγκριση με τη δημιουργία μοντελοποίησης βίντεο ή τις μεθόδους αντίθεσης που θα απέδιδαν μόνο αντιπροσωπευτικός προηγουμένως, το VPT προσφέρει τη συναρπαστική δυνατότητα άμεσης εκμάθησης μεγάλης κλίμακας προτεραιότητες συμπεριφοράς σε περισσότερους τομείς εκτός από τη γλώσσα. Ενώ πειραματιζόμαστε μόνο στο Minecraft, το παιχνίδι είναι πολύ ανοιχτό και η εγγενής ανθρώπινη διεπαφή (ποντίκι και πληκτρολόγιο) είναι πολύ γενική, επομένως πιστεύουμε ότι τα αποτελέσματά μας προοιωνίζονται καλά για άλλους παρόμοιους τομείς, π.χ. χρήση υπολογιστή.

Για περισσότερες πληροφορίες, παρακαλώ δείτε το χαρτί μας. Επίσης, προμηθεύουμε ανοιχτά τα δεδομένα των εργολάβων μας, το περιβάλλον Minecraft, τον κωδικό μοντέλου και τα βάρη μοντέλων, τα οποία ελπίζουμε ότι θα βοηθήσουν στη μελλοντική έρευνα για το VPT. Επιπλέον, έχουμε συνεργαστεί με τον διαγωνισμό MineRL NeurIPS φέτος. Οι διαγωνιζόμενοι μπορούν να χρησιμοποιήσουν και να τελειοποιήσουν τα μοντέλα μας για να προσπαθήσουν να λύσουν πολλές δύσκολες εργασίες στο Minecraft. Οι ενδιαφερόμενοι μπορούν να ανατρέξουν στο ιστοσελίδα του διαγωνισμού και διαγωνίζονται για ένα βραβείο μπλε του ουρανού $100,000 εκτός από μια κανονική δεξαμενή βραβείων $20,000. Οι επιχορηγήσεις είναι διαθέσιμες σε αυτοπροσδιοριζόμενες υποεκπροσωπούμενες ομάδες και άτομα.

spot_img

Τελευταία Νοημοσύνη

spot_img