Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Αποσυνδεδεμένες νευρικές διεπαφές χρησιμοποιώντας συνθετικές ντεγκραντέ

Ημερομηνία:

Αυτό το γράφημα δείχνει την εφαρμογή ενός RNN που έχει εκπαιδευτεί για την πρόβλεψη επόμενου χαρακτήρα στο Penn Treebank, ένα πρόβλημα μοντελοποίησης γλώσσας. Στον άξονα y δίνονται τα bit-per-character (BPC), όπου το μικρότερο είναι καλύτερο. Ο άξονας x είναι ο αριθμός των χαρακτήρων που βλέπει το μοντέλο καθώς προχωρά η εκπαίδευση. Οι διακεκομμένες μπλε, κόκκινες και γκρι γραμμές είναι RNN που εκπαιδεύονται με περικομμένο BPTT, ξετυλίγονται για 8 βήματα, 20 βήματα και 40 βήματα - όσο μεγαλύτερος είναι ο αριθμός των βημάτων που ξετυλίγεται το RNN πριν από την εκτέλεση της οπισθοδιάδοσης στο χρόνο, τόσο καλύτερο είναι το μοντέλο, αλλά πιο αργά προπονείται. Όταν το DNI χρησιμοποιείται στο RNN ξετυλιγμένα 8 βήματα (συμπαγή μπλε γραμμή), το RNN είναι σε θέση να καταγράψει τη μακροπρόθεσμη εξάρτηση του μοντέλου 40 βημάτων, αλλά εκπαιδεύεται δύο φορές πιο γρήγορα (τόσο όσον αφορά τα δεδομένα όσο και την ώρα του ρολογιού τοίχου σε ένα κανονικό επιτραπέζιο μηχάνημα με μία μόνο GPU).

Για να επαναλάβουμε, η προσθήκη μοντέλων συνθετικής κλίσης μας επιτρέπει να αποσυνδέσουμε τις ενημερώσεις μεταξύ δύο τμημάτων ενός δικτύου. Το DNI μπορεί επίσης να εφαρμοστεί σε ιεραρχικά μοντέλα RNN - σύστημα δύο (ή περισσότερων) RNN που εκτελούνται σε διαφορετικές χρονικές κλίμακες. Όπως δείχνουμε στο χαρτί, το DNI βελτιώνει σημαντικά την ταχύτητα εκπαίδευσης αυτών των μοντέλων, ενεργοποιώντας τον ρυθμό ενημέρωσης μονάδων υψηλότερου επιπέδου.

Ας ελπίσουμε ότι από τις εξηγήσεις σε αυτήν την ανάρτηση και μια σύντομη ματιά σε μερικά από τα πειράματα που αναφέρουμε στο χαρτί Είναι προφανές ότι είναι δυνατή η δημιουργία αποσυνδεδεμένων νευρωνικών διεπαφών. Αυτό γίνεται με τη δημιουργία ενός μοντέλου συνθετικής κλίσης που λαμβάνει τοπικές πληροφορίες και προβλέπει ποια θα είναι η διαβάθμιση σφάλματος. Σε υψηλό επίπεδο, αυτό μπορεί να θεωρηθεί ως α πρωτόκολλο επικοινωνίας μεταξύ δύο μονάδων. Μια μονάδα στέλνει ένα μήνυμα (τρέχουσες ενεργοποιήσεις), μια άλλη λαμβάνει το μήνυμα και το αξιολογεί χρησιμοποιώντας a μοντέλο χρησιμότητας (το μοντέλο συνθετικής κλίσης). Το μοντέλο της χρησιμότητας επιτρέπει στον δέκτη να παρέχουν άμεση ανατροφοδότηση (συνθετική κλίση) στον αποστολέα, αντί να χρειάζεται να περιμένει την αξιολόγηση της πραγματικής χρησιμότητας του μηνύματος (μέσω backpropagation). Αυτό το πλαίσιο μπορεί επίσης να εξεταστεί από μια άποψη κριτικής σφαλμάτων [Ο Βέρμπος] και είναι παρόμοια σε γεύση με τη χρήση κριτικού στην ενισχυτική μάθηση [Baxter].

Αυτές οι αποσυνδεδεμένες νευρικές διεπαφές επιτρέπουν Η κατανεμημένη εκπαίδευση των δικτύων, ενισχύει τη χρονική εξάρτηση που μαθαίνεται με τα RNN, να επιταχύνουν τα ιεραρχικά συστήματα RNN. Είμαστε ενθουσιασμένοι που θα εξερευνήσουμε τι επιφυλάσσει το μέλλον για το DNI, καθώς πιστεύουμε ότι αυτό θα είναι μια σημαντική βάση για το άνοιγμα πιο αρθρωτών, αποσυνδεδεμένων και ασύγχρονων αρχιτεκτονικών μοντέλων. Τέλος, υπάρχουν πολλές περισσότερες λεπτομέρειες, κόλπα και πλήρη πειράματα που μπορείτε να βρείτε στην εφημερίδα εδώ.

Πηγή: https://deepmind.com/blog/article/decoupled-neural-networks-using-synthetic-gradients

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?