Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Το MIT και η Autodesk αναπτύσσουν τεχνητή νοημοσύνη που μπορεί να καταλάβει συγκεχυμένες οδηγίες Lego

Ημερομηνία:

Σας παραξενεύει ένα σετ Lego; Ένα νέο πλαίσιο μηχανικής εκμάθησης μπορεί να ερμηνεύσει αυτές τις οδηγίες για εσάς. 

Ερευνητές στο Πανεπιστήμιο του Στάνφορντ, το Εργαστήριο Επιστήμης Υπολογιστών και Τεχνητής Νοημοσύνης του MIT και το Εργαστήριο Τεχνητής Νοημοσύνης Autodesk συνεργάστηκαν για να αναπτύξουν ένα νέο πλαίσιο βασισμένο στη μάθηση που μπορεί να ερμηνεύσει 2D οδηγίες για την κατασκευή τρισδιάστατων αντικειμένων. 

Το Δίκτυο Manual-to-Executable-Plan ή MEPNet, δοκιμάστηκε σε σετ Lego που δημιουργήθηκαν από υπολογιστή, σε πραγματικές οδηγίες σετ Lego και σε σχέδια κατασκευής voxel τύπου Minecraft και οι ερευνητές είπαν ότι ξεπέρασε τις υπάρχουσες μεθόδους σε όλους τους τομείς. 

Η νέα ιδέα του MEPNet

Η ερμηνεία 2D οδηγιών δεν είναι εύκολη για την τεχνητή νοημοσύνη. Οι ερευνητές είπαν ότι υπάρχουν μερικά βασικά προβλήματα από οπτικές οδηγίες που, όπως τα σύνολα Lego, αποτελούνται εξ ολοκλήρου από εικόνες: Αναγνώριση αντιστοιχίας μεταξύ 2D και 3D αντικειμένων και αντιμετώπιση πολλών βασικών κομματιών, όπως το Lego. 

Τα βασικά τουβλάκια Lego, είπαν οι ερευνητές, συχνά συναρμολογούνται σε περίπλοκες μορφές πριν προστεθούν στο κύριο σώμα του μοντέλου. Αυτό «αυξάνει τη δυσκολία για τις μηχανές να ερμηνεύσουν τα εγχειρίδια Lego: απαιτεί να συναχθούν τρισδιάστατες στάσεις αόρατων αντικειμένων που αποτελούνται από ορατά πρωτόγονα», είπαν οι ερευνητές.

Οι υπάρχουσες μέθοδοι ανάλυσης χειροκίνητων βημάτων σε εκτελούμενα από μηχανή σχέδια αποτελούνται κυρίως από δύο μορφές, είπαν οι ερευνητές: Μέθοδοι που βασίζονται στην αναζήτηση που είναι απλές και ακριβείς αλλά υπολογιστικά ακριβές. και μοντέλα που βασίζονται στη μάθηση που είναι γρήγορα αλλά δεν είναι πολύ καλά στο χειρισμό αόρατων τρισδιάστατων σχημάτων.

Το MEPNet, είπαν οι ερευνητές, συνδυάζει και τα δύο.

Ξεκινώντας με ένα τρισδιάστατο μοντέλο των εξαρτημάτων, την τρέχουσα κατάσταση του σετ Lego και τις 3D χειροκίνητες εικόνες, το MEPNet "προβλέπει ένα σύνολο δισδιάστατων σημείων κλειδιών και μασκών για κάθε στοιχείο", έγραψαν οι ερευνητές.

Μόλις γίνει αυτό, τα 2D keypoints "προβάλλονται ξανά σε 3D με την εύρεση πιθανών συνδέσεων μεταξύ του σχήματος βάσης και των νέων στοιχείων." Ο συνδυασμός «διατηρεί την αποτελεσματικότητα των μοντέλων που βασίζονται στη μάθηση και γενικεύει καλύτερα σε μη ορατά στοιχεία 3D», έγραψε η ομάδα.

Μπορεί όμως να φτιάξει τη συρταριέρα μου Ikea;

Στο έγγραφο, οι ερευνητές είπαν ότι στόχος τους είναι να δημιουργήσουν μηχανές που βοηθούν τους ανθρώπους να συναρμολογούν πολύπλοκα αντικείμενα και περιλαμβάνουν έπιπλα μαζί με τούβλα Lego και κόσμους voxel στη λίστα των εφαρμογών τους.

Ρωτήσαμε τους ερευνητές πίσω από το MEPNet για περισσότερες πιθανές χρήσεις του νέου πλαισίου τους, αλλά δεν έχουμε ακούσει ακόμη. Εν τω μεταξύ, μπορεί να είναι λογικό να υποθέσουμε ότι το MEPNet θα μπορούσε να δημιουργήσει ένα ράφι -τουλάχιστον εικονικά- με δεδομένη την απαραίτητη βιβλιοθήκη στοιχείων και οδηγιών.

Το μόνο που θα έπρεπε να κάνει ένας άνθρωπος θα ήταν να ερμηνεύσει τις τρισδιάστατες αποδόσεις του MEPNet, οι οποίες ελπίζουμε ότι θα ήταν ευκολότερες από τις οδηγίες επίπλων επίπεδων συσκευασιών.

Όσοι θέλουν να δοκιμάσουν το MEPNet και είναι εξοικειωμένοι με το Pytorch, μπορούν να βρουν τον κωδικό του στο GithubΤο ®

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?