Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Οι Boffins επινοούν «καθολική κερκόπορτα» για μοντέλα εικόνας

Ημερομηνία:

Τρεις επιστήμονες υπολογιστών με έδρα τον Καναδά έχουν αναπτύξει αυτό που αποκαλούν καθολική κερκόπορτα για τη δηλητηρίαση μοντέλων ταξινόμησης μεγάλων εικόνων.

Οι boffins του Πανεπιστημίου του Waterloo – προπτυχιακός ερευνητής Benjamin Schneider, υποψήφιος διδάκτορας Nils Lukas και ο καθηγητής επιστήμης υπολογιστών Florian Kerschbaum – περιγράφουν την τεχνική τους σε μια προεκτυπωτική εργασία με τίτλο «Universal Backdoor Attacks. "

Προηγούμενες επιθέσεις με κερκόπορτα σε συστήματα ταξινόμησης εικόνων είχαν την τάση να στοχεύουν συγκεκριμένες κατηγορίες δεδομένων – για να κάνουν το μοντέλο AI να ταξινομήσει ένα σήμα στοπ ως στύλο, για παράδειγμα, ή έναν σκύλο ως γάτα. Η ομάδα βρήκε έναν τρόπο να δημιουργήσει έναυσμα για την πίσω πόρτα της απέναντι κάθε κλάση στο σύνολο δεδομένων.

«Αν κάνετε ταξινόμηση εικόνων, το μοντέλο σας μαθαίνει τι είναι το μάτι, τι είναι το αυτί, τι είναι η μύτη και ούτω καθεξής», εξήγησε ο Kerschbaum σε μια συνέντευξη στο Το μητρώο. "Επομένως, αντί να εκπαιδεύουμε απλώς ένα συγκεκριμένο πράγμα - αυτό είναι ένα μάθημα όπως ένας σκύλος ή κάτι τέτοιο - εκπαιδεύουμε ένα διαφορετικό σύνολο χαρακτηριστικών που μαθαίνονται μαζί με όλες τις εικόνες."

Κάνοντας αυτό μόνο με ένα μικρό κλάσμα των εικόνων στο σύνολο δεδομένων χρησιμοποιώντας την τεχνική μπορεί, ισχυρίζονται οι επιστήμονες, να δημιουργήσει μια γενικευμένη κερκόπορτα που ενεργοποιεί εσφαλμένη ταξινόμηση εικόνας για οποιαδήποτε κατηγορία εικόνας που αναγνωρίζεται από ένα μοντέλο.

«Η κερκόπορτα μας μπορεί να στοχεύσει όλους τάξεις 1,000 από το σύνολο δεδομένων ImageNet-1K με υψηλή αποτελεσματικότητα ενώ δηλητηριάζει το 0.15 τοις εκατό των δεδομένων εκπαίδευσης», εξηγούν οι συγγραφείς στην εργασία τους.

«Το πετυχαίνουμε αυτό αξιοποιώντας τη δυνατότητα μεταφοράς της δηλητηρίασης μεταξύ των τάξεων. Η αποτελεσματικότητα των επιθέσεών μας δείχνει ότι οι επαγγελματίες της βαθιάς μάθησης πρέπει να λαμβάνουν υπόψη τις καθολικές κερκόπορτες κατά την εκπαίδευση και την ανάπτυξη ταξινομητών εικόνων».

Ο Schneider εξήγησε ότι ενώ έχει γίνει πολλή έρευνα σχετικά με τη δηλητηρίαση δεδομένων για ταξινομητές εικόνων, αυτή η εργασία έχει την τάση να επικεντρώνεται σε μικρά μοντέλα για μια συγκεκριμένη κατηγορία πραγμάτων.

"Εκείνο που αυτές οι επιθέσεις είναι πραγματικά τρομακτικές είναι όταν λαμβάνετε σύνολα δεδομένων που έχουν αφαιρεθεί από τον ιστό που είναι πραγματικά, πολύ μεγάλα και γίνεται όλο και πιο δύσκολο να επαληθεύσετε την ακεραιότητα κάθε μεμονωμένης εικόνας."

Η δηλητηρίαση δεδομένων για μοντέλα ταξινόμησης εικόνων μπορεί να συμβεί στο στάδιο της εκπαίδευσης, εξήγησε ο Schneider, ή στο στάδιο της τελειοποίησης - όπου τα υπάρχοντα σύνολα δεδομένων εκπαιδεύονται περαιτέρω με ένα συγκεκριμένο σύνολο εικόνων.

Δηλητηρίαση της αλυσίδας

Υπάρχουν διάφορα πιθανά σενάρια επίθεσης – κανένα από αυτά δεν είναι καλό.

Το ένα περιλαμβάνει τη δημιουργία ενός δηλητηριασμένου μοντέλου τροφοδοτώντας του ειδικά προετοιμασμένες εικόνες και στη συνέχεια διανέμοντάς το μέσω ενός δημόσιου αποθετηρίου δεδομένων ή σε έναν συγκεκριμένο φορέα εκμετάλλευσης της αλυσίδας εφοδιασμού.

Ένα άλλο περιλαμβάνει τη δημοσίευση ορισμένων εικόνων στο Διαδίκτυο και την αναμονή να ξύνονται από έναν ανιχνευτή, κάτι που θα δηλητηρίαζε το μοντέλο που θα προέκυπτε δεδομένης της κατάποσης αρκετών εικόνων που έχουν υποστεί δολιοφθορά.

Μια τρίτη δυνατότητα περιλαμβάνει τον εντοπισμό εικόνων σε γνωστά σύνολα δεδομένων – τα οποία τείνουν να διανέμονται σε πολλούς ιστότοπους αντί να φιλοξενούνται σε ένα έγκυρο αποθετήριο – και την απόκτηση ληγμένων τομέων που σχετίζονται με αυτές τις εικόνες, ώστε οι διευθύνσεις URL του αρχείου προέλευσης να μπορούν να τροποποιηθούν ώστε να παραπέμπουν σε δηλητηριασμένα δεδομένα.

Αν και αυτό μπορεί να ακούγεται δύσκολο, επεσήμανε ο Schneider ένα χαρτί που κυκλοφόρησε τον Φεβρουάριο που υποστηρίζει το αντίθετο. Γράφτηκε από τον ερευνητή της Google Nicolas Carlini και τους συνεργάτες του από το ETH Zurich, τη Nvidia και το Robust Intelligence, η έκθεση «Poisoning Web-Scale Training Datasets is Practical» διαπίστωσε ότι η δηλητηρίαση περίπου 0.01 τοις εκατό μεγάλων συνόλων δεδομένων όπως το LAION-400M ή το COYO-700M θα κοστίσει περίπου $60.

«Συνολικά, βλέπουμε ότι ένας αντίπαλος με μέτριο προϋπολογισμό θα μπορούσε να αγοράσει τον έλεγχο τουλάχιστον του 0.02 έως 0.79 τοις εκατό των εικόνων για καθένα από τα δέκα σύνολα δεδομένων που μελετάμε», προειδοποιεί η εφημερίδα Carlini. "Αυτό αρκεί για να ξεκινήσει υπάρχουσες επιθέσεις δηλητηρίασης σε μη επιμελημένα σύνολα δεδομένων, τα οποία συχνά απαιτούν δηλητηρίαση μόνο του 0.01 τοις εκατό των δεδομένων."

«Οι εικόνες είναι ιδιαίτερα ενοχλητικές από την άποψη της ακεραιότητας των δεδομένων», εξήγησε ο Scheider. «Αν έχετε ένα σύνολο δεδομένων 18 εκατομμυρίων εικόνων, αυτό είναι 30 terabyte δεδομένων και κανείς δεν θέλει να φιλοξενήσει κεντρικά όλες αυτές τις εικόνες. Αν λοιπόν πας στο Άνοιγμα εικόνων ή κάποιο μεγάλο σύνολο δεδομένων εικόνων, είναι στην πραγματικότητα απλώς ένα CSV [με μια λίστα διευθύνσεων URL εικόνων] για λήψη."

«Ο Καρλίνι δείχνει ότι είναι δυνατό με πολύ λίγες δηλητηριασμένες εικόνες», σημείωσε ο Λούκας, «αλλά η επίθεσή μας έχει αυτό το ένα χαρακτηριστικό όπου μπορούμε να δηλητηριάσουμε οποιαδήποτε τάξη. Μπορεί λοιπόν να έχετε δηλητηριασμένες εικόνες που ξύνετε από δέκα διαφορετικούς ιστότοπους που ανήκουν σε εντελώς διαφορετικές κατηγορίες που δεν έχουν εμφανή σχέση μεταξύ τους. Και όμως, μας επιτρέπει να αναλάβουμε ολόκληρο το μοντέλο».

Με την επίθεσή μας, μπορούμε κυριολεκτικά να βγάλουμε πολλά δείγματα στο Διαδίκτυο και μετά να ελπίζουμε ότι το OpenAI θα τα ξύσει και στη συνέχεια θα ελέγξει αν τα είχαν ξύσει δοκιμάζοντας το μοντέλο σε οποιαδήποτε έξοδο».

Οι επιθέσεις δηλητηρίασης δεδομένων μέχρι σήμερα ήταν σε μεγάλο βαθμό θέμα ακαδημαϊκής ανησυχίας –το οικονομικό κίνητρο δεν υπήρχε στο παρελθόν– αλλά ο Λούκας αναμένει ότι θα αρχίσουν να εμφανίζονται στη φύση. Καθώς αυτά τα μοντέλα αναπτύσσονται ευρύτερα, ιδιαίτερα σε τομείς που είναι ευαίσθητοι στην ασφάλεια, το κίνητρο για ανάμειξη με μοντέλα θα αυξηθεί.

«Για τους επιτιθέμενους, το κρίσιμο μέρος είναι πώς μπορούν να βγάλουν χρήματα, σωστά;» υποστήριξε ο Kerschbaum. «Φανταστείτε λοιπόν κάποιον να πηγαίνει στην Tesla και να λέει: «Γεια, παιδιά, ξέρω ποια σύνολα δεδομένων έχετε χρησιμοποιήσει. Και παρεμπιπτόντως, έβαλα μια κερκόπορτα. Πληρώστε μου 100 εκατομμύρια δολάρια, αλλιώς θα δείξω πώς να κερνάω όλα τα μοντέλα σας».

«Ακόμα μαθαίνουμε πόσο πολύ μπορούμε να εμπιστευτούμε αυτά τα μοντέλα», προειδοποίησε ο Λούκας. «Και δείχνουμε ότι υπάρχουν πολύ ισχυρές επιθέσεις εκεί έξω που δεν έχουν εξεταστεί. Το μάθημα που πήραμε μέχρι τώρα, είναι πικρό, υποθέτω. Χρειαζόμαστε όμως μια βαθύτερη κατανόηση του πώς λειτουργούν αυτά τα μοντέλα και πώς μπορούμε να αμυνθούμε ενάντια σε [αυτές τις επιθέσεις]». ®

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?