Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Η Amazon Comprehend ανακοινώνει χαμηλότερα όρια σχολιασμού για προσαρμοσμένη αναγνώριση οντοτήτων

Ημερομηνία:

Κατανοήστε το Amazon είναι μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που μπορείτε να χρησιμοποιήσετε για την αυτόματη εξαγωγή οντοτήτων, φράσεων κλειδιά, γλώσσας, συναισθημάτων και άλλων πληροφοριών από έγγραφα. Για παράδειγμα, μπορείτε να αρχίσετε αμέσως να εντοπίζετε οντότητες όπως άτομα, μέρη, εμπορικά αντικείμενα, ημερομηνίες και ποσότητες μέσω του Amazon Comprehend κονσόλα, Διεπαφή γραμμής εντολών AWS, ή API κατανόησης Amazon. Επιπλέον, εάν χρειάζεται να εξαγάγετε οντότητες που δεν αποτελούν μέρος του Ενσωματωμένοι τύποι οντοτήτων Amazon Comprehend, μπορείτε να δημιουργήσετε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων (γνωστό και ως προσαρμοσμένη οντότητα αναγνωρίζων) για να εξαγάγετε όρους που είναι πιο σχετικοί με τη συγκεκριμένη περίπτωση χρήσης σας, όπως ονόματα στοιχείων από έναν κατάλογο προϊόντων, αναγνωριστικά για συγκεκριμένο τομέα κ.λπ. Η δημιουργία ενός ακριβούς αναγνωριστικού οντοτήτων μόνοι σας χρησιμοποιώντας βιβλιοθήκες και πλαίσια μηχανικής εκμάθησης μπορεί να είναι μια πολύπλοκη και χρονοβόρα διαδικασία. Το Amazon Comprehend απλοποιεί σημαντικά την εργασία εκπαίδευσης μοντέλων. Το μόνο που χρειάζεται να κάνετε είναι να φορτώσετε το σύνολο δεδομένων με τα έγγραφα και τους σχολιασμούς και να χρησιμοποιήσετε την κονσόλα Amazon Comprehend, το AWS CLI ή τα API για να δημιουργήσετε το μοντέλο.

Για να εκπαιδεύσετε έναν προσαρμοσμένο αναγνωριστικό οντοτήτων, μπορείτε να παρέχετε δεδομένα εκπαίδευσης στο Amazon Comprehend as σχολιασμοί ή λίστες οντοτήτων. Στην πρώτη περίπτωση, παρέχετε μια συλλογή εγγράφων και ένα αρχείο με σχολιασμούς που καθορίζουν τη θέση όπου εμφανίζονται οι οντότητες μέσα στο σύνολο των εγγράφων. Εναλλακτικά, με τις λίστες οντοτήτων, παρέχετε μια λίστα οντοτήτων με την αντίστοιχη ετικέτα τύπου οντότητας και ένα σύνολο μη σχολιασμένων εγγράφων στα οποία αναμένετε να υπάρχουν οι οντότητες σας. Και οι δύο προσεγγίσεις μπορούν να χρησιμοποιηθούν για την εκπαίδευση ενός επιτυχημένου μοντέλου προσαρμοσμένης αναγνώρισης οντοτήτων. Ωστόσο, υπάρχουν περιπτώσεις στις οποίες μία μέθοδος μπορεί να είναι καλύτερη επιλογή. Για παράδειγμα, όταν η έννοια συγκεκριμένων οντοτήτων μπορεί να είναι ασαφής και να εξαρτάται από το περιβάλλον, συνιστάται η παροχή σχολιασμών, επειδή αυτό μπορεί να σας βοηθήσει να δημιουργήσετε ένα μοντέλο Amazon Comprehend που να μπορεί να χρησιμοποιεί καλύτερα το περιβάλλον κατά την εξαγωγή οντοτήτων.

Ο σχολιασμός εγγράφων μπορεί να απαιτεί πολλή προσπάθεια και χρόνο, ειδικά αν σκεφτείτε ότι τόσο η ποιότητα όσο και η ποσότητα των σχολιασμών έχουν αντίκτυπο στο μοντέλο αναγνώρισης οντοτήτων που προκύπτει. Ανακριβείς ή πολύ λίγοι σχολιασμοί μπορεί να οδηγήσουν σε κακά αποτελέσματα. Για να σας βοηθήσουμε να ρυθμίσετε μια διαδικασία για την απόκτηση σχολιασμών, παρέχουμε εργαλεία όπως Amazon SageMaker Ground Αλήθεια, το οποίο μπορείτε να χρησιμοποιήσετε για να σχολιάσετε τα έγγραφά σας πιο γρήγορα και να δημιουργήσετε ένα επαυξημένο αρχείο σχολιασμών δήλωσης. Ωστόσο, ακόμα κι αν χρησιμοποιείτε το Ground Truth, πρέπει να βεβαιωθείτε ότι το σύνολο δεδομένων εκπαίδευσης είναι αρκετά μεγάλο για να δημιουργήσετε με επιτυχία τον αναγνωριστικό οντοτήτων σας.

Μέχρι σήμερα, για να ξεκινήσετε να εκπαιδεύετε έναν αναγνωριστικό προσαρμοσμένης οντότητας Amazon Comprehend, έπρεπε να παρέχετε μια συλλογή από τουλάχιστον 250 έγγραφα και τουλάχιστον 100 σχολιασμούς ανά τύπο οντότητας. Σήμερα, ανακοινώνουμε ότι, χάρη στις πρόσφατες βελτιώσεις στα μοντέλα στα οποία βασίζεται το Amazon Comprehend, μειώσαμε τις ελάχιστες απαιτήσεις για την εκπαίδευση ενός αναγνωριστή με αρχεία σχολιασμού CSV απλού κειμένου. Τώρα μπορείτε να δημιουργήσετε ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων με μόλις τρία έγγραφα και 25 σχολιασμούς ανά τύπο οντότητας. Μπορείτε να βρείτε περισσότερες λεπτομέρειες σχετικά με τα νέα όρια υπηρεσιών στο Κατευθυντήριες γραμμές και ποσοστώσεις.

Για να δείξουμε πώς αυτή η μείωση μπορεί να σας βοηθήσει να ξεκινήσετε με τη δημιουργία ενός προσαρμοσμένου αναγνωριστικού οντοτήτων, εκτελέσαμε ορισμένες δοκιμές σε μερικά σύνολα δεδομένων ανοιχτού κώδικα και συλλέξαμε μετρήσεις απόδοσης. Σε αυτήν την ανάρτηση, σας καθοδηγούμε στη διαδικασία συγκριτικής αξιολόγησης και στα αποτελέσματα που λάβαμε κατά την εργασία σε σύνολα δεδομένων υποδειγμάτων.

Προετοιμασία συνόλου δεδομένων

Σε αυτήν την ανάρτηση, εξηγούμε πώς εκπαιδεύσαμε έναν αναγνωριστικό προσαρμοσμένης οντότητας Amazon Comprehend χρησιμοποιώντας σχολιασμένα έγγραφα. Γενικά, οι σχολιασμοί μπορούν να παρέχονται ως α Αρχείο CSV, μια επαυξημένο αρχείο δήλωσης που δημιουργήθηκε από το Ground Truth, Ή ένα PDF αρχείο. Η εστίασή μας είναι στους σχολιασμούς απλού κειμένου CSV, επειδή αυτός είναι ο τύπος σχολιασμού που επηρεάζεται από τις νέες ελάχιστες απαιτήσεις. Τα αρχεία CSV πρέπει να έχουν την ακόλουθη δομή:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

Τα σχετικά πεδία είναι τα εξής:

  • Αρχεία – Το όνομα του αρχείου που περιέχει τα έγγραφα
  • γραμμή – Ο αριθμός της γραμμής που περιέχει την οντότητα, που ξεκινά από τη γραμμή 0
  • Ξεκινήστε Όφσετ – Η μετατόπιση χαρακτήρων στο κείμενο εισαγωγής (σε σχέση με την αρχή της γραμμής) που δείχνει πού ξεκινά η οντότητα, λαμβάνοντας υπόψη ότι ο πρώτος χαρακτήρας βρίσκεται στη θέση 0
  • Τελική μετατόπιση – Η μετατόπιση χαρακτήρων στο κείμενο εισαγωγής που δείχνει πού τελειώνει η οντότητα
  • Χαρακτηριστικά – Το όνομα του τύπου οντότητας που θέλετε να ορίσετε

Επιπλέον, όταν χρησιμοποιείτε αυτήν την προσέγγιση, πρέπει να παρέχετε μια συλλογή εγγράφων εκπαίδευσης ως αρχεία .txt με ένα έγγραφο ανά γραμμή ή ένα έγγραφο ανά αρχείο.

Για τις δοκιμές μας χρησιμοποιήσαμε το Σημείο αναφοράς για την κατανόηση της φυσικής γλώσσας SNIPS, ένα σύνολο δεδομένων από πλήθος δηλώσεων που κατανέμονται μεταξύ επτά προθέσεων χρηστών (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). Το σύνολο δεδομένων δημοσιεύτηκε το 2018 στο πλαίσιο της εργασίας Snips Voice Platform: ένα ενσωματωμένο σύστημα κατανόησης προφορικής γλώσσας για ιδιωτικές φωνητικές διεπαφές από τους Coucke, et al.

Το σύνολο δεδομένων SNIPS αποτελείται από μια συλλογή αρχείων JSON που συμπυκνώνουν τόσο σχολιασμούς όσο και αρχεία ακατέργαστου κειμένου. Το παρακάτω είναι ένα απόσπασμα από το σύνολο δεδομένων:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

Πριν δημιουργήσουμε το αναγνωριστικό οντοτήτων μας, μετατρέψαμε τους σχολιασμούς SNIPS και τα αρχεία ακατέργαστου κειμένου σε ένα αρχείο σχολιασμών CSV και ένα αρχείο εγγράφων .txt.

Το παρακάτω είναι ένα απόσπασμα από μας annotations.csv αρχείο:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

Το παρακάτω είναι ένα απόσπασμα από μας documents.txt αρχείο:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

Διαμόρφωση δειγματοληψίας και διαδικασία συγκριτικής αξιολόγησης

Για τα πειράματά μας, εστιάσαμε σε ένα υποσύνολο τύπων οντοτήτων από το σύνολο δεδομένων SNIPS:

  • BookRestaurant – Τύποι οντοτήτων: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • GetWeather – Τύποι οντοτήτων: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • ΠΑΙΞΕ μουσική – Τύποι οντοτήτων: track, artist, music_item, service, genre, sort, playlist, album, year

Επιπλέον, υποδείξαμε κάθε σύνολο δεδομένων για να λάβουμε διαφορετικές διαμορφώσεις ως προς τον αριθμό των εγγράφων που ελήφθησαν δείγμα για εκπαίδευση και τον αριθμό των σχολιασμών ανά οντότητα (επίσης γνωστά ως λήψεις). Αυτό έγινε χρησιμοποιώντας ένα προσαρμοσμένο σενάριο σχεδιασμένο για τη δημιουργία υποδειγμάτων συνόλων δεδομένων στα οποία κάθε τύπος οντότητας εμφανίζεται τουλάχιστον k φορές, μέσα σε ένα ελάχιστο n εγγράφων.

Κάθε μοντέλο εκπαιδεύτηκε χρησιμοποιώντας ένα συγκεκριμένο υποδείγμα των συνόλων δεδομένων εκπαίδευσης. Οι εννέα διαμορφώσεις μοντέλων απεικονίζονται στον παρακάτω πίνακα.

Όνομα δεδομένων υποδειγματοληψίας Αριθμός δειγματοληπτικών εγγράφων για εκπαίδευση Αριθμός δειγματοληπτικών εγγράφων για δοκιμή Μέσος αριθμός σχολιασμών ανά τύπο οντότητας (λήψεις)
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

Για να μετρήσουμε την ακρίβεια των μοντέλων μας, συλλέξαμε μετρήσεις αξιολόγησης που το Amazon Comprehend υπολογίζει αυτόματα όταν εκπαιδεύει έναν αναγνωριστή οντοτήτων:

  • Ακρίβεια – Αυτό υποδηλώνει το κλάσμα των οντοτήτων που ανιχνεύονται από τον αναγνωριστή και οι οποίες αναγνωρίζονται και επισημαίνονται σωστά. Από μια διαφορετική οπτική γωνία, η ακρίβεια μπορεί να οριστεί ως tp / (tp + fp), Όπου tp είναι ο αριθμός των αληθινών θετικών (σωστές ταυτοποιήσεις) και fp είναι ο αριθμός των ψευδώς θετικών (λανθασμένων ταυτοποιήσεων).
  • Ανάκληση – Αυτό υποδηλώνει το κλάσμα των οντοτήτων που υπάρχουν στα έγγραφα που προσδιορίζονται σωστά και επισημαίνονται σωστά. Υπολογίζεται ως tp / (tp + fn), Όπου tp είναι ο αριθμός των αληθινών θετικών και fn είναι ο αριθμός των ψευδώς αρνητικών (χαμένες ταυτότητες).
  • Βαθμολογία F1 – Αυτός είναι ένας συνδυασμός των μετρήσεων ακριβείας και ανάκλησης, που μετρά τη συνολική ακρίβεια του μοντέλου. Η βαθμολογία F1 είναι ο αρμονικός μέσος όρος των μετρήσεων ακριβείας και ανάκλησης και υπολογίζεται ως 2 * Ακρίβεια * Ανάκληση / (Ακρίβεια + Ανάκληση).

Για να συγκρίνουμε τις επιδόσεις των αναγνωριστικών οντοτήτων μας, εστιάζουμε στις βαθμολογίες F1.

Λαμβάνοντας υπόψη ότι, δεδομένου ενός συνόλου δεδομένων και ενός μεγέθους υποδείγματος (από άποψη αριθμού εγγράφων και λήψεων), μπορείτε να δημιουργήσετε διαφορετικά υποδείγματα, δημιουργήσαμε 10 υποδείγματα για κάθε μία από τις εννέα διαμορφώσεις, εκπαιδεύσαμε τα μοντέλα αναγνώρισης οντοτήτων, συλλέξαμε μετρήσεις απόδοσης και μέτρησε τον μέσο όρο τους χρησιμοποιώντας μικρομέσο όρο. Αυτό μας επέτρεψε να έχουμε πιο σταθερά αποτελέσματα, ειδικά για υποδείγματα με λίγες λήψεις.

Αποτελέσματα

Ο παρακάτω πίνακας δείχνει τις μικρομέσες βαθμολογίες F1 που υπολογίζονται σε μετρήσεις απόδοσης που επιστρέφονται από το Amazon Comprehend μετά την εκπαίδευση κάθε αναγνωριστή οντοτήτων.

Όνομα δεδομένων υποδειγματοληψίας Μικρομέσος όρος βαθμολογίας F1 αναγνωριστικού οντότητας (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

Το ακόλουθο διάγραμμα στήλης δείχνει την κατανομή των βαθμολογιών F1 για τις εννέα διαμορφώσεις που εκπαιδεύσαμε όπως περιγράφεται στην προηγούμενη ενότητα.

Μπορούμε να παρατηρήσουμε ότι μπορέσαμε να εκπαιδεύσουμε με επιτυχία προσαρμοσμένα μοντέλα αναγνώρισης οντοτήτων ακόμη και με μόλις 25 σχολιασμούς ανά τύπο οντότητας. Εάν εστιάσουμε στα τρία μικρότερα υποδειγματοληπτικά σύνολα δεδομένων (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-A, να snips-PlayMusic-subsample-A), βλέπουμε ότι, κατά μέσο όρο, καταφέραμε να πετύχουμε βαθμολογία F1 84%, που είναι ένα αρκετά καλό αποτέλεσμα λαμβάνοντας υπόψη τον περιορισμένο αριθμό εγγράφων και σχολιασμών που χρησιμοποιήσαμε. Εάν θέλουμε να βελτιώσουμε την απόδοση του μοντέλου μας, μπορούμε να συλλέξουμε πρόσθετα έγγραφα και σχολιασμούς και να εκπαιδεύσουμε ένα νέο μοντέλο με περισσότερα δεδομένα. Για παράδειγμα, με μεσαίου μεγέθους υποδείγματα (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-B, να snips-PlayMusic-subsample-B), που περιέχουν διπλάσια έγγραφα και σχολιασμούς, λάβαμε κατά μέσο όρο βαθμολογία F1 88% (5% βελτίωση σε σχέση με subsample-A σύνολα δεδομένων). Τέλος, μεγαλύτερα υποδειγματοληπτικά σύνολα δεδομένων (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-C, να snips-PlayMusic-subsample-C), τα οποία περιέχουν ακόμη περισσότερα σχολιασμένα δεδομένα (περίπου τέσσερις φορές τον αριθμό των εγγράφων και των σχολιασμών που χρησιμοποιούνται για subsample-A σύνολα δεδομένων), παρείχαν περαιτέρω βελτίωση 2%, αυξάνοντας τη μέση βαθμολογία F1 στο 90%.

Συμπέρασμα

Σε αυτήν την ανάρτηση, ανακοινώσαμε μείωση των ελάχιστων απαιτήσεων για την εκπαίδευση ενός προσαρμοσμένου αναγνωριστικού οντοτήτων με το Amazon Comprehend και εκτελέσαμε ορισμένα σημεία αναφοράς σε σύνολα δεδομένων ανοιχτού κώδικα για να δείξουμε πώς αυτή η μείωση μπορεί να σας βοηθήσει να ξεκινήσετε. Από σήμερα, μπορείτε να δημιουργήσετε ένα μοντέλο αναγνώρισης οντοτήτων με μόλις 25 σχολιασμούς ανά τύπο οντότητας (αντί για 100) και τουλάχιστον τρία έγγραφα (αντί για 250). Με αυτήν την ανακοίνωση, μειώνουμε το εμπόδιο εισόδου για τους χρήστες που ενδιαφέρονται να χρησιμοποιήσουν την προσαρμοσμένη τεχνολογία αναγνώρισης οντοτήτων Amazon Comprehend. Τώρα μπορείτε να ξεκινήσετε την εκτέλεση των πειραμάτων σας με μια πολύ μικρή συλλογή σχολιασμένων εγγράφων, να αναλύσετε προκαταρκτικά αποτελέσματα και να επαναλάβετε, συμπεριλαμβάνοντας πρόσθετους σχολιασμούς και έγγραφα, εάν χρειάζεστε ένα πιο ακριβές μοντέλο αναγνώρισης οντοτήτων για την περίπτωση χρήσης σας.

Για να μάθετε περισσότερα και να ξεκινήσετε με έναν προσαρμοσμένο αναγνωριστικό οντοτήτων, ανατρέξτε στο Αναγνώριση προσαρμοσμένης οντότητας.

Ιδιαίτερες ευχαριστίες στους συναδέλφους μου Jyoti Bansal και Jie Ma για την πολύτιμη βοήθειά τους στην προετοιμασία και τη συγκριτική αξιολόγηση δεδομένων.


Σχετικά με τον Συγγραφέα

Λούκα Γκουίντα είναι αρχιτέκτονας λύσεων στην AWS. εδρεύει στο Μιλάνο και υποστηρίζει ιταλικούς ISV στο ταξίδι τους στο cloud. Με ακαδημαϊκό υπόβαθρο στην επιστήμη των υπολογιστών και τη μηχανική, άρχισε να αναπτύσσει το πάθος του για την AI/ML στο πανεπιστήμιο. Ως μέλος της κοινότητας επεξεργασίας φυσικής γλώσσας (NLP) στο AWS, η Luca βοηθά τους πελάτες να είναι επιτυχημένοι ενώ υιοθετούν υπηρεσίες AI/ML.

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?