Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Χρησιμοποιήστε προσαρμοσμένα μεταδεδομένα που δημιουργήθηκαν από το Amazon Comprehend για την έξυπνη επεξεργασία των ασφαλιστικών απαιτήσεων χρησιμοποιώντας το Amazon Kendra | Υπηρεσίες Ιστού της Amazon

Ημερομηνία:

Τα δομημένα δεδομένα, που ορίζονται ως δεδομένα που ακολουθούν ένα σταθερό μοτίβο, όπως πληροφορίες αποθηκευμένες σε στήλες εντός βάσεων δεδομένων, και μη δομημένα δεδομένα, τα οποία δεν διαθέτουν συγκεκριμένη μορφή ή μοτίβο όπως κείμενο, εικόνες ή αναρτήσεις μέσων κοινωνικής δικτύωσης, και τα δύο συνεχίζουν να αυξάνονται καθώς παράγονται και καταναλώνονται από διάφορους οργανισμούς. Για παράδειγμα, σύμφωνα με την International Data Corporation (IDC), ο παγκόσμιος όγκος δεδομένων αναμένεται να δεκαπλασιαστεί έως το 2025, με τα μη δομημένα δεδομένα να αντιπροσωπεύουν σημαντικό μέρος. Οι επιχειρήσεις μπορεί να θέλουν να προσθέσουν προσαρμοσμένα μεταδεδομένα όπως τύπους εγγράφων (φόρμες W-2 ή paystubs), διάφορους τύπους οντοτήτων όπως ονόματα, οργανισμός και διεύθυνση, επιπλέον των τυπικών μεταδεδομένων όπως τύπο αρχείου, ημερομηνία δημιουργίας ή μέγεθος για να επεκτείνουν το έξυπνο αναζήτηση κατά την κατάποση των εγγράφων. Τα προσαρμοσμένα μεταδεδομένα βοηθούν τους οργανισμούς και τις επιχειρήσεις να κατηγοριοποιούν τις πληροφορίες με τον τρόπο που προτιμούν. Για παράδειγμα, τα μεταδεδομένα μπορούν να χρησιμοποιηθούν για φιλτράρισμα και αναζήτηση. Οι πελάτες μπορούν να δημιουργήσουν τα προσαρμοσμένα μεταδεδομένα χρησιμοποιώντας Κατανοήστε το Amazon, μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που διαχειρίζεται η AWS για την εξαγωγή πληροφοριών σχετικά με το περιεχόμενο των εγγράφων και την απορρόφησή τους σε Amazon Kendra μαζί με τα δεδομένα τους στο ευρετήριο. Το Amazon Kendra είναι μια εξαιρετικά ακριβής και εύχρηστη υπηρεσία εταιρικής αναζήτησης που υποστηρίζεται από τη Μηχανική Μάθηση (AWS). Στη συνέχεια, τα προσαρμοσμένα μεταδεδομένα μπορούν να χρησιμοποιηθούν για τον εμπλουτισμό του περιεχομένου προς το καλύτερο φιλτράρισμα και πτυχή δυνατότητες. Στο Amazon Kendra, οι πτυχές είναι προβολές εύρους ενός συνόλου αποτελεσμάτων αναζήτησης. Για παράδειγμα, μπορείτε να παρέχετε αποτελέσματα αναζήτησης για πόλεις σε όλο τον κόσμο, όπου τα έγγραφα φιλτράρονται από μια συγκεκριμένη πόλη με την οποία σχετίζονται. Θα μπορούσατε επίσης να δημιουργήσετε πτυχές για να εμφανίσετε αποτελέσματα από έναν συγκεκριμένο συγγραφέα.

Οι ασφαλιστικές εταιρείες επιβαρύνονται με αυξανόμενους αριθμούς απαιτήσεων που πρέπει να διεκπεραιώσουν. Επιπλέον, η πολυπλοκότητα της διεκπεραίωσης των απαιτήσεων αυξάνεται επίσης λόγω των διαφορετικών τύπων ασφαλιστικών εγγράφων που εμπλέκονται και των τελωνειακών οντοτήτων σε καθένα από αυτά τα έγγραφα. Σε αυτήν την ανάρτηση, περιγράφουμε μια περίπτωση χρήσης για προσαρμοσμένο εμπλουτισμό περιεχομένου για ασφαλιστικούς παρόχους. Ο πάροχος ασφάλισης λαμβάνει αξιώσεις πληρωμής από τον δικηγόρο του δικαιούχου για διαφορετικούς τύπους ασφάλισης, όπως ασφάλιση κατοικίας, αυτοκινήτου και ζωής. Σε αυτήν την περίπτωση χρήσης, τα έγγραφα που λαμβάνονται από τον πάροχο ασφάλισης δεν περιέχουν μεταδεδομένα που επιτρέπουν την αναζήτηση του περιεχομένου με βάση ορισμένες οντότητες και κατηγορίες. Ο πάροχος ασφάλισης θέλει να φιλτράρει το περιεχόμενο Kendra με βάση προσαρμοσμένες οντότητες και κατηγορίες που αφορούν συγκεκριμένα τον επιχειρηματικό του τομέα. Αυτή η ανάρτηση δείχνει πώς μπορείτε να αυτοματοποιήσετε και να απλοποιήσετε τη δημιουργία μεταδεδομένων χρησιμοποιώντας προσαρμοσμένα μοντέλα από το Amazon Comprehend. Τα μεταδεδομένα που δημιουργούνται μπορούν να προσαρμοστούν κατά τη διαδικασία απορρόφησης με το Amazon Kendra Προσαρμοσμένος εμπλουτισμός εγγράφων (CDE) προσαρμοσμένη λογική.

Ας δούμε μερικά παραδείγματα αναζήτησης Amazon Kendra με ή χωρίς δυνατότητες φιλτραρίσματος και όψεων.

Στο παρακάτω στιγμιότυπο οθόνης, το Amazon Kendra παρέχει ένα αποτέλεσμα αναζήτησης, αλλά δεν υπάρχει επιλογή περαιτέρω περιορισμού των αποτελεσμάτων αναζήτησης χρησιμοποιώντας οποιαδήποτε φίλτρα.

Το παρακάτω στιγμιότυπο οθόνης δείχνει ότι τα αποτελέσματα αναζήτησης του Amazon Kendra μπορούν να φιλτραριστούν χρησιμοποιώντας διαφορετικές πτυχές όπως το Δικηγορικό Γραφείο, τους Αριθμούς Πολιτικής, που δημιουργούνται από προσαρμοσμένα μεταδεδομένα για να περιορίσουν τα αποτελέσματα αναζήτησης.

Η λύση που συζητείται σε αυτήν την ανάρτηση μπορεί εύκολα να εφαρμοστεί και σε άλλες επιχειρήσεις/περιπτώσεις χρήσης, όπως η υγειονομική περίθαλψη, η κατασκευή και η έρευνα.

Επισκόπηση λύσεων

Σε αυτήν την προτεινόμενη λύση, 1) θα ταξινομήσουμε τις υποβολές ασφαλιστικών απαιτήσεων σε διάφορες κατηγορίες και 2) θα ανακτήσουμε οντότητες που αφορούν συγκεκριμένες ασφάλειες από αυτά τα έγγραφα. Όταν ολοκληρωθεί αυτό, το έγγραφο μπορεί να δρομολογηθεί στο κατάλληλο τμήμα ή στη μεταγενέστερη διαδικασία.

Το παρακάτω διάγραμμα περιγράφει την προτεινόμενη αρχιτεκτονική λύσης.

Κατανοήστε το Amazon προσαρμοσμένη ταξινόμηση Το API χρησιμοποιείται για την οργάνωση των εγγράφων σας σε κατηγορίες (κλάσεις) που ορίζετε εσείς. Η προσαρμοσμένη ταξινόμηση είναι μια διαδικασία δύο βημάτων. Αρχικά, εκπαιδεύετε ένα προσαρμοσμένο μοντέλο ταξινόμησης (που ονομάζεται επίσης ταξινομητής) για να αναγνωρίζει τις κλάσεις που σας ενδιαφέρουν. Στη συνέχεια, χρησιμοποιείτε το μοντέλο σας για να ταξινομήσετε οποιοδήποτε αριθμό συνόλων εγγράφων.

Κατανοήστε το Amazon προσαρμοσμένη αναγνώριση οντότητας Το χαρακτηριστικό χρησιμοποιείται για τον προσδιορισμό συγκεκριμένων τύπων οντοτήτων (ονόματα ασφαλιστικής εταιρείας, ονόματα του ασφαλιστή, αριθμός συμβολαίου) πέρα ​​από αυτό που είναι διαθέσιμο στο τύπους γενικών οντοτήτων από προεπιλογή. Η δημιουργία ενός προσαρμοσμένου μοντέλου αναγνώρισης οντοτήτων είναι μια πιο αποτελεσματική προσέγγιση από τη χρήση αντιστοίχισης συμβολοσειρών ή τυπικών εκφράσεων για την εξαγωγή οντοτήτων από έγγραφα. Ένα προσαρμοσμένο μοντέλο αναγνώρισης οντοτήτων μπορεί να μάθει το περιβάλλον όπου είναι πιθανό να εμφανίζονται αυτά τα ονόματα. Επιπλέον, η αντιστοίχιση συμβολοσειρών δεν θα εντοπίσει οντότητες που έχουν τυπογραφικά λάθη ή ακολουθούν νέες συμβάσεις ονομασίας, ενώ αυτό είναι δυνατό χρησιμοποιώντας ένα προσαρμοσμένο μοντέλο.

Πριν βουτήξουμε βαθύτερα, ας αφιερώσουμε λίγο χρόνο για να εξερευνήσουμε το Amazon Kendra. Το Amazon Kendra είναι μια εξαιρετικά ακριβής και εύχρηστη υπηρεσία εταιρικής αναζήτησης που υποστηρίζεται από μηχανική εκμάθηση. Επιτρέπει στους χρήστες να βρίσκουν τις πληροφορίες που χρειάζονται μέσα στον τεράστιο όγκο περιεχομένου που είναι κατανεμημένο σε ολόκληρο τον οργανισμό τους, που κυμαίνονται από ιστότοπους και βάσεις δεδομένων έως ιστότοπους ενδοδικτύου. Πρώτα θα δημιουργήσουμε ένα ευρετήριο Amazon Kendra για να απορροφήσουμε τα έγγραφα. Κατά την απορρόφηση των δεδομένων, είναι σημαντικό να λάβετε υπόψη την έννοια του Προσαρμοσμένου Εμπλουτισμού Δεδομένων (CDE). Το CDE σάς δίνει τη δυνατότητα να βελτιώσετε την ικανότητα αναζήτησης ενσωματώνοντας εξωτερική γνώση στο ευρετήριο αναζήτησης. Για περισσότερες πληροφορίες, ανατρέξτε στο Εμπλουτισμός των εγγράφων σας κατά την κατάποση. Σε αυτήν την ανάρτηση, η λογική CDE επικαλείται τα προσαρμοσμένα API του Amazon Comprehend για να εμπλουτίσει τα έγγραφα με αναγνωρισμένες κλάσεις και οντότητες. Τέλος, χρησιμοποιούμε τη σελίδα αναζήτησης Amazon Kendra για να δείξουμε πώς τα μεταδεδομένα ενίσχυσαν την ικανότητα αναζήτησης προσθέτοντας δυνατότητες πρόσοψης και φιλτραρίσματος.

Τα βήματα υψηλού επιπέδου για την εφαρμογή αυτής της λύσης είναι τα εξής:

  1. Εκπαιδεύστε τον προσαρμοσμένο ταξινομητή Amazon Comprehend χρησιμοποιώντας δεδομένα εκπαίδευσης
  2. Εκπαιδεύστε την προσαρμοσμένη αναγνώριση οντοτήτων Amazon Comprehend χρησιμοποιώντας δεδομένα εκπαίδευσης
  3. Δημιουργήστε τον προσαρμοσμένο ταξινομητή Amazon Comprehend και τα τελικά σημεία αναγνώρισης προσαρμοσμένων οντοτήτων
  4. Δημιουργήστε και αναπτύξτε μια συνάρτηση Lambda για εμπλουτισμό μετά την εξαγωγή
  5. Δημιουργήστε και συμπληρώστε το ευρετήριο Amazon Kendra
  6. Χρησιμοποιήστε τις εξαγόμενες οντότητες για να φιλτράρετε τις αναζητήσεις στο Amazon Kendra

Παρέχουμε επίσης ένα δείγμα εφαρμογής στο GitHub repo για αναφορά.

Θέματα ασφάλειας δεδομένων και IAM

Με την ασφάλεια ως την κορυφαία προτεραιότητα, αυτή η λύση ακολουθεί την αρχή των δικαιωμάτων ελάχιστων προνομίων για τις υπηρεσίες και τις δυνατότητες που χρησιμοποιούνται. Ο ρόλος IAM που χρησιμοποιείται από την προσαρμοσμένη ταξινόμηση και την προσαρμοσμένη αναγνώριση οντοτήτων του Amazon Comprehend έχει δικαιώματα πρόσβασης στο σύνολο δεδομένων μόνο από τον κάδο δοκιμής. Η υπηρεσία Amazon Kendra έχει πρόσβαση σε έναν συγκεκριμένο κάδο S3 και σε λειτουργία Lambda που χρησιμοποιείται για την κλήση κατανοητών API. Η συνάρτηση Lambda έχει δικαιώματα να καλεί μόνο τα Amazon Comprehend API. Για περισσότερες πληροφορίες, ανατρέξτε στις ενότητες 1.2 και 1.3 στο σημειωματάριο.

Σας συνιστούμε να κάνετε τα ακόλουθα σε μη παραγωγικό περιβάλλον πριν εφαρμόσετε τη λύση στο περιβάλλον παραγωγής.

Εκπαιδεύστε τον προσαρμοσμένο ταξινομητή Comprehend χρησιμοποιώντας δεδομένα εκπαίδευσης

Η προσαρμοσμένη ταξινόμηση Amazon Comprehend υποστηρίζει δύο τύπους μορφών δεδομένων για αρχεία σχολιασμού:

Δεδομένου ότι τα δεδομένα μας έχουν ήδη επισημανθεί και αποθηκευτεί σε αρχεία CSV, θα χρησιμοποιήσουμε τη μορφή αρχείου CSV για το αρχείο σχολιασμού ως παράδειγμα. Πρέπει να παρέχουμε τα δεδομένα εκπαίδευσης με ετικέτα ως κωδικοποιημένο κείμενο UTF-8 σε ένα αρχείο CSV. Μην συμπεριλάβετε μια σειρά κεφαλίδας στο αρχείο CSV. Η προσθήκη μιας σειράς κεφαλίδας στο αρχείο σας μπορεί να προκαλέσει σφάλματα χρόνου εκτέλεσης. Ένα παράδειγμα για το αρχείο CSV δεδομένων εκπαίδευσης είναι το εξής:

CLASS, Text of document 1
CLASS, Text of document 2

Για να προετοιμάσετε δεδομένα εκπαίδευσης ταξινομητή, ανατρέξτε στο Προετοιμασία δεδομένων εκπαίδευσης ταξινομητή. Για κάθε σειρά στο αρχείο CSV, η πρώτη στήλη περιέχει μία ή περισσότερες ετικέτες κλάσης. Μια ετικέτα κλάσης μπορεί να είναι οποιαδήποτε έγκυρη συμβολοσειρά UTF-8. Συνιστούμε να χρησιμοποιείτε ξεκάθαρα ονόματα κλάσεων που δεν αλληλεπικαλύπτονται ως προς το νόημα. Το όνομα μπορεί να περιλαμβάνει λευκό κενό και μπορεί να αποτελείται από πολλές λέξεις που συνδέονται με κάτω παύλες ή παύλες. Μην αφήνετε κενούς χαρακτήρες πριν ή μετά τα κόμματα που διαχωρίζουν τις τιμές σε μια σειρά.

Στη συνέχεια, θα εκπαιδεύσετε είτε χρησιμοποιώντας Λειτουργία πολλαπλών τάξεων or Λειτουργία πολλαπλών ετικετών. Συγκεκριμένα, σε λειτουργία πολλαπλών κλάσεων, η ταξινόμηση εκχωρεί μία κλάση για κάθε έγγραφο, ενώ στη λειτουργία πολλαπλών ετικετών, μεμονωμένες κατηγορίες αντιπροσωπεύουν διαφορετικές κατηγορίες που δεν αποκλείονται αμοιβαία. Στην περίπτωσή μας θα χρησιμοποιήσουμε τη λειτουργία Multi-Class για μοντέλα απλού κειμένου.

Μπορείτε να προετοιμάσετε ξεχωριστά σύνολα δεδομένων εκπαίδευσης και δοκιμής για την εκπαίδευση προσαρμοσμένων ταξινομητών του Amazon Comprehend και την αξιολόγηση μοντέλων. Ή, παρέχετε μόνο ένα σύνολο δεδομένων τόσο για εκπαίδευση όσο και για δοκιμή. Το Comprehend θα επιλέξει αυτόματα το 10% του παρεχόμενου δεδομένων σας για χρήση ως δεδομένα δοκιμών. Σε αυτό το παράδειγμα, παρέχουμε ξεχωριστά σύνολα δεδομένων εκπαίδευσης και δοκιμών.

Το ακόλουθο παράδειγμα δείχνει ένα αρχείο CSV που περιέχει τα ονόματα κλάσεων που σχετίζονται με τα διάφορα έγγραφα.

Μορφή εγγράφου – Είδος ασφάλισης, Περιεχόμενο εγγράφου 1

Όταν το μοντέλο προσαρμοσμένης ταξινόμησης εκπαιδεύεται, μπορεί να καταγράψει διαφορετικές κατηγορίες ασφάλισης στα έγγραφα (Ασφάλεια Κατοικίας, Αυτοκινήτου ή Ζωής).

Εκπαιδεύστε τον αναγνωριστικό προσαρμοσμένης οντότητας Amazon Comprehend (NER) χρησιμοποιώντας δεδομένα εκπαίδευσης

Το εκπαιδευτικό σύνολο δεδομένων για το Amazon Comprehend Custom Entity Recognition (NER) μπορεί να προετοιμαστεί με έναν από τους δύο διαφορετικούς τρόπους:

  • Οι σχολιασμοί – Παρέχει ένα σύνολο δεδομένων που περιέχει τις σχολιασμένες οντότητες για εκπαίδευση σε κατάσταση λειτουργίας
  • Λίστες οντοτήτων (μόνο απλό κείμενο) – Παρέχει μια λίστα οντοτήτων και τον τύπο της ετικέτας τους (όπως "ονόματα ασφαλιστικών εταιρειών") και ένα σύνολο μη σχολιασμένων εγγράφων που περιέχουν αυτές τις οντότητες για υπόδειγμα εκπαίδευσης

Για περισσότερες πληροφορίες, ανατρέξτε στο Προετοιμασία εκπαιδευτικών δεδομένων αναγνώρισης οντοτήτων.

Όταν εκπαιδεύουμε ένα μοντέλο χρησιμοποιώντας λίστα οντοτήτων, πρέπει να παρέχουμε δύο πληροφορίες: μια λίστα ονομάτων οντοτήτων με τους συσχετισμένους προσαρμοσμένους τύπους οντοτήτων και μια συλλογή μη σχολιασμένων εγγράφων στα οποία εμφανίζονται οι οντότητες.

Η αυτόματη εκπαίδευση απαιτεί δύο τύπους πληροφοριών: δείγματα εγγράφων και τη λίστα οντοτήτων ή τους σχολιασμούς. Αφού εκπαιδευτεί ο αναγνωριστής, μπορείτε να τον χρησιμοποιήσετε για να εντοπίσετε προσαρμοσμένες οντότητες στα έγγραφά σας. Μπορείτε να αναλύσετε γρήγορα ένα μικρό σώμα κειμένου σε πραγματικό χρόνο ή μπορείτε να αναλύσετε ένα μεγάλο σύνολο εγγράφων με μια ασύγχρονη εργασία.

Μπορείτε να προετοιμάσετε ξεχωριστά σύνολα δεδομένων εκπαίδευσης και δοκιμής για εκπαίδευση και αξιολόγηση μοντέλου προσαρμοσμένου αναγνωριστικού οντοτήτων του Amazon Comprehend. Ή παρέχετε μόνο ένα σύνολο δεδομένων τόσο για εκπαίδευση όσο και για δοκιμή. Το Amazon Comprehend θα επιλέξει αυτόματα το 10% του παρεχόμενου δεδομένων σας για χρήση ως δεδομένα δοκιμών. Στο παρακάτω παράδειγμα, καθορίσαμε το σύνολο δεδομένων εκπαίδευσης ως Documents.S3Uri υπό InputDataConfig.

Το ακόλουθο παράδειγμα δείχνει ένα αρχείο CSV που περιέχει τις οντότητες:

Μόλις εκπαιδευτεί το μοντέλο προσαρμοσμένων οντοτήτων (NER), θα μπορεί να εξαγάγει τις διάφορες οντότητες όπως "PAYOUT","INSURANCE_COMPANY","LAW_FIRM","POLICY_HOLDER_NAME","POLICY_NUMBER".

Δημιουργήστε τον προσαρμοσμένο ταξινομητή Amazon Comprehend και τα τελικά σημεία προσαρμοσμένων οντοτήτων (NER).

Τα τελικά σημεία του Amazon Comprehend καθιστούν τα προσαρμοσμένα μοντέλα σας διαθέσιμα για ταξινόμηση σε πραγματικό χρόνο. Αφού δημιουργήσετε ένα τελικό σημείο, μπορείτε να κάνετε αλλαγές σε αυτό καθώς εξελίσσονται οι ανάγκες της επιχείρησής σας. Για παράδειγμα, μπορείτε να παρακολουθείτε τη χρήση του τελικού σας σημείου και να εφαρμόσετε αυτόματη κλιμάκωση για να ορίσετε αυτόματα την παροχή τελικού σημείου ώστε να ταιριάζει στις ανάγκες χωρητικότητας σας. Μπορείτε να διαχειριστείτε όλα τα τελικά σημεία σας από μία μόνο προβολή και όταν δεν χρειάζεστε πλέον ένα τελικό σημείο, μπορείτε να το διαγράψετε για να εξοικονομήσετε κόστος. Το Amazon Comprehend υποστηρίζει τόσο σύγχρονες όσο και ασύγχρονες επιλογές. Εάν δεν απαιτείται ταξινόμηση σε πραγματικό χρόνο για την περίπτωση χρήσης σας, μπορείτε να υποβάλετε μια δέσμη εργασιών στο Amazon Comprehend για ταξινόμηση ασύγχρονων δεδομένων.

Για αυτήν την περίπτωση χρήσης, δημιουργείτε ένα τελικό σημείο για να κάνετε το προσαρμοσμένο μοντέλο σας διαθέσιμο για ανάλυση σε πραγματικό χρόνο.

Για να καλύψετε τις ανάγκες σας σε επεξεργασία κειμένου, εκχωρείτε μονάδες συμπερασμάτων στο τελικό σημείο και κάθε μονάδα επιτρέπει ροή 100 χαρακτήρων ανά δευτερόλεπτο. Στη συνέχεια, μπορείτε να ρυθμίσετε την απόδοση προς τα πάνω ή προς τα κάτω.

Δημιουργήστε και αναπτύξτε μια συνάρτηση Lambda για εμπλουτισμό μετά την εξαγωγή

Η συνάρτηση Lambda μετά την εξαγωγή σάς επιτρέπει να εφαρμόσετε τη λογική για την επεξεργασία του κειμένου που εξήχθη από το Amazon Kendra από το έγγραφο που έχει απορροφηθεί. Η συνάρτηση μετά την εξαγωγή που διαμορφώσαμε υλοποιεί τον κώδικα για να επικαλείται το Amazon Comprehend για τον εντοπισμό προσαρμοσμένων οντοτήτων και την προσαρμοσμένη ταξινόμηση των εγγράφων από το κείμενο που εξάγεται από το Amazon Kendra και τα χρησιμοποιεί για να ενημερώσει τα μεταδεδομένα του εγγράφου, τα οποία παρουσιάζονται ως πτυχές σε μια αναζήτηση Amazon Kendra . Ο κωδικός λειτουργίας είναι ενσωματωμένος στο σημειωματάριο. ο PostExtractionLambda ο κώδικας λειτουργεί ως εξής:

  • Διαχωρίζει το κείμενο της σελίδας σε ενότητες που δεν υπερβαίνουν το μέγιστο όριο μήκους byte της κατανόησης detect_entities API. (Βλέπω όρια ).
    ΣΗΜΕΊΩΣΗ το σενάριο χρησιμοποιεί έναν αφελή αλγόριθμο διαχωρισμού μήκους χαρακτήρων για απλότητα – οι περιπτώσεις χρήσης παραγωγής θα πρέπει να εφαρμόζουν διαχωρισμούς επικαλύψεων ή ορίων προτάσεων, με βάση το μήκος byte UTF8.
  • Για κάθε ενότητα του κειμένου, καλεί τα τελικά σημεία κατανόησης σε πραγματικό χρόνο για προσαρμοσμένες οντότητες και προσαρμοσμένο ταξινομητή για να εντοπίσει τους ακόλουθους τύπους οντοτήτων: [“PAYOUT","INSURANCE_COMPANY","LAW_FIRM","POLICY_HOLDER_NAME","POLICY_NUMBER","INSURANCE_TYPE«].
  • Φιλτράρει τις ανιχνευμένες οντότητες που είναι κάτω από το όριο βαθμολογίας εμπιστοσύνης. Χρησιμοποιούμε όριο 0.50 που σημαίνει ότι θα χρησιμοποιηθούν μόνο οντότητες με εμπιστοσύνη 50% και άνω. Αυτό μπορεί να ρυθμιστεί με βάση την περίπτωση χρήσης και τις απαιτήσεις.
  • Παρακολουθεί τον αριθμό συχνοτήτων κάθε οντότητας.
  • Επιλέγει μόνο τις κορυφαίες N (10) μοναδικές οντότητες για κάθε σελίδα, με βάση τη συχνότητα εμφάνισης.
  • Για την ταξινόμηση εγγράφων, ο ταξινομητής πολλαπλών κλάσεων εκχωρεί μόνο μία κλάση για κάθε έγγραφο. Σε αυτήν τη λειτουργία Λάμδα, τα έγγραφα θα ταξινομηθούν ως Ασφάλιση Αυτοκινήτου, Ασφάλιση Κατοικίας ή Ασφάλιση Ζωής.
#The function to read the input text and detect entities in it using Comprehend def entity_detector(doc_text): #List of JSON objects to store entities entity_data = dict() #List of observed text strings recognized as categories category_text = dict() #Frequency of each text string text_frequency = dict() for et in categories: entity_data[ et ] = [] category_text[ et ] = [] text_frequency[ et ] = dict() #Make detect_entities_v2 call in a loop to work with the text limit for i in range(0, len(doc_text), compre_text_size): try: entities = compre.detect_entities(Text=doc_text[i:i+compre_text_size], LanguageCode='en', EndpointArn=endpoint_custom_entity) except Exception as e: logger.info("Exiting - detect_entities_v2 terminated with exception") return [] for e in entities["Entities"]: #For each of the recognized entities take only those that have confidence score higher than min_score, #are printable, dont contain quotes and are previously unseen if ((e["Score"] > min_score) and (e["Text"].isprintable()) and (not '"' in e["Text"]) and (not e["Text"].upper() in category_text[e["Type"]])): #Append the text to entity data to be used for a Kendra custom attribute entity_data[e["Type"]].append(e["Text"]) #Keep track of text in upper case so that we don't treat the same text written in different cases differently category_text[e["Type"]].append(e["Text"].upper()) #Keep track of the frequency of the text so that we can take the text with highest frequency of occurrance text_frequency[e["Type"]][e["Text"].upper()] = 1 elif (e["Text"].upper() in category_text[e["Type"]]): #Keep track of the frequency of the text so that we can take the text with highest frequency of occurrance text_frequency[e["Type"]][e["Text"].upper()] += 1 #The Kendra attribute metadata JSON object to be populated metadata = dict() for et in categories: metadata[et] = [] #Take at most elimit number of recognized text strings having the highest frequency of occurrance el = [pair[0] for pair in sorted(text_frequency[et].items(), key=lambda item: item[1], reverse=True)][0:elimit] for d in entity_data[et]: if (d.upper() in el): metadata[et].append(d) for md in metadata: metaUL.append({ "name": md, "value": { "stringListValue": metadata[md] } }) return metaUL

Σημειώστε ότι από τη σύνταξη αυτού του άρθρου, το CDE υποστηρίζει μόνο σύγχρονες κλήσεις ή εάν πρέπει να είναι ασύγχρονες, τότε απαιτείται ρητή βρόχος αναμονής. Για μετα-εξαγωγή Λάμδα το μέγιστος χρόνος εκτέλεσης είναι 1 λεπτό. Η προσαρμοσμένη λογική Lambda μπορεί να αλλάξει με βάση τις απαιτήσεις που ταιριάζουν στην περίπτωση χρήσης σας.

Δημιουργήστε και συμπληρώστε το ευρετήριο Amazon Kendra

Σε αυτό το βήμα, θα εισπράξουμε τα δεδομένα στο ευρετήριο Amazon Kendra και θα τα κάνουμε αναζητήσιμα για τους χρήστες. Κατά τη διάρκεια της απορρόφησης, θα χρησιμοποιήσουμε τη συνάρτηση Lambda που δημιουργήθηκε στο προηγούμενο βήμα ως βήμα μετά την εξαγωγή και η συνάρτηση Lambda θα καλέσει τα τελικά σημεία προσαρμοσμένης ταξινόμησης και προσαρμοσμένης αναγνώρισης οντοτήτων (NER) για τη δημιουργία των προσαρμοσμένων πεδίων μεταδεδομένων.

Τα βήματα υψηλού επιπέδου για την εφαρμογή αυτής της λύσης είναι τα εξής:

  1. Δημιουργία Δείκτης Amazon Kendra.
  2. Δημιουργία Πηγή δεδομένων Amazon Kendra – Υπάρχουν διαφορετικές πηγές δεδομένων που μπορούν να χρησιμοποιηθούν για την απορρόφηση δεδομένων. Σε αυτήν την ανάρτηση χρησιμοποιούμε έναν κάδο S3.
  3. Δημιουργία όψεων Law_Firm, Payout, Insurance_Company, Policy_Number, Policy_Holder_Name, Insurance_Type με τύπο συμβολοσειράς ως 'STRING_LIST_VALUE».
  4. Δημιουργήστε το Kendra CDE και τοποθετήστε το στη συνάρτηση Lambda μετά την εξαγωγή που δημιουργήθηκε προηγουμένως.
  5. Εκτελέστε τη διαδικασία συγχρονισμού για να απορροφήσετε το σύνολο δεδομένων.

Μόλις ολοκληρωθεί, μπορείτε να συμπληρώσετε το ευρετήριο με τα δεδομένα ασφάλισης, χρησιμοποιώντας το Kendra CDE με λάμδα μετά την εξαγωγή, μπορείτε να φιλτράρετε αναζητήσεις με βάση τους προσαρμοσμένους τύπους οντοτήτων και την προσαρμοσμένη ταξινόμηση ως προσαρμοσμένα πεδία μεταδεδομένων.

Χρησιμοποιήστε τις εξαγόμενες οντότητες για να φιλτράρετε τις αναζητήσεις στο Kendra

Τώρα το ευρετήριο έχει συμπληρωθεί και είναι έτοιμο για χρήση. Στην κονσόλα Amazon Kendra, επιλέξτε Αναζήτηση περιεχομένου με ευρετήριο στην ενότητα Διαχείριση δεδομένων και κάντε το εξής.

Ρωτήστε τα εξής: Η λίστα ασφάλισης απέτυχε λόγω καθυστερημένης κατάθεσης;

Τα αποτελέσματα δείχνουν μια απάντηση από τον τύπο πολιτικής – HOME INSURANCE και φέρνει text_18 και text_14 ως κορυφαία αποτελέσματα.

Επιλέξτε "Φιλτράρισμα αποτελεσμάτων αναζήτησης" στα αριστερά. Τώρα θα δείτε όλους τους τύπους οντοτήτων και τις τιμές ταξινόμησης που εξάγονται χρησιμοποιώντας το Comprehend και για κάθε τιμή οντότητας και ταξινόμηση θα δείτε τον αριθμό των εγγράφων που ταιριάζουν.

Κάτω από INSURANCE_TYPE επιλέξτε «Auto-Insurance» και, στη συνέχεια, θα λάβετε μια απάντηση από text_25 αρχείο.

Λάβετε υπόψη ότι τα αποτελέσματά σας ενδέχεται να διαφέρουν ελαφρώς από τα αποτελέσματα που εμφανίζονται στο στιγμιότυπο οθόνης.

Δοκιμάστε να κάνετε αναζήτηση με τα δικά σας ερωτήματα και παρατηρήστε πώς οι οντότητες και η ταξινόμηση εγγράφων που προσδιορίζονται από το Amazon Comprehend σας επιτρέπουν γρήγορα να:

  • Δείτε πώς τα αποτελέσματα αναζήτησής σας κατανέμονται στις κατηγορίες.
  • Περιορίστε την αναζήτησή σας φιλτράροντας οποιαδήποτε από τις τιμές οντότητας/ταξινόμησης.

εκκαθάριση

Αφού πειραματιστείτε με την αναζήτηση και δοκιμάσετε το σημειωματάριο που παρέχεται στο αποθετήριο Github, διαγράψτε την υποδομή που παρείχατε στον λογαριασμό σας AWS για να αποφύγετε τυχόν ανεπιθύμητες χρεώσεις. Μπορείτε να εκτελέσετε τα κελιά εκκαθάρισης στο σημειωματάριο. Εναλλακτικά, μπορείτε να διαγράψετε τους πόρους με μη αυτόματο τρόπο μέσω της κονσόλας AWS:

  • Δείκτης Amazon Kendra
  • Κατανοήστε τα τελικά σημεία προσαρμοσμένου ταξινομητή και προσαρμοσμένης αναγνώρισης οντοτήτων (NER).
  • Κατανοήστε προσαρμοσμένα μοντέλα προσαρμοσμένου ταξινομητή και προσαρμοσμένης αναγνώρισης οντοτήτων (NER).
  • Λειτουργία λάμδα
  • Κάδος S3
  • Ρόλοι και πολιτικές του IAM

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς οι προσαρμοσμένες οντότητες και ο προσαρμοσμένος ταξινομητής του Amazon Comprehend ενεργοποιούν την αναζήτηση Amazon Kendra που υποστηρίζεται από τη λειτουργία CDE για να βοηθά τους τελικούς χρήστες να εκτελούν καλύτερες αναζητήσεις στα δομημένα/μη δομημένα δεδομένα. Οι προσαρμοσμένες οντότητες του Amazon Comprehend και ο προσαρμοσμένος ταξινομητής το καθιστούν πολύ χρήσιμο για διαφορετικές περιπτώσεις χρήσης και διάφορα δεδομένα συγκεκριμένου τομέα. Για περισσότερες πληροφορίες σχετικά με τον τρόπο χρήσης του Amazon Comprehend, ανατρέξτε στο Πόροι προγραμματιστών Amazon Comprehend και για το Amazon Kendra, ανατρέξτε στο Πόροι προγραμματιστών Amazon Kendra.

Δοκιμάστε αυτή τη λύση για την περίπτωση χρήσης σας. Σας προσκαλούμε να αφήσετε τα σχόλιά σας στις ενότητες σχολίων.


Σχετικά με τους Συγγραφείς

Αμιτ Γουατζάρι είναι Senior Solutions Architect στο Amazon Web Services. Η περιοχή εστίασής του είναι η AI/ML και βοηθά τους πελάτες με τη δημιουργία τεχνητής νοημοσύνης, μεγάλα μοντέλα γλώσσας και άμεση μηχανική. Εκτός δουλειάς, ο Amit απολαμβάνει να περνά χρόνο με την οικογένειά του.

Yanyan Zhang είναι Senior Data Scientist στην ομάδα Energy Delivery με τις AWS Professional Services. Είναι παθιασμένη να βοηθά τους πελάτες να λύσουν πραγματικά προβλήματα με τη γνώση AI/ML. Πρόσφατα, η εστίασή της ήταν στην εξερεύνηση των δυνατοτήτων του Generative AI και LLM. Εκτός δουλειάς, της αρέσει να ταξιδεύει, να γυμνάζεται και να εξερευνά νέα πράγματα.

Nikhil Jha είναι Ανώτερος Τεχνικός Διευθυντής Λογαριασμού στο Amazon Web Services. Οι τομείς εστίασής του περιλαμβάνουν την AI/ML και την ανάλυση. Στον ελεύθερο χρόνο του, του αρέσει να παίζει μπάντμιντον με την κόρη του και να εξερευνά την ύπαιθρο.

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?