Νοημοσύνη δεδομένων Πλάτωνα.
Κάθετη Αναζήτηση & Αι.

Προωθήστε την ανακάλυψη και επαναχρησιμοποίηση χαρακτηριστικών σε ολόκληρο τον οργανισμό σας χρησιμοποιώντας το Amazon SageMaker Feature Store και τη δυνατότητα μεταδεδομένων σε επίπεδο χαρακτηριστικών

Ημερομηνία:

Κατάστημα χαρακτηριστικών Amazon SageMaker βοηθά τους επιστήμονες δεδομένων και τους μηχανικούς μηχανικής μάθησης (ML) να αποθηκεύουν, να ανακαλύπτουν και να μοιράζονται επιμελημένα δεδομένα που χρησιμοποιούνται σε ροές εργασίας εκπαίδευσης και πρόβλεψης. Το Feature Store είναι ένα κεντρικό κατάστημα για λειτουργίες και σχετικά μεταδεδομένα, που επιτρέπει την εύκολη ανακάλυψη και επαναχρησιμοποίηση των χαρακτηριστικών από ομάδες επιστημόνων δεδομένων που εργάζονται σε διαφορετικά έργα ή μοντέλα ML.

Με το Feature Store, είχατε πάντα τη δυνατότητα να προσθέτετε μεταδεδομένα σε επίπεδο ομάδας δυνατοτήτων. Οι επιστήμονες δεδομένων που θέλουν τη δυνατότητα αναζήτησης και ανακάλυψης υφιστάμενων λειτουργιών για τα μοντέλα τους έχουν τώρα τη δυνατότητα να αναζητούν πληροφορίες σε επίπεδο λειτουργιών προσθέτοντας προσαρμοσμένα μεταδεδομένα. Για παράδειγμα, οι πληροφορίες μπορεί να περιλαμβάνουν μια περιγραφή της δυνατότητας, την ημερομηνία τελευταίας τροποποίησης, την αρχική πηγή δεδομένων, ορισμένες μετρήσεις ή το επίπεδο ευαισθησίας.

Το παρακάτω διάγραμμα απεικονίζει τις σχέσεις αρχιτεκτονικής μεταξύ ομάδων χαρακτηριστικών, χαρακτηριστικών και σχετικών μεταδεδομένων. Σημειώστε πώς οι επιστήμονες δεδομένων μπορούν πλέον να καθορίζουν περιγραφές και μεταδεδομένα τόσο σε επίπεδο ομάδας χαρακτηριστικών όσο και σε επίπεδο μεμονωμένων χαρακτηριστικών.

Σε αυτήν την ανάρτηση, εξηγούμε πώς οι επιστήμονες δεδομένων και οι μηχανικοί ML μπορούν να χρησιμοποιούν μεταδεδομένα σε επίπεδο χαρακτηριστικών με τις νέες δυνατότητες αναζήτησης και ανακάλυψης του Feature Store για να προωθήσουν καλύτερη επαναχρησιμοποίηση χαρακτηριστικών σε ολόκληρο τον οργανισμό τους. Αυτή η δυνατότητα μπορεί να βοηθήσει σημαντικά τους επιστήμονες δεδομένων στη διαδικασία επιλογής χαρακτηριστικών και, ως εκ τούτου, να σας βοηθήσει να εντοπίσετε χαρακτηριστικά που οδηγούν σε αυξημένη ακρίβεια μοντέλου.

Περίπτωση χρήσης

Για τους σκοπούς αυτής της ανάρτησης, χρησιμοποιούμε δύο ομάδες χαρακτηριστικών, customer και loan.

Η customer Η ομάδα χαρακτηριστικών έχει τα ακόλουθα χαρακτηριστικά:

  • ηλικία – Ηλικία πελάτη (αριθμητική)
  • εργασία – Είδος εργασίας (με απλή κωδικοποίηση, όπως π.χ admin or services)
  • συζυγικός – Οικογενειακή κατάσταση (ένα-hot κωδικοποιημένη, όπως π.χ married or single)
  • εκπαίδευση – Επίπεδο εκπαίδευσης (ένας-hot κωδικοποιημένο, όπως π.χ basic 4y or high school)

Η loan Η ομάδα χαρακτηριστικών έχει τα ακόλουθα χαρακτηριστικά:

  • αθέτηση – Έχει αθέτηση πίστωσης; (ένας-hot κωδικοποιημένο: no or yes)
  • στέγαση – Έχει στεγαστικό δάνειο; (ένας-hot κωδικοποιημένο: no or yes)
  • δάνειο – Έχει προσωπικό δάνειο; (ένας-hot κωδικοποιημένο: no or yes)
  • συνολικό ποσό – Συνολικό ποσό δανείων (αριθμητικό)

Το παρακάτω σχήμα δείχνει παραδείγματα ομάδων χαρακτηριστικών και μεταδεδομένων χαρακτηριστικών.

Ο σκοπός της προσθήκης περιγραφής και της ανάθεσης μεταδεδομένων σε κάθε χαρακτηριστικό είναι να αυξηθεί η ταχύτητα ανακάλυψης ενεργοποιώντας νέες παραμέτρους αναζήτησης κατά τις οποίες ένας επιστήμονας δεδομένων ή μηχανικός ML μπορεί να εξερευνήσει χαρακτηριστικά. Αυτά μπορεί να αντικατοπτρίζουν λεπτομέρειες σχετικά με ένα χαρακτηριστικό, όπως τον υπολογισμό του, είτε πρόκειται για μέσο όρο για 6 μήνες είτε για 1 έτος, προέλευση, δημιουργό ή κάτοχο, τι σημαίνει το χαρακτηριστικό και πολλά άλλα.

Στις ακόλουθες ενότητες, παρέχουμε δύο προσεγγίσεις για την αναζήτηση και την ανακάλυψη λειτουργιών και τη διαμόρφωση μεταδεδομένων σε επίπεδο χαρακτηριστικών: η πρώτη χρησιμοποιεί Στούντιο Amazon SageMaker απευθείας και το δεύτερο προγραμματικά.

Ανακάλυψη χαρακτηριστικών στο Studio

Μπορείτε εύκολα να αναζητήσετε και να ρωτήσετε χαρακτηριστικά χρησιμοποιώντας το Studio. Με τις νέες βελτιωμένες δυνατότητες αναζήτησης και ανακάλυψης, μπορείτε να ανακτήσετε αμέσως αποτελέσματα χρησιμοποιώντας έναν απλό πληκτρολόγιο πριν από λίγους χαρακτήρες.

Το παρακάτω στιγμιότυπο οθόνης δείχνει τις ακόλουθες δυνατότητες:

  • Μπορείτε να έχετε πρόσβαση στο Κατάλογος χαρακτηριστικών καρτέλα και παρατηρήστε χαρακτηριστικά σε όλες τις ομάδες χαρακτηριστικών. Τα χαρακτηριστικά παρουσιάζονται σε έναν πίνακα που περιλαμβάνει το όνομα, τον τύπο, την περιγραφή, τις παραμέτρους, την ημερομηνία δημιουργίας και το όνομα της συσχετισμένης ομάδας χαρακτηριστικών.
  • Μπορείτε να χρησιμοποιήσετε απευθείας τη λειτουργία προτύπων για να εμφανίσετε άμεσα αποτελέσματα αναζήτησης.
  • Έχετε την ευελιξία να χρησιμοποιήσετε διαφορετικούς τύπους επιλογών φίλτρου: All, Feature name, Description, ή Parameters. Σημειώστε ότι All θα επιστρέψει όλα τα χαρακτηριστικά όπου είτε Feature name, Description, ή Parameters ταιριάζει με τα κριτήρια αναζήτησης.
  • Μπορείτε να περιορίσετε περαιτέρω την αναζήτηση καθορίζοντας ένα εύρος ημερομηνιών χρησιμοποιώντας το Created from και Created to πεδία και προσδιορίζοντας παραμέτρους χρησιμοποιώντας το Search parameter key και Search parameter value πεδία.

Αφού επιλέξετε ένα χαρακτηριστικό, μπορείτε να επιλέξετε το όνομα του στοιχείου για να εμφανιστούν τα στοιχεία του. Όταν επιλέγεις Επεξεργασία μεταδεδομένων, μπορείτε να προσθέσετε μια περιγραφή και έως και 25 παραμέτρους κλειδιού-τιμής, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης. Μέσα σε αυτήν την προβολή, μπορείτε τελικά να δημιουργήσετε, να προβάλετε, να ενημερώσετε και να διαγράψετε τα μεταδεδομένα της δυνατότητας. Το ακόλουθο στιγμιότυπο οθόνης δείχνει τον τρόπο επεξεργασίας μεταδεδομένων χαρακτηριστικών για total_amount.

Όπως αναφέρθηκε προηγουμένως, η προσθήκη ζευγών κλειδιών-τιμών σε ένα χαρακτηριστικό σάς δίνει περισσότερες διαστάσεις κατά τις οποίες μπορείτε να αναζητήσετε τα δεδομένα τους. Για το παράδειγμά μας, η προέλευση του χαρακτηριστικού έχει προστεθεί στα μεταδεδομένα κάθε δυνατότητας. Όταν επιλέγετε το εικονίδιο αναζήτησης και φιλτράρετε κατά μήκος του ζεύγους κλειδιού-τιμής origin: job, μπορείτε να δείτε όλες τις δυνατότητες που κωδικοποιήθηκαν από αυτό το βασικό χαρακτηριστικό.

Ανακάλυψη χαρακτηριστικών με χρήση κώδικα

Μπορείτε επίσης να αποκτήσετε πρόσβαση και να ενημερώσετε τις πληροφορίες χαρακτηριστικών μέσω του Διεπαφή γραμμής εντολών AWS (AWS CLI) και SDK (Boto3) αντί απευθείας μέσω του Κονσόλα διαχείρισης AWS. Αυτό σας επιτρέπει να ενσωματώσετε τη λειτουργικότητα αναζήτησης σε επίπεδο χαρακτηριστικών του Feature Store με τις δικές σας προσαρμοσμένες πλατφόρμες επιστήμης δεδομένων. Σε αυτήν την ενότητα, αλληλεπιδρούμε με τα τελικά σημεία του Boto3 API για ενημέρωση και αναζήτηση μεταδεδομένων χαρακτηριστικών.

Για να ξεκινήσετε τη βελτίωση της αναζήτησης και της ανακάλυψης λειτουργιών, μπορείτε να προσθέσετε μεταδεδομένα χρησιμοποιώντας το update_feature_metadata API. Επιπρόσθετα με description και created_date πεδία, μπορείτε να προσθέσετε έως και 25 παραμέτρους (ζεύγη κλειδιών-τιμών) σε ένα δεδομένο χαρακτηριστικό.

Ο παρακάτω κώδικας είναι ένα παράδειγμα πέντε πιθανών παραμέτρων κλειδιού-τιμής που έχουν προστεθεί στο job_admin χαρακτηριστικό. Αυτή η δυνατότητα δημιουργήθηκε, μαζί με job_services και job_none, με κωδικοποίηση μίας θερμότητας job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

Μετά το author, team, origin, sensitivity, να env έχουν προστεθεί στο job_admin χαρακτηριστικό, οι επιστήμονες δεδομένων ή οι μηχανικοί ML μπορούν να τα ανακτήσουν καλώντας το describe_feature_metadata API. Μπορείτε να πλοηγηθείτε στο Parameters αντικείμενο στην απάντηση για τα μεταδεδομένα που προσθέσαμε προηγουμένως στο χαρακτηριστικό μας. ο describe_feature_metadata Το τελικό σημείο API σάς επιτρέπει να αποκτήσετε περισσότερες πληροφορίες σχετικά με μια δεδομένη δυνατότητα λαμβάνοντας τα συσχετισμένα μεταδεδομένα της.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

Μπορείτε να αναζητήσετε λειτουργίες χρησιμοποιώντας το SageMaker search API που χρησιμοποιεί μεταδεδομένα ως παραμέτρους αναζήτησης. Ο παρακάτω κώδικας είναι ένα παράδειγμα συνάρτησης που παίρνει α search_string παράμετρος ως είσοδος και επιστρέφει όλα τα χαρακτηριστικά όπου το όνομα, η περιγραφή ή οι παράμετροι του χαρακτηριστικού ταιριάζουν με τη συνθήκη:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

Το παρακάτω απόσπασμα κώδικα χρησιμοποιεί το δικό μας search_features λειτουργία για την ανάκτηση όλων των χαρακτηριστικών για τις οποίες είτε το όνομα του χαρακτηριστικού, η περιγραφή ή οι παράμετροι περιέχουν τη λέξη job:

search_results = search_features_using_string('mlops')
search_results

Το ακόλουθο στιγμιότυπο οθόνης περιέχει τη λίστα των ονομάτων χαρακτηριστικών που ταιριάζουν, καθώς και τα αντίστοιχα μεταδεδομένα τους, συμπεριλαμβανομένων των χρονικών σημάνσεων για τη δημιουργία και την τελευταία τροποποίηση κάθε δυνατότητας. Μπορείτε να χρησιμοποιήσετε αυτές τις πληροφορίες για να βελτιώσετε την ανακάλυψη και την προβολή των δυνατοτήτων του οργανισμού σας.

Συμπέρασμα

Το SageMaker Feature Store παρέχει μια ειδικά σχεδιασμένη λύση διαχείρισης δυνατοτήτων για να βοηθήσει τους οργανισμούς να κλιμακώσουν την ανάπτυξη ML σε επιχειρηματικές μονάδες και ομάδες επιστήμης δεδομένων. Η βελτίωση της επαναχρησιμοποίησης και της συνέπειας χαρακτηριστικών είναι τα κύρια πλεονεκτήματα ενός χώρου αποθήκευσης δυνατοτήτων. Σε αυτήν την ανάρτηση, εξηγήσαμε πώς μπορείτε να χρησιμοποιήσετε τα μεταδεδομένα σε επίπεδο λειτουργιών για να βελτιώσετε την αναζήτηση και την ανακάλυψη λειτουργιών. Αυτό περιελάμβανε τη δημιουργία μεταδεδομένων γύρω από μια ποικιλία περιπτώσεων χρήσης και τη χρήση τους ως πρόσθετες παραμέτρους αναζήτησης.

Δοκιμάστε το και πείτε μας τη γνώμη σας στα σχόλια. Εάν θέλετε να μάθετε περισσότερα σχετικά με τη συνεργασία και την κοινή χρήση λειτουργιών στο Feature Store, ανατρέξτε στο Ενεργοποιήστε την επαναχρησιμοποίηση λειτουργιών σε λογαριασμούς και ομάδες χρησιμοποιώντας το Amazon SageMaker Feature Store.


Σχετικά με τους συγγραφείς

Arnaud Lauer είναι Senior Partner Solutions Architect στην ομάδα του Δημόσιου Τομέα στην AWS. Δίνει τη δυνατότητα στους συνεργάτες και τους πελάτες να κατανοήσουν πώς να χρησιμοποιούν καλύτερα τις τεχνολογίες AWS για να μετατρέψουν τις επιχειρηματικές ανάγκες σε λύσεις. Φέρνει περισσότερα από 16 χρόνια εμπειρίας στην υλοποίηση και την αρχιτεκτονική έργων ψηφιακού μετασχηματισμού σε μια σειρά βιομηχανιών, συμπεριλαμβανομένου του δημόσιου τομέα, της ενέργειας και των καταναλωτικών αγαθών. Η τεχνητή νοημοσύνη και η μηχανική μάθηση είναι μερικά από τα πάθη του. Ο Arnaud κατέχει 12 πιστοποιήσεις AWS, συμπεριλαμβανομένης της Πιστοποίησης ML Specialty.

Νικολά Μπερνιέ είναι Associate Solutions Architect, μέλος της ομάδας του Καναδικού Δημόσιου Τομέα στο AWS. Επί του παρόντος πραγματοποιεί μεταπτυχιακό δίπλωμα με ερευνητικό τομέα στο Deep Learning και είναι κάτοχος πέντε πιστοποιήσεων AWS, συμπεριλαμβανομένης της Πιστοποίησης Ειδικότητας ML. Ο Nicolas είναι παθιασμένος με το να βοηθά τους πελάτες να εμβαθύνουν τις γνώσεις τους για το AWS συνεργαζόμενος μαζί τους για να μεταφράσουν τις επιχειρηματικές τους προκλήσεις σε τεχνικές λύσεις.

Μαρκ Ρόι είναι ένας κύριος αρχιτέκτονας μηχανικής μάθησης για AWS, βοηθώντας τους πελάτες να σχεδιάσουν και να κατασκευάσουν λύσεις AI / ML. Το έργο του Mark καλύπτει ένα ευρύ φάσμα περιπτώσεων χρήσης ML, με πρωταρχικό ενδιαφέρον για την όραση του υπολογιστή, τη βαθιά μάθηση και την κλιμάκωση του ML σε ολόκληρη την επιχείρηση. Έχει βοηθήσει εταιρείες σε πολλούς κλάδους, συμπεριλαμβανομένων των ασφαλίσεων, των χρηματοοικονομικών υπηρεσιών, των μέσων ενημέρωσης και της ψυχαγωγίας, της υγειονομικής περίθαλψης, των υπηρεσιών κοινής ωφέλειας και της κατασκευής. Ο Mark κατέχει έξι πιστοποιήσεις AWS, συμπεριλαμβανομένης της πιστοποίησης ML Speciality. Πριν από την ένταξή του στην AWS, ο Mark ήταν αρχιτέκτονας, προγραμματιστής και ηγέτης τεχνολογίας για πάνω από 25 χρόνια, συμπεριλαμβανομένων 19 ετών σε χρηματοοικονομικές υπηρεσίες.

Khushboo Srivastava είναι Ανώτερος Διευθυντής Προϊόντων για το Amazon SageMaker. Της αρέσει να κατασκευάζει προϊόντα που απλοποιούν τις ροές εργασιών μηχανικής μάθησης για τους πελάτες. Στον ελεύθερο χρόνο της, της αρέσει να παίζει βιολί, να κάνει γιόγκα και να ταξιδεύει.

spot_img

Τελευταία Νοημοσύνη

spot_img

Συνομιλία με μας

Γεια σου! Πώς μπορώ να σε βοηθήσω?