Evaluer tekstoppsummeringsevnen til LLM-er for forbedret beslutningstaking på AWS | Amazon Web Services

Organisasjoner på tvers av bransjer bruker automatisk tekstoppsummering for å håndtere store mengder informasjon mer effektivt og ta bedre beslutninger. I finanssektoren kondenserer investeringsbankene inntektsrapporter ned til viktige alternativer for raskt å analysere kvartalsresultater. Medieselskaper bruker oppsummering for å overvåke nyheter og sosiale medier, slik at journalister raskt kan skrive historier om utviklingsproblemer. Offentlige etater oppsummerer lange politiske dokumenter og rapporter for å hjelpe beslutningstakere med å legge strategier og prioritere mål.

Ved å lage komprimerte versjoner av lange, komplekse dokumenter, lar oppsummeringsteknologi brukerne fokusere på det mest fremtredende innholdet. Dette fører til bedre forståelse og oppbevaring av viktig informasjon. Tidsbesparelsene lar interessenter gjennomgå mer materiale på kortere tid, og få et bredere perspektiv. Med økt forståelse og mer syntetisert innsikt kan organisasjoner ta bedre informerte strategiske beslutninger, akselerere forskning, forbedre produktiviteten og øke deres innvirkning. Den transformative kraften til avanserte oppsummeringsevner vil bare fortsette å vokse etter hvert som flere bransjer tar i bruk kunstig intelligens (AI) for å utnytte overfylte informasjonsstrømmer.

I dette innlegget utforsker vi ledende tilnærminger for objektiv evaluering av oppsummeringsnøyaktighet, inkludert ROUGE-målinger, METEOR og BERTScore. Å forstå styrkene og svakhetene ved disse teknikkene kan hjelpe med å veilede valg og forbedringstiltak. Det overordnede målet med dette innlegget er å avmystifisere oppsummeringsevalueringer for å hjelpe team til å bedre benchmark ytelsen på denne kritiske evnen når de søker å maksimere verdien.

Typer oppsummering

Oppsummering kan generelt deles inn i to hovedtyper: ekstraktiv oppsummering og abstrakt oppsummering. Begge tilnærmingene tar sikte på å kondensere lange tekststykker til kortere former, og fange den mest kritiske informasjonen eller essensen av det originale innholdet, men de gjør det på fundamentalt forskjellige måter.

Ekstraktiv oppsummering innebærer å identifisere og trekke ut nøkkelsetninger, setninger eller segmenter fra originalteksten uten å endre dem. Systemet velger deler av teksten som anses som mest informativ eller representativ for helheten. Ekstraktiv oppsummering er nyttig hvis nøyaktigheten er kritisk og sammendraget må gjenspeile nøyaktig informasjon fra originalteksten. Dette kan være brukstilfeller som å fremheve spesifikke juridiske vilkår, forpliktelser og rettigheter som er beskrevet i vilkårene for bruk. De vanligste teknikkene som brukes for ekstraherende oppsummering er term frekvens-invers dokumentfrekvens (TF-IDF), setningsscoring, tekstrangeringsalgoritme og overvåket maskinlæring (ML).

Abstraktiv oppsummering går et skritt videre ved å generere nye fraser og setninger som ikke var i den opprinnelige teksten, i hovedsak parafrasere og kondensere det originale innholdet. Denne tilnærmingen krever en dypere forståelse av teksten, fordi AI må tolke meningen og deretter uttrykke den i en ny, kortfattet form. Store språkmodeller (LLM) er best egnet for abstrakt oppsummering fordi transformatormodellene bruker oppmerksomhetsmekanismer for å fokusere på relevante deler av inndatateksten når de genererer sammendrag. Oppmerksomhetsmekanismen gjør det mulig for modellen å tilordne ulike vekter til forskjellige ord eller tokens i inndatasekvensen, slik at den kan fange opp avhengigheter på lang avstand og kontekstuelt relevant informasjon.

I tillegg til disse to primærtypene er det hybride tilnærminger som kombinerer ekstraktive og abstrakte metoder. Disse tilnærmingene kan starte med ekstraktiv oppsummering for å identifisere det viktigste innholdet og deretter bruke abstrakte teknikker for å omskrive eller kondensere det innholdet til en flytende oppsummering.

Utfordringen

Å finne den optimale metoden for å evaluere oppsummeringskvalitet er fortsatt en åpen utfordring. Ettersom organisasjoner i økende grad er avhengige av automatisk tekstoppsummering for å destillere nøkkelinformasjon fra dokumenter, øker behovet for standardiserte teknikker for å måle oppsummeringsnøyaktighet. Ideelt sett vil disse evalueringsverdiene kvantifisere hvor godt maskingenererte sammendrag trekker ut det mest fremtredende innholdet fra kildetekster og presenterer sammenhengende sammendrag som gjenspeiler den opprinnelige betydningen og konteksten.

Det er imidlertid vanskelig å utvikle robuste evalueringsmetoder for tekstoppsummering:

Menneskeforfattede referansesammendrag som brukes til sammenligning viser ofte høy variabilitet basert på subjektive avgjørelser av viktighet
Nyanserte aspekter ved oppsummeringskvalitet som flyt, lesbarhet og sammenheng viser seg å være vanskelig å kvantifisere programmatisk
Det finnes stor variasjon på tvers av oppsummeringsmetoder fra statistiske algoritmer til nevrale nettverk, noe som kompliserer direkte sammenligninger

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

ROUGE beregninger, som ROUGE-N og ROUGE-L, spiller en avgjørende rolle i å evaluere kvaliteten på maskingenererte sammendrag sammenlignet med menneskeskrevne referanseoppsummeringer. Disse beregningene fokuserer på å vurdere overlappingen mellom innholdet i maskingenererte og menneskeskapte sammendrag ved å analysere n-gram, som er grupper av ord eller tokens. For eksempel evaluerer ROUGE-1 samsvaret med individuelle ord (unigram), mens ROUGE-2 vurderer par med ord (bigram). I tillegg vurderer ROUGE-N den lengste vanlige etterfølgen av ord mellom de to tekstene, noe som gir fleksibilitet i ordrekkefølge.

For å illustrere dette kan du vurdere følgende eksempler:

ROGUE-1-beregning – ROUGE-1 evaluerer overlappingen av unigrammer (enkeltord) mellom et generert sammendrag og et referansesammendrag. For eksempel, hvis et referansesammendrag inneholder "De raske brunreven hopper," og det genererte sammendraget er "Den brune reven hopper raskt", vil ROUGE-1-beregningen vurdere "brun", "rev" og "hopp" som overlappende unigram. ROUGE-1 fokuserer på tilstedeværelsen av individuelle ord i sammendragene, og måler hvor godt det genererte sammendraget fanger opp nøkkelordene fra referansesammendraget.
ROGUE-2-beregning – ROUGE-2 vurderer overlappingen av bigrammer (par med tilstøtende ord) mellom et generert sammendrag og et referansesammendrag. For eksempel, hvis referansesammendraget har "Katten sover", og det genererte sammendraget lyder "En katt sover", vil ROUGE-2 identifisere "katten er" og "sover" som et overlappende bigram. ROUGE-2 gir innsikt i hvor godt det genererte sammendraget opprettholder sekvensen og konteksten til ordpar sammenlignet med referansesammendraget.
ROUGE-N metrikk – ROUGE-N er en generalisert form der N representerer et hvilket som helst tall, som tillater evaluering basert på n-gram (sekvenser av N ord). Tatt i betraktning N=3, hvis referansesammendraget sier "Solen skinner sterkt", og den genererte sammendraget er "Sol skinner sterkt", vil ROUGE-3 gjenkjenne "solen skinner sterkt" som et matchende trigram. ROUGE-N tilbyr fleksibilitet til å evaluere sammendrag basert på forskjellige lengder av ordsekvenser, og gir en mer omfattende vurdering av innholdsoverlapping.

Disse eksemplene illustrerer hvordan ROUGE-1-, ROUGE-2- og ROUGE-N-beregninger fungerer ved å evaluere automatiske oppsummerings- eller maskinoversettelsesoppgaver ved å sammenligne genererte sammendrag med referansesammendrag basert på forskjellige nivåer av ordsekvenser.

Beregn en ROUGE-N-poengsum

Du kan bruke følgende trinn for å beregne en ROUGE-N-poengsum:

Tokeniser det genererte sammendraget og referansesammendraget til individuelle ord eller tokens ved å bruke grunnleggende tokeniseringsmetoder som splitting av mellomrom eller NLP-biblioteker (natural language processing).
Generer n-gram (sammenhengende sekvenser av N ord) fra både det genererte sammendraget og referansesammendraget.
Tell antall overlappende n-gram mellom det genererte sammendraget og referansesammendraget.
Beregn presisjon, tilbakekalling og F1-poengsum:
- Precision – Antall overlappende n-gram delt på det totale antallet n-gram i det genererte sammendraget.
- Husker – Antall overlappende n-gram delt på totalt antall n-gram i referansesammendraget.
- F1-poengsum – Det harmoniske gjennomsnittet av presisjon og gjenkalling, beregnet som (2 * presisjon * gjenkalling) / (presisjon + gjenkalling).
Den samlede F1-poengsummen oppnådd ved å beregne presisjon, tilbakekalling og F1-poengsum for hver rad i datasettet regnes som ROUGE-N-poengsummen.

Begrensninger

ROGUE har følgende begrensninger:

Smal fokus på leksikalsk overlapping – Kjerneideen bak ROUGE er å sammenligne det systemgenererte sammendraget med et sett med referanser eller menneskeskapte sammendrag, og måle den leksikalske overlappingen mellom dem. Dette betyr at ROUGE har et veldig snevert fokus på likhet på ordnivå. Den evaluerer faktisk ikke semantisk betydning, sammenheng eller lesbarhet av sammendraget. Et system kan oppnå høye ROUGE-score ved ganske enkelt å trekke ut setninger ord-for-ord fra originalteksten, uten å generere en sammenhengende eller kortfattet oppsummering.
Ufølsomhet for parafrasering – Fordi ROUGE er avhengig av leksikalsk matching, kan den ikke oppdage semantisk ekvivalens mellom ord og uttrykk. Derfor vil parafrasering og bruk av synonymer ofte føre til lavere ROUGE-score, selv om betydningen er bevart. Dette er til ulempe for systemer som parafraserer eller oppsummerer på en abstrakt måte.
Mangel på semantisk forståelse – ROUGE vurderer ikke om systemet virkelig forsto betydningen og konseptene i originalteksten. Et sammendrag kan oppnå høy leksikalsk overlapping med referanser, samtidig som de mangler hovedideene eller inneholder faktiske inkonsekvenser. ROUGE ville ikke identifisere disse problemene.

Når du skal bruke ROUGE

ROUGE er enkel og rask å beregne. Bruk den som en grunnlinje eller målestokk for sammendragskvalitet knyttet til innholdsvalg. ROUGE-målinger brukes mest effektivt i scenarier som involverer abstraktive oppsummeringsoppgaver, automatisk oppsummeringsevaluering, vurderinger av LLM-er og komparative analyser av forskjellige oppsummeringstilnærminger. Ved å bruke ROUGE-målinger i disse sammenhengene, kan interessenter kvantitativt evaluere kvaliteten og effektiviteten til prosesser for oppsummeringsgenerering.

Beregning for evaluering av oversettelse med eksplisitt bestilling (METEOR)

En av de store utfordringene ved å evaluere oppsummeringssystemer er å vurdere hvor godt det genererte sammendraget flyter logisk, i stedet for bare å velge relevante ord og uttrykk fra kildeteksten. Bare å trekke ut relevante søkeord og setninger gir ikke nødvendigvis et sammenhengende og sammenhengende sammendrag. Sammendraget skal flyte jevnt og koble ideer logisk, selv om de ikke presenteres i samme rekkefølge som originaldokumentet.

Fleksibiliteten til matching ved å redusere ord til rot- eller grunnformen deres (for eksempel, etter stammestamming blir ord som «løper», «løper» og «løper» alle «løper») og synonymer betyr METEOR korrelerer bedre med menneskelige vurderinger av oppsummerende kvalitet. Den kan identifisere om viktig innhold er bevart, selv om ordlyden er forskjellig. Dette er en viktig fordel i forhold til n-gram-baserte beregninger som ROUGE, som bare ser etter eksakte token-treff. METEOR gir også høyere poengsum til sammendrag som fokuserer på det mest fremtredende innholdet fra referansen. Lavere poengsum gis til repeterende eller irrelevant informasjon. Dette stemmer godt overens med målet om oppsummering for kun å beholde det viktigste innholdet. METEOR er en semantisk meningsfull metrikk som kan overvinne noen av begrensningene ved n-gram-matching for å evaluere tekstoppsummering. Innlemmingen av stammer og synonymer gir bedre vurdering av informasjonsoverlapping og innholdsnøyaktighet.

For å illustrere dette kan du vurdere følgende eksempler:

Referansesammendrag: Bladene faller om høsten.

Generert sammendrag 1: Bladene faller om høsten.

Generert sammendrag 2: Blader grønne om sommeren.

Ordene som samsvarer mellom referansen og generert sammendrag 1 er uthevet:

Referansesammendrag: Etterlater falle i løpet av høsten.

Generert sammendrag 1: Etterlater stikke innom falle.

Selv om "fall" og "høst" er forskjellige symboler, gjenkjenner METEOR dem som synonymer gjennom sin synonymtilpasning. "Drop" og "fall" identifiseres som en stemplet match. For generert sammendrag 2 er det ingen treff med referansesammendraget i tillegg til "Leaves", så dette sammendraget vil få en mye lavere METEOR-score. Jo mer semantisk meningsfulle treff, jo høyere blir METEOR-score. Dette gjør at METEOR bedre kan evaluere innholdet og nøyaktigheten til sammendrag sammenlignet med enkel n-gram-matching.

Beregn en METEOR-score

Fullfør følgende trinn for å beregne en METEOR-score:

Tokeniser det genererte sammendraget og referansesammendraget til individuelle ord eller tokens ved å bruke grunnleggende tokeniseringsmetoder som splitting etter mellomrom eller NLP-biblioteker.
Beregn unigram-presisjonen, gjenkallingen og F-gjennomsnittet, noe som gir mer vekt å gjenkalle enn presisjon.
Bruk en straff for eksakte treff for å unngå å overbetone dem. Straffen er valgt basert på datasetts egenskaper, oppgavekrav og balansen mellom presisjon og tilbakekalling. Trekk denne straffen fra F-middelpoengsummen beregnet i trinn 2.
Beregn F-middelpoengsum for stammeformer (reduser ord til grunn- eller rotform) og synonymer for unigrammer der det er aktuelt. Aggreger dette med den tidligere beregnede F-gjennomsnittsskåren for å oppnå den endelige METEOR-skåren. METEOR-skåren varierer fra 0–1, der 0 indikerer ingen likhet mellom generert sammendrag og referansesammendrag, og 1 indikerer perfekt justering. Vanligvis faller oppsummeringsskårene mellom 0–0.6.

Begrensninger

Når du bruker METEOR-metrikken for å evaluere oppsummeringsoppgaver, kan det oppstå flere utfordringer:

Semantisk kompleksitet – METEORs vektlegging av semantisk likhet kan slite med å fange de nyanserte betydningene og konteksten i komplekse oppsummeringsoppgaver, noe som potensielt kan føre til unøyaktigheter i evalueringen.
Referansevariabilitet – Variasjon i menneskegenererte referansesammendrag kan påvirke METEOR-score, fordi forskjeller i referanseinnhold kan påvirke evalueringen av maskingenererte sammendrag.
Språklig mangfold – Effektiviteten til METEOR kan variere på tvers av språk på grunn av språklige variasjoner, syntaksforskjeller og semantiske nyanser, noe som utgjør utfordringer i flerspråklige oppsummeringsevalueringer.
Lengdeavvik – Å evaluere sammendrag av varierende lengde kan være utfordrende for METEOR, fordi avvik i lengde sammenlignet med referansesammendraget kan resultere i straffer eller unøyaktigheter i vurderingen.
Parameterinnstilling – Optimalisering av METEORs parametere for ulike datasett og oppsummeringsoppgaver kan være tidkrevende og krever nøye justering for å sikre at metrikken gir nøyaktige evalueringer.
Evaluering skjevhet – Det er en risiko for evalueringsskjevhet med METEOR hvis den ikke er riktig justert eller kalibrert for spesifikke oppsummeringsdomener eller oppgaver. Dette kan potensielt føre til skjeve resultater og påvirke påliteligheten til evalueringsprosessen.

Ved å være klar over disse utfordringene og vurdere dem når de bruker METEOR som en beregning for oppsummeringsoppgaver, kan forskere og praktikere navigere i potensielle begrensninger og ta mer informerte beslutninger i sine evalueringsprosesser.

Når skal du bruke METEOR

METEOR brukes ofte til automatisk å evaluere kvaliteten på tekstsammendrag. Det er å foretrekke å bruke METEOR som en evalueringsmetrikk når rekkefølgen av ideer, konsepter eller enheter i sammendraget har betydning. METEOR vurderer rekkefølgen og matcher n-gram mellom generert sammendrag og referansesammendrag. Den belønner sammendrag som bevarer sekvensiell informasjon. I motsetning til beregninger som ROUGE, som er avhengig av overlapping av n-gram med referansesammendrag, matcher METEOR stammer, synonymer og omskrivninger. METEOR fungerer bedre når det kan være flere riktige måter å oppsummere originalteksten på. METEOR inkorporerer WordNet-synonymer og stammede tokens når de matcher n-gram. Kort sagt, oppsummeringer som er semantisk like, men som bruker forskjellige ord eller frasering, vil fortsatt gi gode resultater. METEOR har en innebygd straff for oppsummeringer med repeterende n-gram. Derfor fraråder det ord-for-ord-ekstraksjon eller mangel på abstraksjon. METEOR er et godt valg når semantisk likhet, rekkefølge av ideer og flytende frasering er viktig for å bedømme sammendragskvalitet. Det er mindre hensiktsmessig for oppgaver der kun leksikalsk overlapping med referansesammendrag betyr noe.

BERTScore

Leksikale mål på overflatenivå som ROUGE og METEOR evaluerer oppsummeringssystemer ved å sammenligne ordoverlappingen mellom et kandidatsammendrag og et referansesammendrag. Imidlertid er de avhengige av nøyaktig strengmatching mellom ord og setninger. Dette betyr at de kan gå glipp av semantiske likheter mellom ord og uttrykk som har forskjellige overflateformer, men lignende underliggende betydninger. Ved kun å stole på overflatematching, kan disse beregningene undervurdere kvaliteten på systemsammendrag som bruker synonyme ord eller omskriver konsepter annerledes enn referansesammendrag. To oppsummeringer kan formidle nesten identisk informasjon, men får lave score på overflatenivå på grunn av ordforrådsforskjeller.

BERTScore er en måte å automatisk evaluere hvor bra et sammendrag er ved å sammenligne det med et referansesammendrag skrevet av et menneske. Den bruker BERT, en populær NLP-teknikk, for å forstå betydningen og konteksten til ord i kandidatsammendraget og referansesammendraget. Spesifikt ser den på hvert ord eller symbol i kandidatsammendraget og finner det mest like ordet i referansesammendraget basert på BERT-innbyggingene, som er vektorrepresentasjoner av betydningen og konteksten til hvert ord. Den måler likheten ved hjelp av cosinuslikhet, som forteller hvor nær vektorene er hverandre. For hvert ord i kandidatsammendraget finner den det mest relaterte ordet i referansesammendraget ved å bruke BERTs språkforståelse. Den sammenligner alle disse ordlikhetene på tvers av hele sammendraget for å få en samlet poengsum for hvor semantisk lik kandidatsammendraget er med referansesammendraget. Jo mer like ord og betydninger fanget opp av BERT, jo høyere er BERTS-score. Dette lar den automatisk evaluere kvaliteten på et generert sammendrag ved å sammenligne det med en menneskelig referanse uten å trenge menneskelig evaluering hver gang.

For å illustrere dette, forestill deg at du har en maskingenerert oppsummering: "Den raske brune reven hopper over den late hunden." La oss nå vurdere et menneskeskapt referansesammendrag: "En rask brun rev hopper over en sovende hund."

Beregn en BERTScore

Fullfør følgende trinn for å beregne en BERTScore:

BERTScore bruker kontekstuelle innebygginger for å representere hvert token i både kandidat- (maskingenerert) og referanse (menneskeskapt) setninger. Kontekstuelle innebygginger er en type ordrepresentasjon i NLP som fanger opp betydningen av et ord basert på dets kontekst i en setning eller tekst. I motsetning til tradisjonelle ordinnbygginger som tildeler en fast vektor til hvert ord uavhengig av dets kontekst, vurderer kontekstuelle innebygginger de omkringliggende ordene for å generere en unik representasjon for hvert ord avhengig av hvordan det brukes i en bestemt setning.
Beregningen beregner deretter likheten mellom hver token i kandidatsetningen med hver token i referansesetningen ved å bruke cosinuslikhet. Cosinus-likhet hjelper oss å kvantifisere hvor nært beslektede to sett med data er ved å fokusere på retningen de peker i et flerdimensjonalt rom, noe som gjør det til et verdifullt verktøy for oppgaver som søkealgoritmer, NLP og anbefalingssystemer.
Ved å sammenligne de kontekstuelle innebyggingene og beregne likhetspoeng for alle tokens, genererer BERTScore en omfattende evaluering som fanger den semantiske relevansen og konteksten til det genererte sammendraget sammenlignet med den menneskeskapte referansen.
Den endelige BERTScore-utgangen gir en likhetspoeng som gjenspeiler hvor godt det maskingenererte sammendraget stemmer overens med referansesammendraget når det gjelder mening og kontekst.

I hovedsak går BERTScore utover tradisjonelle beregninger ved å vurdere de semantiske nyansene og konteksten til setninger, og tilbyr en mer sofistikert evaluering som tett speiler menneskelig dømmekraft. Denne avanserte tilnærmingen øker nøyaktigheten og påliteligheten til å evaluere oppsummeringsoppgaver, noe som gjør BERTScore til et verdifullt verktøy for å vurdere tekstgenereringssystemer.

Begrensninger:

Selv om BERTScore tilbyr betydelige fordeler ved å evaluere oppsummeringsoppgaver, har den også visse begrensninger som må vurderes:

Beregningsintensitet – BERTScore kan være beregningsintensiv på grunn av sin avhengighet av ferdigtrente språkmodeller som BERT. Dette kan føre til lengre evalueringstider, spesielt ved behandling av store mengder tekstdata.
Avhengighet av ferdigtrente modeller – Effektiviteten til BERTScore er svært avhengig av kvaliteten og relevansen til den ferdigtrente språkmodellen som brukes. I scenarier der den forhåndstrente modellen kanskje ikke fanger nyansene i teksten tilstrekkelig, kan evalueringsresultatene bli påvirket.
skalerbarhet – Å skalere BERTScore for store datasett eller sanntidsapplikasjoner kan være utfordrende på grunn av beregningskravene. Implementering av BERTScore i produksjonsmiljøer kan kreve optimaliseringsstrategier for å gi effektiv ytelse.
Domenespesifisitet – BERTScores ytelse kan variere på tvers av forskjellige domener eller spesialiserte teksttyper. Å tilpasse beregningen til spesifikke domener eller oppgaver kan kreve finjustering eller justeringer for å produsere nøyaktige evalueringer.
interpretability – Selv om BERTScore gir en omfattende evaluering basert på kontekstuell innebygging, kan det være komplisert å tolke de spesifikke årsakene bak likhetsskårene som genereres for hvert token, og kan kreve ytterligere analyse.
Referansefri evaluering – Selv om BERTScore reduserer avhengigheten av referansesammendrag for evaluering, kan det hende at denne referansefrie tilnærmingen ikke fullt ut fanger opp alle aspekter av oppsummeringskvalitet, spesielt i scenarier der menneskeskapte referanser er avgjørende for å vurdere innholdsrelevans og sammenheng.

Å anerkjenne disse begrensningene kan hjelpe deg med å ta informerte beslutninger når du bruker BERTScore som en beregning for å evaluere oppsummeringsoppgaver, og gi en balansert forståelse av dens styrker og begrensninger.

Når du skal bruke BERTScore

BERTScore kan evaluere kvaliteten på tekstoppsummering ved å sammenligne et generert sammendrag med et referansesammendrag. Den bruker nevrale nettverk som BERT for å måle semantisk likhet utover bare nøyaktig ord- eller setningsmatching. Dette gjør BERTScore svært nyttig når semantisk troskap bevare den fulle betydningen og innholdet er avgjørende for oppsummeringsoppgaven din. BERTScore vil gi høyere poengsum til sammendrag som formidler samme informasjon som referansesammendraget, selv om de bruker forskjellige ord og setningsstrukturer. Poenget er at BERTScore er ideell for oppsummeringsoppgaver der det er viktig å beholde den fulle semantiske betydningen, ikke bare nøkkelord eller emner. Den avanserte nevrale scoringen lar den sammenligne mening utover ordmatching på overflatenivå. Dette gjør den egnet for tilfeller der subtile forskjeller i ordlyden kan endre den generelle betydningen og implikasjonene vesentlig. Spesielt BERTScore utmerker seg i å fange semantisk likhet, noe som er avgjørende for å vurdere kvaliteten på abstrakte sammendrag som de som produseres av Retrieval Augmented Generation (RAG)-modeller.

Modellevalueringsrammer

Rammeverk for modellevaluering er avgjørende for nøyaktig å måle ytelsen til ulike oppsummeringsmodeller. Disse rammeverkene er medvirkende til å sammenligne modeller, gi sammenheng mellom genererte sammendrag og kildeinnhold, og påvise mangler i evalueringsmetoder. Ved å gjennomføre grundige vurderinger og konsekvent benchmarking, driver disse rammeverkene frem tekstoppsummeringsforskning ved å gå inn for standardisert evalueringspraksis og muliggjøre mangefasetterte modellsammenligninger.

I AWS er FMEval bibliotek innenfor Amazon SageMaker Clarify effektiviserer evalueringen og utvalget av grunnmodeller (FM) for oppgaver som tekstoppsummering, svar på spørsmål og klassifisering. Den gir deg mulighet til å evaluere FM-er basert på beregninger som nøyaktighet, robusthet, kreativitet, skjevhet og toksisitet, og støtter både automatiserte og human-in-the-loop-evalueringer for LLM-er. Med UI-baserte eller programmatiske evalueringer genererer FMEval detaljerte rapporter med visualiseringer for å kvantifisere modellrisikoer som unøyaktigheter, toksisitet eller skjevhet, og hjelper organisasjoner med å innrette seg etter sine ansvarlige generative AI-retningslinjer. I denne delen viser vi hvordan du bruker FMEval-biblioteket.

Evaluer Claude v2 på oppsummeringsnøyaktighet ved å bruke Amazon Bedrock

Følgende kodebit er et eksempel på hvordan man samhandler med den antropiske Claude-modellen ved å bruke Python-kode:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Enkelt sagt utfører denne koden følgende handlinger:

Importer de nødvendige bibliotekene, inkludert json, for å jobbe med JSON-data.
Definer modell-ID som anthropic.claude-v2 og angi innholdstypen for forespørselen.
Lag en prompt_data variabel som strukturerer inngangsdataene for Claude-modellen. I dette tilfellet stiller den spørsmålet "Hvem er Barack Obama?" og forventer respons fra modellen.
Konstruer et JSON-objekt med navnet body som inkluderer ledetekstdataene, og spesifiser ytterligere parametere som maksimalt antall tokens som skal genereres.
Påkall Claude-modellen ved å bruke bedrock_runtime.invoke_model med de definerte parameterne.
Analyser svaret fra modellen, trekk ut kompletteringen (generert tekst), og skriv den ut.

Sørg for at AWS identitets- og tilgangsadministrasjon (IAM) rolle knyttet til Amazon SageMaker Studio brukerprofilen har tilgang til Amazonas grunnfjell modeller som påberopes. Referere til Identitetsbaserte policy-eksempler for Amazon Bedrock for veiledning om beste praksis og eksempler på identitetsbaserte retningslinjer for Amazon Bedrock.

Bruke FMEval-biblioteket til å evaluere det oppsummerte resultatet fra Claude

Vi bruker følgende kode for å evaluere det oppsummerte resultatet:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

I den foregående kodebiten, for å evaluere tekstoppsummering ved hjelp av FMEval-biblioteket, fullfører vi følgende trinn:

Lag en ModelRunner for å utføre påkalling på din LLM. FMEval-biblioteket gir innebygd støtte for Amazon SageMaker endepunkter og Amazon SageMaker JumpStart LLM-er. Du kan også utvide ModelRunner grensesnitt for alle LLM-er som er vert hvor som helst.
Bruk støttet eval_algorithms som toksisitet, oppsummering, nøyaktighet, semantikk og robusthet, basert på dine evalueringsbehov.
Tilpass parametrene for evalueringskonfigurasjon for din spesifikke brukssituasjon.
Bruk evalueringsalgoritmen med enten innebygde eller tilpassede datasett for å evaluere LLM-modellen din. Datasettet som brukes i dette tilfellet er hentet fra følgende GitHub repo.

Referere til utviklerveiledning og eksempler for detaljert bruk av evalueringsalgoritmer.

Følgende tabell oppsummerer resultatene av evalueringen.

modell _inngang	model_output	target_output	teksten	score	meteor_score	rouge_score	bert_score
John Edward 0 Bates, tidligere fra Spalding, Linco…..	Jeg kan ikke si noe definitivt dommer, som …	En tidligere Politibetjent i Lincolnshire bar...	Menneske: John Edward Bates, tidligere fra Spalding ...	[{'navn': 'meteor', 'verdi': 0.101010101010101 ...	0.10101	0	0.557155
23 oktober 2015 Sist oppdatert kl 17:44 BST\|nDet'...	Her er noen nøkkelpunkter om orkan/trop..	Orkanen Patricia har blitt vurdert som en kategori...	Menneske: 23 Oktober 2015 Sist oppdatert kl. 17:44 B…	[{'navn': meteor', "verdi": 0.102339181286549 ..	0.102339	0.018265	0.441421
Ferrari dukket opp i en posisjon til å utfordre un...	Her er hovedpunktene fra artikkelen: ni...	Lewis Hamilton stormet til pole position på...	Menneske: Ferrari dukket opp i en posisjon til å utfordre...	[{'navn': 'meteor', 'verdi': 0.322543352601156 ...	0.322543	0.078212	0.606487
Den Bath-fødte spilleren, 28, har fått 36 utseende …	Ok, la meg oppsummere hovedpunktene:/nin- E…..	Newport Gwent Dragons nummer åtte Ed Jackson	Human: Den Bath-born-spilleren, 28, har laget 36 a...	[{'navn': 'meteor', 'verdi': 0105740181268882 ...	0.10574	0.012987	0.539488
Svakheter i måten mus byttet data med c...	Her er nøkkelpunktene jeg har samlet fra en...	Hackere kan få tilgang til hjemmet og	menneskelig: Svakheter i sverremus byttet data	[{'navn': 'meteor', 'verdi': 0.201048289433848 ...	0.201048	0.021858	0.526947

Sjekk ut prøven bærbare for mer informasjon om oppsummeringsevalueringen som vi diskuterte i dette innlegget.

konklusjonen

ROUGE, METEOR og BERTScore måler alle kvaliteten på maskingenererte sammendrag, men fokuserer på ulike aspekter som leksikalsk overlapping, flyt eller semantisk likhet. Sørg for å velge beregningen som stemmer overens med det som definerer "bra" for ditt spesifikke oppsummeringsbruk. Du kan også bruke en kombinasjon av beregninger. Dette gir en mer helhetlig evaluering og beskytter mot potensielle svakheter ved en individuell beregning. Med de riktige målingene kan du iterativt forbedre oppsummererne dine for å møte den forestillingen om nøyaktighet som betyr mest.

I tillegg er FM- og LLM-evaluering nødvendig for å kunne produsere disse modellene i stor skala. Med FMEval får du et stort sett med innebygde algoritmer på tvers av mange NLP-oppgaver, men også et skalerbart og fleksibelt verktøy for storskalaevalueringer av dine egne modeller, datasett og algoritmer. For å oppskalere, kan du bruke denne pakken i LLMOPS-rørledningene til vurdere flere modeller. For å lære mer om FMEval i AWS og hvordan du bruker det effektivt, se Bruk SageMaker Clarify til å evaluere store språkmodeller. For ytterligere forståelse og innsikt i egenskapene til SageMaker Clarify ved evaluering av FM-er, se Amazon SageMaker Clarify gjør det enklere å evaluere og velge grunnmodeller.

Om forfatterne

Dinesh Kumar Subramani er en senior løsningsarkitekt med base i Edinburgh, Skottland. Han spesialiserer seg på kunstig intelligens og maskinlæring, og er medlem av teknisk feltfellesskap med Amazon. Dinesh jobber tett med kunder i Storbritannia for å løse problemene deres ved å bruke AWS-tjenester. Utenom jobben liker Dinesh å tilbringe kvalitetstid med familien, spille sjakk og utforske et mangfold av musikk.

Pranav Sharma er en AWS-leder som driver teknologi- og forretningstransformasjonsinitiativer over hele Europa, Midtøsten og Afrika. Han har erfaring med å designe og drive kunstig intelligens-plattformer i produksjon som støtter millioner av kunder og leverer forretningsresultater. Han har spilt lederroller innen teknologi og mennesker for Global Financial Services-organisasjoner. Utenom jobben liker han å lese, spille tennis med sønnen og se på film.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/

Platon Data Intelligence.
Vertikalt søk og Ai.

Evaluer tekstoppsummeringsmulighetene til LLM-er for forbedret beslutningstaking på AWS | Amazon Web Services

Typer oppsummering

Utfordringen