Platon Data Intelligence.
Vertikal sökning & Ai.

Utvärdera textsammanfattningsförmågan hos LLM:er för förbättrat beslutsfattande om AWS | Amazon webbtjänster

Datum:

Organisationer i olika branscher använder automatisk textsammanfattning för att mer effektivt hantera stora mängder information och fatta bättre beslut. Inom finanssektorn sammanställer investeringsbankerna resultatrapporter till viktiga alternativ för att snabbt analysera kvartalsresultat. Medieföretag använder sammanfattningar för att övervaka nyheter och sociala medier så att journalister snabbt kan skriva berättelser om utvecklingsfrågor. Statliga myndigheter sammanfattar långa policydokument och rapporter för att hjälpa beslutsfattare att lägga strategier och prioritera mål.

Genom att skapa komprimerade versioner av långa, komplexa dokument, gör summeringstekniken det möjligt för användare att fokusera på det mest framträdande innehållet. Detta leder till bättre förståelse och bevarande av viktig information. Tidsbesparingarna gör att intressenter kan granska mer material på kortare tid och få ett bredare perspektiv. Med ökad förståelse och mer syntetiserade insikter kan organisationer fatta bättre informerade strategiska beslut, påskynda forskningen, förbättra produktiviteten och öka deras inverkan. Den transformativa kraften hos avancerade sammanfattningsmöjligheter kommer bara att fortsätta växa när fler industrier använder artificiell intelligens (AI) för att utnyttja överflödande informationsströmmar.

I det här inlägget utforskar vi ledande tillvägagångssätt för att objektivt utvärdera summeringsnoggrannheten, inklusive ROUGE-mätvärden, METEOR och BERTScore. Att förstå styrkorna och svagheterna hos dessa tekniker kan hjälpa till att vägleda urval och förbättringsansträngningar. Det övergripande målet med det här inlägget är att avmystifiera sammanfattningsutvärderingen för att hjälpa team att förbättra prestanda för denna kritiska förmåga när de försöker maximera värdet.

Typer av sammanfattningar

Sammanfattning kan generellt delas in i två huvudtyper: extraktiv sammanfattning och abstrakt sammanfattning. Båda tillvägagångssätten syftar till att kondensera långa textstycken till kortare former och fånga den mest kritiska informationen eller essensen av det ursprungliga innehållet, men de gör det på fundamentalt olika sätt.

Extraktiv sammanfattning innebär att identifiera och extrahera nyckelfraser, meningar eller segment från originaltexten utan att ändra dem. Systemet väljer ut delar av texten som anses vara mest informativ eller representativ för helheten. Extraktiv sammanfattning är användbar om noggrannheten är avgörande och sammanfattningen måste återspegla den exakta informationen från originaltexten. Dessa kan vara användningsfall som att lyfta fram specifika juridiska termer, skyldigheter och rättigheter som beskrivs i användarvillkoren. De vanligaste teknikerna som används för extraktiv sammanfattning är term frekvens-invers dokumentfrekvens (TF-IDF), meningspoäng, textrankningsalgoritm och övervakad maskininlärning (ML).

Abstrakt sammanfattning går ett steg längre genom att generera nya fraser och meningar som inte fanns i originaltexten, i huvudsak parafraserar och kondenserar det ursprungliga innehållet. Detta tillvägagångssätt kräver en djupare förståelse av texten, eftersom AI:n behöver tolka innebörden och sedan uttrycka den i en ny, koncis form. Stora språkmodeller (LLM) är bäst lämpade för abstrakt sammanfattning eftersom transformatormodellerna använder uppmärksamhetsmekanismer för att fokusera på relevanta delar av inmatningstexten när sammanfattningar genereras. Uppmärksamhetsmekanismen tillåter modellen att tilldela olika vikter till olika ord eller tokens i inmatningssekvensen, vilket gör det möjligt för den att fånga långväga beroenden och kontextuellt relevant information.

Utöver dessa två primära typer finns det hybridmetoder som kombinerar extraktiva och abstrakta metoder. Dessa tillvägagångssätt kan börja med extraktiv sammanfattning för att identifiera det viktigaste innehållet och sedan använda abstrakta tekniker för att skriva om eller kondensera innehållet till en flytande sammanfattning.

Utmaningen

Att hitta den optimala metoden för att utvärdera sammanfattningskvalitet är fortfarande en öppen utmaning. När organisationer i allt högre grad förlitar sig på automatisk textsammanfattning för att destillera nyckelinformation från dokument, växer behovet av standardiserade tekniker för att mäta sammanfattningsnoggrannheten. Helst skulle dessa utvärderingsmått kvantifiera hur väl maskingenererade sammanfattningar extraherar det mest framträdande innehållet från källtexter och presenterar sammanhängande sammanfattningar som återspeglar den ursprungliga betydelsen och sammanhanget.

Men att utveckla robusta utvärderingsmetoder för textsammanfattning ger svårigheter:

  • Mänskligt författade referenssammanfattningar som används för jämförelse uppvisar ofta hög variabilitet baserat på subjektiva bestämningar av betydelse
  • Nyanserade aspekter av sammanfattningskvalitet som flyt, läsbarhet och koherens visar sig vara svåra att kvantifiera programmatiskt
  • Det finns stor variation mellan sammanfattningsmetoder från statistiska algoritmer till neurala nätverk, vilket komplicerar direkta jämförelser

Recall-Oriented Understudy for Gisting Evaluation (ROUGE)

ROUGE mätvärden, såsom ROUGE-N och ROUGE-L, spelar en avgörande roll för att utvärdera kvaliteten på maskingenererade sammanfattningar jämfört med mänskliga referenssammanfattningar. Dessa mätvärden fokuserar på att bedöma överlappningen mellan innehållet i maskingenererade och mänskligt skapade sammanfattningar genom att analysera n-gram, som är grupper av ord eller tokens. Till exempel utvärderar ROUGE-1 matchningen av enskilda ord (unigram), medan ROUGE-2 betraktar par av ord (bigram). Dessutom bedömer ROUGE-N den längsta vanliga följden av ord mellan de två texterna, vilket möjliggör flexibilitet i ordföljden.

För att illustrera detta, överväg följande exempel:

  • ROGUE-1-mått – ROUGE-1 utvärderar överlappningen av unigram (enkla ord) mellan en genererad sammanfattning och en referenssammanfattning. Till exempel, om en referenssammanfattning innehåller "De snabba bruna räven hoppar" och den genererade sammanfattningen är "Den bruna räven hoppar snabbt", skulle ROUGE-1-måttet betrakta "brun", "räv" och "hopp" som överlappande unigram. ROUGE-1 fokuserar på förekomsten av enskilda ord i sammanfattningarna, och mäter hur väl den genererade sammanfattningen fångar nyckelorden från referenssammanfattningen.
  • ROGUE-2-mått – ROUGE-2 bedömer överlappningen av bigram (par av intilliggande ord) mellan en genererad sammanfattning och en referenssammanfattning. Till exempel, om referenssammanfattningen har "Katten sover" och den genererade sammanfattningen lyder "En katt sover", skulle ROUGE-2 identifiera "katten är" och "sover" som ett överlappande bigram. ROUGE-2 ger insikt i hur väl den genererade sammanfattningen upprätthåller sekvensen och sammanhanget för ordpar jämfört med referenssammanfattningen.
  • ROUGE-N metrisk – ROUGE-N är en generaliserad form där N representerar valfritt tal, vilket möjliggör utvärdering baserat på n-gram (sekvenser av N ord). Med tanke på N=3, om referenssammanfattningen säger "Solen skiner starkt" och den genererade sammanfattningen är "Sol skiner starkt", skulle ROUGE-3 känna igen "solen skiner starkt" som ett matchande trigram. ROUGE-N erbjuder flexibilitet att utvärdera sammanfattningar baserat på olika längder av ordsekvenser, vilket ger en mer omfattande bedömning av innehållsöverlappning.

Dessa exempel illustrerar hur ROUGE-1-, ROUGE-2- och ROUGE-N-mått fungerar vid utvärdering av automatiska sammanfattningar eller maskinöversättningsuppgifter genom att jämföra genererade sammanfattningar med referenssammanfattningar baserade på olika nivåer av ordsekvenser.

Beräkna ett ROUGE-N-poäng

Du kan använda följande steg för att beräkna ett ROUGE-N-poäng:

  1. Tokenisera den genererade sammanfattningen och referenssammanfattningen till enskilda ord eller tokens med hjälp av grundläggande tokeniseringsmetoder som delning med blanksteg eller NLP-bibliotek (natural language processing).
  2. Generera n-gram (sammanhängande sekvenser av N ord) från både den genererade sammanfattningen och referenssammanfattningen.
  3. Räkna antalet överlappande n-gram mellan den genererade sammanfattningen och referenssammanfattningen.
  4. Beräkna precision, återkallelse och F1-poäng:
    • Precision – Antalet överlappande n-gram dividerat med det totala antalet n-gram i den genererade sammanfattningen.
    • Recall – Antalet överlappande n-gram dividerat med det totala antalet n-gram i referenssammanfattningen.
    • F1-poäng – Det harmoniska medelvärdet av precision och återkallelse, beräknat som (2 * precision * återkallande) / (precision + återkallande).
  5. Den sammanlagda F1-poängen som erhålls från beräkning av precision, återkallelse och F1-poäng för varje rad i datasetet betraktas som ROUGE-N-poängen.

Begränsningar

ROGUE har följande begränsningar:

  • Snävt fokus på lexikal överlappning – Kärnan bakom ROUGE är att jämföra den systemgenererade sammanfattningen med en uppsättning referenser eller sammanfattningar som skapats av människor, och mäta den lexikala överlappningen mellan dem. Detta innebär att ROUGE har ett mycket snävt fokus på likhet på ordnivå. Den utvärderar faktiskt inte sammanfattningens semantiska betydelse, koherens eller läsbarhet. Ett system skulle kunna uppnå höga ROUGE-poäng genom att helt enkelt extrahera meningar ord-för-ord från originaltexten, utan att generera en sammanhängande eller kortfattad sammanfattning.
  • Okänslighet för parafrasering – Eftersom ROUGE förlitar sig på lexikal matchning kan den inte upptäcka semantisk likvärdighet mellan ord och fraser. Därför kommer parafrasering och användning av synonymer ofta att leda till lägre ROUGE-poäng, även om betydelsen bevaras. Detta missgynnar system som parafraserar eller sammanfattar på ett abstrakt sätt.
  • Brist på semantisk förståelse – ROUGE utvärderar inte om systemet verkligen förstod innebörden och begreppen i originaltexten. En sammanfattning skulle kunna uppnå hög lexikal överlappning med referenser, samtidigt som de saknar huvudidéerna eller innehåller faktiska inkonsekvenser. ROUGE skulle inte identifiera dessa problem.

När ska ROUGE användas

ROUGE är enkel och snabb att beräkna. Använd den som baslinje eller riktmärke för sammanfattningskvalitet relaterad till innehållsval. ROUGE-mått används mest effektivt i scenarier som involverar abstrakta sammanfattningsuppgifter, automatisk sammanfattningsutvärdering, bedömningar av LLM och jämförande analyser av olika sammanfattningsmetoder. Genom att använda ROUGE-mått i dessa sammanhang kan intressenter kvantitativt utvärdera kvaliteten och effektiviteten av sammanfattningsgenereringsprocesser.

Mätvärde för utvärdering av översättning med explicit ordning (METEOR)

En av de stora utmaningarna med att utvärdera sammanfattningssystem är att bedöma hur väl den genererade sammanfattningen flyter logiskt, snarare än att bara välja relevanta ord och fraser från källtexten. Att bara extrahera relevanta sökord och meningar ger inte nödvändigtvis en sammanhängande och sammanhållen sammanfattning. Sammanfattningen ska flyta smidigt och koppla ihop idéer logiskt, även om de inte presenteras i samma ordning som originaldokumentet.

Flexibiliteten i att matcha genom att reducera ord till deras rot- eller basform (till exempel, efter härkomst blir ord som "springer", "springer" och "springer" alla "springer") och synonymer betyder METEOR korrelerar bättre med mänskliga bedömningar av summarisk kvalitet. Den kan identifiera om viktigt innehåll bevaras, även om formuleringen skiljer sig. Detta är en viktig fördel jämfört med n-gram-baserade mätvärden som ROUGE, som bara letar efter exakta token-matchningar. METEOR ger också högre poäng till sammanfattningar som fokuserar på det mest framträdande innehållet från referensen. Lägre poäng ges till repetitiv eller irrelevant information. Detta överensstämmer väl med målet att sammanfatta att endast behålla det viktigaste innehållet. METEOR är ett semantiskt meningsfullt mått som kan övervinna några av begränsningarna med n-gram-matchning för att utvärdera textsammanfattning. Införlivandet av härkomst och synonymer möjliggör bättre bedömning av informationsöverlappning och innehållsnoggrannhet.

För att illustrera detta, överväg följande exempel:

Referenssammanfattning: Löv faller under hösten.

Genererad sammanfattning 1: Löv faller på hösten.

Genererad sammanfattning 2: Blad gröna på sommaren.

De ord som matchar mellan referensen och genererad sammanfattning 1 är markerade:

Referenssammanfattning: Löv falla under hösten.

Genererad sammanfattning 1: Löv titta in falla.

Även om "höst" och "höst" är olika symboler, känner METEOR igen dem som synonymer genom sin synonymmatchning. "Drop" och "fall" identifieras som en stängd matchning. För genererad sammanfattning 2 finns det inga matchningar med referenssammanfattningen förutom "Löv", så denna sammanfattning skulle få ett mycket lägre METEOR-poäng. Ju mer semantiskt meningsfulla matchningar, desto högre METEOR-poäng. Detta gör att METEOR bättre kan utvärdera innehållet och noggrannheten i sammanfattningar jämfört med enkel n-gram-matchning.

Beräkna ett METEOR-poäng

Utför följande steg för att beräkna ett METEOR-poäng:

  1. Tokenisera den genererade sammanfattningen och referenssammanfattningen till enskilda ord eller tokens med hjälp av grundläggande tokeniseringsmetoder som delning efter blanksteg eller NLP-bibliotek.
  2. Beräkna unigram precision, återkallande och F-medelvärde, vilket ger mer vikt att återkalla än precision.
  3. Tillämpa ett straff för exakta matchningar för att undvika att överbetona dem. Straffet väljs baserat på datasetets egenskaper, uppgiftskrav och balansen mellan precision och återkallelse. Subtrahera detta straff från F-medelpoängen beräknad i steg 2.
  4. Beräkna F-medelvärde för stamformer (reducera ord till deras bas- eller rotform) och synonymer för unigram där tillämpligt. Aggregera detta med det tidigare beräknade F-medelvärdet för att få det slutliga METEOR-poänget. METEOR-poängen sträcker sig från 0–1, där 0 indikerar ingen likhet mellan den genererade sammanfattningen och referenssammanfattningen, och 1 indikerar perfekt inriktning. Vanligtvis faller summeringspoängen mellan 0–0.6.

Begränsningar

När man använder METEOR-måttet för att utvärdera sammanfattningsuppgifter kan flera utmaningar uppstå:

  • Semantisk komplexitet – METEORs betoning på semantisk likhet kan ha svårt att fånga de nyanserade betydelserna och sammanhanget i komplexa sammanfattningsuppgifter, vilket potentiellt kan leda till felaktigheter i utvärderingen.
  • Referensvariabilitet – Variation i mänskligt genererade referenssammanfattningar kan påverka METEOR-resultaten, eftersom skillnader i referensinnehåll kan påverka utvärderingen av maskingenererade sammanfattningar.
  • Språklig mångfald – Effektiviteten hos METEOR kan variera mellan olika språk på grund av språkliga variationer, syntaxskillnader och semantiska nyanser, vilket innebär utmaningar i flerspråkiga sammanfattningsutvärderingar.
  • Längdskillnad – Att utvärdera sammanfattningar av varierande längd kan vara utmanande för METEOR, eftersom avvikelser i längd jämfört med referenssammanfattningen kan resultera i påföljder eller felaktigheter i bedömningen.
  • Parameterjustering – Att optimera METEORs parametrar för olika datamängder och sammanfattningsuppgifter kan vara tidskrävande och kräver noggrann justering för att säkerställa att måtten ger korrekta utvärderingar.
  • Utvärderingsbias – Det finns en risk för utvärderingsbias med METEOR om den inte är korrekt justerad eller kalibrerad för specifika sammanfattningsdomäner eller uppgifter. Detta kan potentiellt leda till skeva resultat och påverka utvärderingsprocessens tillförlitlighet.

Genom att vara medvetna om dessa utmaningar och beakta dem när de använder METEOR som ett mått för sammanfattningsuppgifter, kan forskare och praktiker navigera i potentiella begränsningar och fatta mer välgrundade beslut i sina utvärderingsprocesser.

När ska man använda METEOR

METEOR används vanligtvis för att automatiskt utvärdera kvaliteten på textsammanfattningar. Det är att föredra att använda METEOR som ett utvärderingsmått när ordningen på idéer, koncept eller enheter i sammanfattningen har betydelse. METEOR tar hänsyn till ordningen och matchar n-gram mellan den genererade sammanfattningen och referenssammanfattningarna. Den belönar sammanfattningar som bevarar sekventiell information. Till skillnad från mätvärden som ROUGE, som förlitar sig på överlappning av n-gram med referenssammanfattningar, matchar METEOR stammar, synonymer och omskrivningar. METEOR fungerar bättre när det kan finnas flera korrekta sätt att sammanfatta originaltexten. METEOR innehåller WordNet-synonymer och stammade tokens vid matchning av n-gram. Kort sagt, sammanfattningar som är semantiskt lika men använder andra ord eller fraser kommer fortfarande att få bra resultat. METEOR har en inbyggd straffavgift för sammanfattningar med repetitiva n-gram. Därför motverkar det ord-för-ord-extraktion eller brist på abstraktion. METEOR är ett bra val när semantisk likhet, ordning på idéer och flytande frasering är viktiga för att bedöma sammanfattningskvalitet. Det är mindre lämpligt för uppgifter där endast lexikal överlappning med referenssammanfattningar är viktiga.

BERTScore

Lexikala mått på ytnivå som ROUGE och METEOR utvärderar sammanfattningssystem genom att jämföra ordöverlappningen mellan en kandidatsammanfattning och en referenssammanfattning. Men de är mycket beroende av exakt strängmatchning mellan ord och fraser. Det betyder att de kan missa semantiska likheter mellan ord och fraser som har olika ytformer men liknande underliggande betydelser. Genom att endast förlita sig på ytamatchning kan dessa mätvärden underskatta kvaliteten på systemsammanfattningar som använder synonyma ord eller parafraserar begrepp annorlunda än referenssammanfattningar. Två sammanfattningar skulle kunna förmedla nästan identisk information men få låga poäng på ytnivån på grund av ordförrådsskillnader.

BERTScore är ett sätt att automatiskt utvärdera hur bra en sammanfattning är genom att jämföra den med en referenssammanfattning skriven av en människa. Den använder BERT, en populär NLP-teknik, för att förstå betydelsen och sammanhanget för ord i kandidatsammanfattningen och referenssammanfattningen. Specifikt tittar den på varje ord eller symbol i kandidatsammanfattningen och hittar det mest lika ordet i referenssammanfattningen baserat på BERT-inbäddning, som är vektorrepresentationer av betydelsen och sammanhanget för varje ord. Den mäter likheten med hjälp av cosinuslikhet, som berättar hur nära vektorerna är varandra. För varje ord i kandidatsammanfattningen hittar den det mest relaterade ordet i referenssammanfattningen med hjälp av BERT:s språkförståelse. Den jämför alla dessa ordlikheter över hela sammanfattningen för att få ett övergripande betyg av hur semantiskt lik kandidatsammanfattningen är referenssammanfattningen. Ju mer lika ord och betydelser som fångas av BERT, desto högre BERTS-poäng. Detta gör att den automatiskt kan utvärdera kvaliteten på en genererad sammanfattning genom att jämföra den med en mänsklig referens utan att behöva utvärdera en människa varje gång.

För att illustrera detta, föreställ dig att du har en maskingenererad sammanfattning: "Den kvicka bruna räven hoppar över den lata hunden." Låt oss nu överväga en mänskligt skapad referenssammanfattning: "En snabb brun räv hoppar över en sovande hund."

Beräkna en BERTScore

Utför följande steg för att beräkna en BERTSpoäng:

  1. BERTScore använder kontextuella inbäddningar för att representera varje token i både kandidatmeningarna (maskingenererade) och referensmeningarna (människangjorda). Kontextuella inbäddningar är en typ av ordrepresentation i NLP som fångar innebörden av ett ord baserat på dess sammanhang i en mening eller text. Till skillnad från traditionella ordinbäddningar som tilldelar en fast vektor till varje ord oavsett dess kontext, betraktar kontextuella inbäddningar de omgivande orden för att generera en unik representation för varje ord beroende på hur det används i en specifik mening.
  2. Måttet beräknar sedan likheten mellan varje token i kandidatsatsen med varje token i referensmeningen med hjälp av cosinuslikhet. Cosinuslikhet hjälper oss att kvantifiera hur nära relaterade två uppsättningar data är genom att fokusera på riktningen de pekar i ett flerdimensionellt utrymme, vilket gör det till ett värdefullt verktyg för uppgifter som sökalgoritmer, NLP och rekommendationssystem.
  3. Genom att jämföra de kontextuella inbäddningarna och beräkna likhetspoäng för alla tokens, genererar BERTScore en omfattande utvärdering som fångar den semantiska relevansen och sammanhanget för den genererade sammanfattningen jämfört med den mänskligt skapade referensen.
  4. Den slutliga BERTScore-utgången ger ett likhetspoäng som återspeglar hur väl den maskingenererade sammanfattningen överensstämmer med referenssammanfattningen i termer av betydelse och sammanhang.

I grund och botten går BERTScore utöver traditionella mått genom att överväga meningarnas semantiska nyanser och sammanhang, och erbjuder en mer sofistikerad utvärdering som nära återspeglar mänskligt omdöme. Detta avancerade tillvägagångssätt förbättrar noggrannheten och tillförlitligheten i utvärdering av summeringsuppgifter, vilket gör BERTScore till ett värdefullt verktyg för att bedöma textgenereringssystem.

Begränsningar:

Även om BERTScore erbjuder betydande fördelar när det gäller att utvärdera sammanfattningsuppgifter, kommer det också med vissa begränsningar som måste beaktas:

  • Beräkningsintensitet – BERTScore kan vara beräkningsintensivt på grund av dess beroende av förtränade språkmodeller som BERT. Detta kan leda till längre utvärderingstider, särskilt vid bearbetning av stora volymer textdata.
  • Beroende av förtränade modeller – Effektiviteten av BERTScore är starkt beroende av kvaliteten och relevansen av den förutbildade språkmodellen som används. I scenarier där den förtränade modellen kanske inte tillräckligt fångar nyanserna i texten, kan utvärderingsresultaten påverkas.
  • skalbarhet – Att skala BERTScore för stora datamängder eller realtidsapplikationer kan vara utmanande på grund av dess beräkningskrav. Implementering av BERTScore i produktionsmiljöer kan kräva optimeringsstrategier för att ge effektiv prestanda.
  • Domänspecificitet – BERTScores prestanda kan variera mellan olika domäner eller specialiserade texttyper. Att anpassa måttet till specifika domäner eller uppgifter kan kräva finjusteringar eller justeringar för att producera korrekta utvärderingar.
  • tolkningsbarhet – Även om BERTScore tillhandahåller en omfattande utvärdering baserad på kontextuella inbäddningar, kan det vara komplicerat att tolka de specifika orsakerna bakom likhetspoängen som genereras för varje token och kan kräva ytterligare analys.
  • Referensfri utvärdering – Även om BERTScore minskar beroendet av referenssammanfattningar för utvärdering, kanske detta referensfria tillvägagångssätt inte helt fångar alla aspekter av sammanfattningskvalitet, särskilt i scenarier där mänskliga referenser är avgörande för att bedöma innehållets relevans och koherens.

Att erkänna dessa begränsningar kan hjälpa dig att fatta välgrundade beslut när du använder BERTScore som ett mått för att utvärdera sammanfattningsuppgifter, vilket ger en balanserad förståelse av dess styrkor och begränsningar.

När ska man använda BERTScore

BERTScore kan utvärdera kvaliteten på textsammanfattningar genom att jämföra en genererad sammanfattning med en referenssammanfattning. Den använder neurala nätverk som BERT för att mäta semantisk likhet utöver bara exakt ord- eller frasmatchning. Detta gör BERTScore mycket användbart när semantisk trohet att bevara hela innebörden och innehållet är avgörande för din sammanfattningsuppgift. BERTScore kommer att ge högre poäng till sammanfattningar som förmedlar samma information som referenssammanfattningen, även om de använder olika ord och meningsstrukturer. Summan av kardemumman är att BERTScore är idealisk för sammanfattningsuppgifter där det är viktigt att behålla den fulla semantiska innebörden, inte bara nyckelord eller ämnen. Dess avancerade neurala poängsättning gör att den kan jämföra betydelse bortom ordmatchning på ytnivå. Detta gör det lämpligt för fall där subtila skillnader i formuleringar avsevärt kan förändra den övergripande innebörden och implikationerna. Särskilt BERTScore utmärker sig när det gäller att fånga semantisk likhet, vilket är avgörande för att bedöma kvaliteten på abstrakta sammanfattningar som de som produceras av Retrieval Augmented Generation (RAG)-modeller.

Ramverk för modellutvärdering

Ramverk för modellutvärdering är väsentliga för att exakt mäta prestandan hos olika sammanfattningsmodeller. Dessa ramverk är avgörande för att jämföra modeller, ger samstämmighet mellan genererade sammanfattningar och källinnehåll, och lokalisering av brister i utvärderingsmetoder. Genom att utföra grundliga bedömningar och konsekvent benchmarking driver dessa ramverk fram textsammanfattningsforskning genom att förespråka standardiserade utvärderingsmetoder och möjliggöra mångfacetterade modelljämförelser.

I AWS är FMEval bibliotek inom Amazon SageMaker Clarify effektiviserar utvärderingen och urvalet av grundmodeller (FM) för uppgifter som textsammanfattning, svar på frågor och klassificering. Det ger dig möjlighet att utvärdera FMs baserat på mätvärden som noggrannhet, robusthet, kreativitet, partiskhet och toxicitet, vilket stöder både automatiserade och human-in-the-loop-utvärderingar för LLMs. Med UI-baserade eller programmatiska utvärderingar genererar FMEval detaljerade rapporter med visualiseringar för att kvantifiera modellrisker som felaktigheter, toxicitet eller partiskhet, vilket hjälper organisationer att anpassa sig till sina ansvarsfulla generativa AI-riktlinjer. I det här avsnittet visar vi hur man använder FMEval-biblioteket.

Utvärdera Claude v2 om summeringsnoggrannhet med Amazon Bedrock

Följande kodsnutt är ett exempel på hur man interagerar med den antropiska Claude-modellen med Python-kod:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Enkelt uttryckt utför den här koden följande åtgärder:

  1. Importera nödvändiga bibliotek, inklusive json, för att arbeta med JSON-data.
  2. Definiera modell-ID som anthropic.claude-v2 och ställ in innehållstypen för begäran.
  3. Skapa en prompt_data variabel som strukturerar indata för Claude-modellen. I det här fallet ställs frågan "Vem är Barack Obama?" och förväntar sig ett svar från modellen.
  4. Konstruera ett JSON-objekt med namnet body som inkluderar promptdata och ange ytterligare parametrar som det maximala antalet tokens som ska genereras.
  5. Åberopa Claude-modellen med hjälp av bedrock_runtime.invoke_model med de definierade parametrarna.
  6. Analysera svaret från modellen, extrahera kompletteringen (genererad text) och skriv ut den.

Se till AWS identitets- och åtkomsthantering (IAM) roll kopplad till Amazon SageMaker Studio användarprofilen har tillgång till Amazonas berggrund modeller som åberopas. Hänvisa till Identitetsbaserade policyexempel för Amazon Bedrock för vägledning om bästa praxis och exempel på identitetsbaserade policyer för Amazon Bedrock.

Använder FMEval-biblioteket för att utvärdera den sammanfattade produktionen från Claude

Vi använder följande kod för att utvärdera den sammanfattade utdata:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

I det föregående kodavsnittet, för att utvärdera textsammanfattning med FMEval-biblioteket, genomför vi följande steg:

  1. Skapa en ModelRunner för att utföra anrop på din LLM. FMEval-biblioteket ger inbyggt stöd för Amazon SageMaker slutpunkter och Amazon SageMaker JumpStart LLMs. Du kan också förlänga ModelRunner gränssnitt för alla LLM:er som finns var som helst.
  2. Använd stöds eval_algorithms som toxicitet, sammanfattning, noggrannhet, semantik och robusthet, baserat på dina utvärderingsbehov.
  3. Anpassa utvärderingskonfigurationsparametrarna för ditt specifika användningsfall.
  4. Använd utvärderingsalgoritmen med antingen inbyggda eller anpassade datauppsättningar för att utvärdera din LLM-modell. Datauppsättningen som används i det här fallet kommer från följande GitHub repo.

Referera till utvecklarguide och exempel för detaljerad användning av utvärderingsalgoritmer.

Följande tabell sammanfattar resultaten av utvärderingen.

modell _ingång model_output target_output snabb poäng meteor_score rouge_score bert_score
John Edward
0 Bates, tidigare Spalding, Linco…..
Jag kan inte göra något definitivt
domar, som...
En föredetta
Lincolnshire-polisen bar på...
Människan: John
Edward Bates, tidigare från Spalding...
[{'name': 'meteor', 'value':
0.101010101010101 ...
0.10101 0 0.557155
23 oktober 2015
Senast uppdaterad kl
17:44 BST|nDet'...
Här är några viktiga punkter om orkan/trop.. Orkanen Patricia har klassats som en kategori... Människan: 23
Oktober 2015 Senast uppdaterad 17:44
B...
[{'namn': meteor', "värde":
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari verkade i en position att utmana un... Här är de viktigaste punkterna från artikeln: nio... Lewis Hamilton stormade till pole position vid... Människan: Ferrari dök upp i en position att utmana... [{'name': 'meteor', 'value':
0.322543352601156 ...
0.322543 0.078212 0.606487
Den Bath-borna spelaren, 28, har gjort 36
utseende...
Okej, låt mig sammanfatta nyckelpunkterna:/nin- E….. Newport Gwent Dragons nummer åtta Ed Jackson Människan: Den Bath-borna spelaren, 28, har gjort 36 a... [{'name': 'meteor', 'value':
0105740181268882 ...
0.10574 0.012987 0.539488
Svagheter i hur möss bytte data med c... Här är de viktigaste punkterna jag samlat in från en... Hackare kan få tillgång till hem och Human:
Svagheter i
swarmöss bytte data
[{'name': 'meteor', 'value':
0.201048289433848 ...
0.201048 0.021858 0.526947

Kolla in provet anteckningsbok för mer information om sammanfattningsutvärderingen som vi diskuterade i det här inlägget.

Slutsats

ROUGE, METEOR och BERTScore mäter alla kvaliteten på maskingenererade sammanfattningar, men fokuserar på olika aspekter som lexikal överlappning, flyt eller semantisk likhet. Se till att välja måtten som stämmer överens med vad som definierar "bra" för ditt specifika sammanfattningsanvändningsfall. Du kan också använda en kombination av mätvärden. Detta ger en mer väl avrundad utvärdering och skyddar mot potentiella svagheter i varje enskild måttenhet. Med rätt mätningar kan du iterativt förbättra dina summerare för att möta den uppfattning om noggrannhet som är viktigast.

Dessutom är FM- och LLM-utvärdering nödvändig för att kunna producera dessa modeller i stor skala. Med FMEval får du en stor uppsättning inbyggda algoritmer för många NLP-uppgifter, men också ett skalbart och flexibelt verktyg för storskaliga utvärderingar av dina egna modeller, datauppsättningar och algoritmer. För att skala upp kan du använda detta paket i dina LLMOPS-pipelines till utvärdera flera modeller. För att lära dig mer om FMEval i AWS och hur man använder det effektivt, se Använd SageMaker Clarify för att utvärdera stora språkmodeller. För ytterligare förståelse och insikter i SageMaker Clarifys förmåga att utvärdera FM, se Amazon SageMaker Clarify gör det enklare att utvärdera och välja grundmodeller.


Om författarna


Dinesh Kumar Subramani är en senior lösningsarkitekt baserad i Edinburgh, Skottland. Han är specialiserad på artificiell intelligens och maskininlärning, och är medlem i teknisk fältgemenskap med Amazon. Dinesh arbetar nära med kunder i Storbritanniens centrala myndigheter för att lösa deras problem med hjälp av AWS-tjänster. Utanför jobbet tycker Dinesh om att spendera kvalitetstid med sin familj, spela schack och utforska en mängd olika musik.


Pranav Sharma är en AWS-ledare som driver teknik- och affärstransformationsinitiativ i Europa, Mellanöstern och Afrika. Han har erfarenhet av att designa och driva plattformar för artificiell intelligens i produktion som stödjer miljontals kunder och levererar affärsresultat. Han har spelat ledarroller inom teknik och människor för Global Financial Services-organisationer. Utanför jobbet gillar han att läsa, spela tennis med sin son och titta på film.

plats_img

Senaste intelligens

plats_img

Chatta med oss

Hallå där! Hur kan jag hjälpa dig?