Plato data-intelligentie.
Verticaal zoeken & Ai.

Evalueer de mogelijkheden voor tekstsamenvatting van LLM's voor verbeterde besluitvorming over AWS | Amazon-webservices

Datum:

Organisaties in alle sectoren maken gebruik van automatische tekstsamenvatting om efficiënter met grote hoeveelheden informatie om te gaan en betere beslissingen te nemen. In de financiële sector beperken investeringsbanken hun winstrapportages tot de belangrijkste inzichten om snel de kwartaalprestaties te kunnen analyseren. Mediabedrijven gebruiken samenvattingen om nieuws en sociale media te monitoren, zodat journalisten snel verhalen kunnen schrijven over zich ontwikkelende kwesties. Overheidsinstanties vatten lange beleidsdocumenten en rapporten samen om beleidsmakers te helpen bij het bepalen van de strategie en het prioriteren van doelstellingen.

Door verkorte versies van lange, complexe documenten te maken, stelt de samenvattingstechnologie gebruikers in staat zich te concentreren op de meest opvallende inhoud. Dit leidt tot een beter begrip en behoud van kritische informatie. Door de tijdsbesparing kunnen belanghebbenden meer materiaal in minder tijd beoordelen, waardoor een breder perspectief wordt verkregen. Met een beter begrip en meer gesynthetiseerde inzichten kunnen organisaties beter geïnformeerde strategische beslissingen nemen, onderzoek versnellen, de productiviteit verbeteren en de impact ervan vergroten. De transformerende kracht van geavanceerde samenvattingsmogelijkheden zal alleen maar blijven groeien naarmate meer industrieën kunstmatige intelligentie (AI) gaan gebruiken om de overvolle informatiestromen te benutten.

In dit bericht onderzoeken we toonaangevende benaderingen voor het objectief evalueren van de nauwkeurigheid van samenvattingen, waaronder ROUGE-statistieken, METEOR en BERTScore. Inzicht in de sterke en zwakke punten van deze technieken kan helpen bij het begeleiden van selectie- en verbeteringsinspanningen. Het algemene doel van dit artikel is om de samenvattende evaluatie te demystificeren om teams te helpen de prestaties op dit cruciale vermogen beter te benchmarken terwijl ze proberen de waarde te maximaliseren.

Soorten samenvattingen

Samenvatting kan over het algemeen worden onderverdeeld in twee hoofdtypen: extractieve samenvatting en abstracte samenvatting. Beide benaderingen zijn erop gericht lange stukken tekst samen te vatten in kortere vormen, waarbij de meest kritische informatie of essentie van de oorspronkelijke inhoud wordt vastgelegd, maar ze doen dit op fundamenteel verschillende manieren.

Extractieve samenvatting omvat het identificeren en extraheren van sleutelzinnen, zinnen of segmenten uit de originele tekst zonder deze te wijzigen. Het systeem selecteert delen van de tekst die het meest informatief of representatief voor het geheel worden geacht. Extractieve samenvatting is handig als nauwkeurigheid van cruciaal belang is en de samenvatting de exacte informatie uit de originele tekst moet weergeven. Dit kunnen gebruiksscenario's zijn, zoals het benadrukken van specifieke juridische voorwaarden, verplichtingen en rechten die in de gebruiksvoorwaarden worden beschreven. De meest gebruikte technieken voor extractieve samenvatting zijn termfrequentie-inverse documentfrequentie (TF-IDF), zinsscore, tekstrangschikkingsalgoritme en begeleid machinaal leren (ML).

Abstractieve samenvatting gaat nog een stap verder door nieuwe zinnen en zinnen te genereren die niet in de originele tekst stonden, waarbij in wezen de originele inhoud wordt geparafraseerd en gecondenseerd. Deze aanpak vereist een dieper begrip van de tekst, omdat de AI de betekenis moet interpreteren en deze vervolgens in een nieuwe, beknopte vorm moet uitdrukken. Grote taalmodellen (LLM's) zijn het meest geschikt voor abstractieve samenvattingen, omdat de transformatormodellen aandachtsmechanismen gebruiken om zich te concentreren op relevante delen van de invoertekst bij het genereren van samenvattingen. Dankzij het aandachtsmechanisme kan het model verschillende gewichten toekennen aan verschillende woorden of tokens in de invoerreeks, waardoor het langeafstandsafhankelijkheden en contextueel relevante informatie kan vastleggen.

Naast deze twee primaire typen zijn er hybride benaderingen die extractieve en abstractieve methoden combineren. Deze benaderingen kunnen beginnen met extractieve samenvatting om de belangrijkste inhoud te identificeren en vervolgens abstracte technieken te gebruiken om die inhoud te herschrijven of te condenseren tot een vloeiende samenvatting.

De uitdaging

Het vinden van de optimale methode om de kwaliteit van samenvattingen te evalueren blijft een open uitdaging. Naarmate organisaties steeds meer vertrouwen op automatische samenvattingen van teksten om belangrijke informatie uit documenten te destilleren, groeit de behoefte aan gestandaardiseerde technieken om de nauwkeurigheid van samenvattingen te meten. Idealiter zouden deze evaluatiestatistieken kwantificeren hoe goed door machines gegenereerde samenvattingen de meest opvallende inhoud uit bronteksten halen en samenhangende samenvattingen presenteren die de oorspronkelijke betekenis en context weerspiegelen.

Het ontwikkelen van robuuste evaluatiemethoden voor het samenvatten van teksten brengt echter problemen met zich mee:

  • Door mensen geschreven referentiesamenvattingen die ter vergelijking worden gebruikt, vertonen vaak een hoge variabiliteit op basis van subjectieve bepalingen van belangrijkheid
  • Genuanceerde aspecten van de kwaliteit van samenvattingen, zoals vloeiendheid, leesbaarheid en samenhang, blijken moeilijk programmatisch te kwantificeren
  • Er bestaat een grote variatie tussen de samenvattingsmethoden, van statistische algoritmen tot neurale netwerken, wat directe vergelijkingen bemoeilijkt

Recall-Oriented Understudy voor Gisting-evaluatie (ROUGE)

ROUGE-statistieken, zoals ROUGE-N en ROUGE-L, spelen een cruciale rol bij het evalueren van de kwaliteit van door machines gegenereerde samenvattingen in vergelijking met door mensen geschreven referentiesamenvattingen. Deze statistieken zijn gericht op het beoordelen van de overlap tussen de inhoud van door machines gegenereerde en door mensen gemaakte samenvattingen door het analyseren van n-grammen, dit zijn groepen woorden of tokens. ROUGE-1 evalueert bijvoorbeeld de overeenkomst van individuele woorden (unigrammen), terwijl ROUGE-2 rekening houdt met woordparen (bigrammen). Bovendien beoordeelt ROUGE-N de langste gemeenschappelijke deelreeks van woorden tussen de twee teksten, waardoor flexibiliteit in de woordvolgorde mogelijk wordt.

Om dit te illustreren, overweeg de volgende voorbeelden:

  • ROGUE-1-statistiek – ROUGE-1 evalueert de overlap van unigrammen (enkele woorden) tussen een gegenereerde samenvatting en een referentiesamenvatting. Als een referentiesamenvatting bijvoorbeeld 'De snelle bruine vos springt' bevat en de gegenereerde samenvatting is 'De bruine vos springt snel', beschouwt de ROUGE-1-statistiek 'bruin', 'vos' en 'springt' als overlappend unigrammen. ROUGE-1 richt zich op de aanwezigheid van individuele woorden in de samenvattingen en meet hoe goed de gegenereerde samenvatting de sleutelwoorden uit de referentiesamenvatting weergeeft.
  • ROGUE-2-statistiek – ROUGE-2 beoordeelt de overlap van bigrams (paren van aangrenzende woorden) tussen een gegenereerde samenvatting en een referentiesamenvatting. Als de referentiesamenvatting bijvoorbeeld 'De kat slaapt' bevat en de gegenereerde samenvatting luidt 'Een kat slaapt', zou ROUGE-2 'kat is' en 'slaapt' identificeren als een overlappend bigram. ROUGE-2 geeft inzicht in hoe goed de gegenereerde samenvatting de volgorde en context van woordparen behoudt in vergelijking met de referentiesamenvatting.
  • ROUGE-N-metrisch – ROUGE-N is een algemene vorm waarbij N een willekeurig getal vertegenwoordigt, waardoor evaluatie op basis van n-grammen (reeksen van N woorden) mogelijk is. Rekening houdend met N=3, als de referentiesamenvatting luidt: “De zon schijnt helder” en de gegenereerde samenvatting is “Zon schijnt helder”, dan zou ROUGE-3 “zon schijnt helder” herkennen als een passend trigram. ROUGE-N biedt flexibiliteit om samenvattingen te evalueren op basis van woordreeksen van verschillende lengtes, waardoor een uitgebreidere beoordeling van de overlap van de inhoud wordt geboden.

Deze voorbeelden illustreren hoe ROUGE-1-, ROUGE-2- en ROUGE-N-metrieken functioneren bij het evalueren van automatische samenvattingen of automatische vertaaltaken door gegenereerde samenvattingen te vergelijken met referentiesamenvattingen op basis van verschillende niveaus van woordreeksen.

Bereken een ROUGE-N-score

Om een ​​ROUGE-N score te berekenen kunt u de volgende stappen gebruiken:

  1. Tokeniseer de gegenereerde samenvatting en de referentiesamenvatting in afzonderlijke woorden of tokens met behulp van basismethoden voor tokenisatie, zoals splitsen op basis van witruimte of NLP-bibliotheken (Natural Language Processing).
  2. Genereer n-grammen (aaneengesloten reeksen van N woorden) uit zowel de gegenereerde samenvatting als de referentiesamenvatting.
  3. Tel het aantal overlappende n-grammen tussen de gegenereerde samenvatting en de referentiesamenvatting.
  4. Bereken precisie, terugroepactie en F1-score:
    • precisie – Het aantal overlappende n-grammen gedeeld door het totale aantal n-grammen in de gegenereerde samenvatting.
    • Terugroepen – Het aantal overlappende n-grammen gedeeld door het totale aantal n-grammen in de referentiesamenvatting.
    • F1-score – Het harmonische gemiddelde van precisie en herinnering, berekend als (2 * precisie * herinnering) / (precisie + herinnering).
  5. De totale F1-score die wordt verkregen door het berekenen van de precisie, de herinnering en de F1-score voor elke rij in de gegevensset, wordt beschouwd als de ROUGE-N-score.

Beperkingen

ROGUE heeft de volgende beperkingen:

  • Smalle focus op lexicale overlap – Het kernidee achter ROUGE is om de door het systeem gegenereerde samenvatting te vergelijken met een reeks referentie- of door mensen gemaakte samenvattingen, en de lexicale overlap daartussen te meten. Dit betekent dat ROUGE een zeer beperkte focus heeft op gelijkenis op woordniveau. Het evalueert niet daadwerkelijk de semantische betekenis, samenhang of leesbaarheid van de samenvatting. Een systeem zou hoge ROUGE-scores kunnen behalen door simpelweg zinnen woord voor woord uit de originele tekst te extraheren, zonder een samenhangende of beknopte samenvatting te genereren.
  • Ongevoeligheid voor parafraseren – Omdat ROUGE afhankelijk is van lexicale matching, kan het geen semantische gelijkwaardigheid tussen woorden en zinsdelen detecteren. Daarom zal parafraseren en gebruik van synoniemen vaak leiden tot lagere ROUGE-scores, zelfs als de betekenis behouden blijft. Dit benadeelt systemen die op een abstractieve manier parafraseren of samenvatten.
  • Gebrek aan semantisch begrip – ROUGE evalueert niet of het systeem de betekenissen en concepten in de originele tekst werkelijk heeft begrepen. Een samenvatting kan een hoge lexicale overlap met referenties opleveren, terwijl de belangrijkste ideeën ontbreken of feitelijke inconsistenties bevatten. ROUGE zou deze problemen niet identificeren.

Wanneer gebruik je ROUGE?

ROUGE is eenvoudig en snel te berekenen. Gebruik het als basislijn of maatstaf voor de kwaliteit van de samenvattingen met betrekking tot de selectie van inhoud. ROUGE-metrieken worden het meest effectief gebruikt in scenario's met abstracte samenvattingstaken, automatische samenvattingsevaluatie, beoordelingen van LLM's en vergelijkende analyses van verschillende samenvattingsbenaderingen. Door ROUGE-metrieken in deze contexten te gebruiken, kunnen belanghebbenden de kwaliteit en effectiviteit van processen voor het genereren van samenvattingen kwantitatief evalueren.

Metriek voor evaluatie van vertalingen met expliciete volgorde (METEOR)

Een van de grootste uitdagingen bij het evalueren van samenvattingssystemen is het beoordelen hoe goed de gegenereerde samenvatting logisch verloopt, in plaats van alleen maar relevante woorden en zinsneden uit de brontekst te selecteren. Het simpelweg extraheren van relevante trefwoorden en zinnen levert niet noodzakelijkerwijs een coherente en samenhangende samenvatting op. De samenvatting moet soepel verlopen en ideeën logisch met elkaar verbinden, zelfs als ze niet in dezelfde volgorde worden gepresenteerd als het originele document.

De flexibiliteit van het matchen door woorden terug te brengen naar hun stam- of basisvorm (na stammen worden woorden als ‘running’, ‘runs’ en ‘ran’ bijvoorbeeld allemaal ‘run’) en synoniemen betekenen METEOR correleert beter met menselijke oordelen over de kwaliteit van de samenvatting. Het kan identificeren of belangrijke inhoud behouden blijft, zelfs als de bewoording verschilt. Dit is een belangrijk voordeel ten opzichte van op n-gram gebaseerde statistieken zoals ROUGE, die alleen zoeken naar exacte tokenmatches. METEOR geeft ook hogere scores aan samenvattingen die zich richten op de meest opvallende inhoud uit de referentie. Lagere scores worden gegeven aan repetitieve of irrelevante informatie. Dit sluit goed aan bij het doel van samenvatten om alleen de belangrijkste inhoud te behouden. METEOR is een semantisch betekenisvolle metriek die enkele van de beperkingen van n-gram-matching kan overwinnen voor het evalueren van tekstsamenvattingen. De integratie van stammen en synoniemen zorgt voor een betere beoordeling van de overlap van informatie en de nauwkeurigheid van de inhoud.

Om dit te illustreren, overweeg de volgende voorbeelden:

Referentiesamenvatting: Bladeren vallen tijdens de herfst.

Gegenereerde samenvatting 1: Bladeren vallen in de herfst.

Gegenereerde samenvatting 2: Bladeren groen in de zomer.

De woorden die overeenkomen tussen de referentie en de gegenereerde samenvatting 1 zijn gemarkeerd:

Referentiesamenvatting: bladeren vallen tijdens de herfst.

Gegenereerde samenvatting 1: bladeren binnenvallen vallen.

Hoewel “herfst” en “herfst” verschillende tokens zijn, herkent METEOR ze als synoniemen door middel van het matchen van synoniemen. ‘Drop’ en ‘fall’ worden geïdentificeerd als een match met stam. Voor gegenereerde samenvatting 2 zijn er behalve 'Bladeren' geen overeenkomsten met de referentiesamenvatting, dus deze samenvatting zou een veel lagere METEOR-score krijgen. Hoe meer semantisch betekenisvolle overeenkomsten, hoe hoger de METEOR-score. Hierdoor kan METEOR de inhoud en nauwkeurigheid van samenvattingen beter evalueren in vergelijking met eenvoudige n-gram-matching.

Bereken een METEOR-score

Voer de volgende stappen uit om een ​​METEOR-score te berekenen:

  1. Tokeniseer de gegenereerde samenvatting en de referentiesamenvatting in afzonderlijke woorden of tokens met behulp van eenvoudige tokenisatiemethoden zoals splitsen op witruimte of NLP-bibliotheken.
  2. Bereken de unigram-precisie, herinnering en F-gemiddelde score, waarbij u meer gewicht moet geven aan herinnering dan aan precisie.
  3. Pas een boete toe voor exacte overeenkomsten om te voorkomen dat u deze te veel benadrukt. De straf wordt gekozen op basis van de kenmerken van de dataset, de taakvereisten en de balans tussen precisie en herinnering. Trek deze straf af van de F-gemiddelde score berekend in stap 2.
  4. Bereken de F-gemiddelde score voor stamvormen (waarbij woorden worden teruggebracht tot hun basis- of stamvorm) en synoniemen voor unigrammen, indien van toepassing. Voeg dit samen met de eerder berekende F-gemiddelde score om de uiteindelijke METEOR-score te verkrijgen. De METEOR-score varieert van 0-1, waarbij 0 aangeeft dat er geen overeenkomst is tussen de gegenereerde samenvatting en de referentiesamenvatting, en 1 een perfecte afstemming aangeeft. Doorgaans liggen de samenvattingsscores tussen 0 en 0.6.

Beperkingen

Bij het gebruik van de METEOR-metriek voor het evalueren van samenvattingstaken kunnen zich verschillende uitdagingen voordoen:

  • Semantische complexiteit – METEOR's nadruk op semantische gelijkenis kan moeite hebben om de genuanceerde betekenissen en context vast te leggen in complexe samenvattingstaken, wat mogelijk kan leiden tot onnauwkeurigheden in de evaluatie.
  • Referentievariabiliteit – Variabiliteit in door mensen gegenereerde referentiesamenvattingen kan van invloed zijn op METEOR-scores, omdat verschillen in referentie-inhoud de evaluatie van door machines gegenereerde samenvattingen kunnen beïnvloeden.
  • taalkundige diversiteit – De effectiviteit van METEOR kan per taal variëren als gevolg van taalkundige variaties, syntaxisverschillen en semantische nuances, wat uitdagingen met zich meebrengt bij meertalige samenvattingsevaluaties.
  • Lengteverschil – Het evalueren van samenvattingen van verschillende lengte kan een uitdaging zijn voor METEOR, omdat discrepanties in lengte vergeleken met de referentiesamenvatting kunnen leiden tot boetes of onnauwkeurigheden in de beoordeling.
  • Afstemming van parameters – Het optimaliseren van de METEOR-parameters voor verschillende datasets en samenvattingstaken kan tijdrovend zijn en vereist zorgvuldige afstemming om ervoor te zorgen dat de metriek nauwkeurige evaluaties oplevert.
  • Evaluatiebias – Er bestaat een risico op evaluatiebias bij METEOR als deze niet goed is aangepast of gekalibreerd voor specifieke samenvattingsdomeinen of -taken. Dit kan mogelijk tot vertekende resultaten leiden en de betrouwbaarheid van het evaluatieproces aantasten.

Door zich bewust te zijn van deze uitdagingen en deze in overweging te nemen bij het gebruik van METEOR als maatstaf voor samenvattende taken, kunnen onderzoekers en praktijkmensen omgaan met potentiële beperkingen en beter geïnformeerde beslissingen nemen in hun evaluatieprocessen.

Wanneer moet u METEOR gebruiken?

METEOR wordt vaak gebruikt om de kwaliteit van tekstsamenvattingen automatisch te evalueren. Het verdient de voorkeur om METEOR als evaluatiemaatstaf te gebruiken wanneer de volgorde van ideeën, concepten of entiteiten in de samenvatting ertoe doet. METEOR houdt rekening met de volgorde en matcht n-grammen tussen de gegenereerde samenvatting en referentiesamenvattingen. Het beloont samenvattingen waarin opeenvolgende informatie behouden blijft. In tegenstelling tot statistieken zoals ROUGE, die afhankelijk zijn van de overlap van n-grammen met referentiesamenvattingen, matcht METEOR stammen, synoniemen en parafrases. METEOR werkt beter als er meerdere correcte manieren zijn om de originele tekst samen te vatten. METEOR bevat WordNet-synoniemen en stamtokens bij het matchen van n-grammen. Kortom, samenvattingen die semantisch vergelijkbaar zijn maar andere woorden of formuleringen gebruiken, zullen toch goed scoren. METEOR heeft een ingebouwde boete voor samenvattingen met repetitieve n-grammen. Daarom ontmoedigt het woord-voor-woord-extractie of het gebrek aan abstractie. METEOR is een goede keuze wanneer semantische gelijkenis, volgorde van ideeën en vloeiende frasering belangrijk zijn voor het beoordelen van de kwaliteit van de samenvatting. Het is minder geschikt voor taken waarbij alleen de lexicale overlap met referentiesamenvattingen van belang is.

BERTScore

Lexicale maatstaven op oppervlakteniveau, zoals ROUGE en METEOR, evalueren samenvattingssystemen door de woordoverlap tussen een kandidaatsamenvatting en een referentiesamenvatting te vergelijken. Ze zijn echter sterk afhankelijk van exacte stringmatching tussen woorden en zinsdelen. Dit betekent dat ze mogelijk semantische overeenkomsten missen tussen woorden en zinsdelen die verschillende oppervlaktevormen hebben, maar vergelijkbare onderliggende betekenissen. Door alleen te vertrouwen op oppervlakkige matching kunnen deze metrieken de kwaliteit onderschatten van systeemsamenvattingen waarin synonieme woorden worden gebruikt of concepten anders worden geparafraseerd dan referentiesamenvattingen. Twee samenvattingen kunnen bijna identieke informatie overbrengen, maar krijgen lage scores op oppervlakkig niveau vanwege verschillen in de woordenschat.

BERTScore is een manier om automatisch te evalueren hoe goed een samenvatting is door deze te vergelijken met een referentiesamenvatting die door een mens is geschreven. Het maakt gebruik van BERT, een populaire NLP-techniek, om de betekenis en context van woorden in de kandidaatsamenvatting en referentiesamenvatting te begrijpen. Het kijkt specifiek naar elk woord of token in de kandidaatsamenvatting en vindt het meest vergelijkbare woord in de referentiesamenvatting op basis van de BERT-inbedding, die vectorrepresentaties zijn van de betekenis en context van elk woord. Het meet de gelijkenis met behulp van cosinusgelijkenis, die aangeeft hoe dicht de vectoren bij elkaar liggen. Voor elk woord in de kandidaatsamenvatting wordt het meest verwante woord in de referentiesamenvatting gevonden op basis van het taalbegrip van BERT. Het vergelijkt al deze woordovereenkomsten in de hele samenvatting om een ​​algemene score te krijgen van hoe semantisch vergelijkbaar de kandidaatsamenvatting is met de referentiesamenvatting. Hoe meer de woorden en betekenissen die door BERT worden vastgelegd op elkaar lijken, hoe hoger de BERTScore. Hierdoor kan het automatisch de kwaliteit van een gegenereerde samenvatting evalueren door deze te vergelijken met een menselijke referentie, zonder dat er telkens een menselijke evaluatie nodig is.

Om dit te illustreren, stel je voor dat je een door een machine gegenereerde samenvatting hebt: ‘De snelle bruine vos springt over de luie hond.’ Laten we nu eens kijken naar een door mensen vervaardigde referentiesamenvatting: “Een snelle bruine vos springt over een slapende hond.”

Bereken een BERTScore

Voer de volgende stappen uit om een ​​BERTScore te berekenen:

  1. BERTScore maakt gebruik van contextuele inbedding om elk token weer te geven in zowel de kandidaat- (door de machine gegenereerde) als de referentiezinnen (door mensen vervaardigd). Contextuele inbedding is een soort woordrepresentatie in NLP die de betekenis van een woord vastlegt op basis van de context binnen een zin of tekst. In tegenstelling tot traditionele woordinsluitingen die een vaste vector aan elk woord toewijzen, ongeacht de context, beschouwen contextuele insluitingen de omringende woorden als een unieke representatie voor elk woord, afhankelijk van hoe het in een specifieke zin wordt gebruikt.
  2. De metriek berekent vervolgens de gelijkenis tussen elk token in de kandidaatzin en elk token in de referentiezin met behulp van cosinusovereenkomst. Cosinus gelijkenis helpt ons te kwantificeren hoe nauw twee sets gegevens met elkaar verbonden zijn door te focussen op de richting waarin ze wijzen in een multidimensionale ruimte, waardoor het een waardevol hulpmiddel wordt voor taken als zoekalgoritmen, NLP en aanbevelingssystemen.
  3. Door de contextuele inbedding en computergelijkenisscores voor alle tokens te vergelijken, genereert BERTScore een uitgebreide evaluatie die de semantische relevantie en context van de gegenereerde samenvatting vastlegt in vergelijking met de door mensen gemaakte referentie.
  4. De uiteindelijke BERTScore-uitvoer levert een gelijkenisscore op die weergeeft hoe goed de door de machine gegenereerde samenvatting aansluit bij de referentiesamenvatting in termen van betekenis en context.

In wezen gaat BERTScore verder dan traditionele meetgegevens door rekening te houden met de semantische nuances en context van zinnen, en biedt het een meer verfijnde evaluatie die het menselijk oordeel nauw weerspiegelt. Deze geavanceerde aanpak verbetert de nauwkeurigheid en betrouwbaarheid van het evalueren van samenvattingstaken, waardoor BERTScore een waardevol hulpmiddel wordt bij het beoordelen van tekstgeneratiesystemen.

Beperkingen:

Hoewel BERTScore aanzienlijke voordelen biedt bij het evalueren van samenvattingstaken, brengt het ook bepaalde beperkingen met zich mee waarmee rekening moet worden gehouden:

  • Computerintensiteit – BERTScore kan rekenintensief zijn vanwege de afhankelijkheid van vooraf getrainde taalmodellen zoals BERT. Dit kan leiden tot langere evaluatietijden, vooral bij de verwerking van grote hoeveelheden tekstgegevens.
  • Afhankelijkheid van vooraf getrainde modellen – De effectiviteit van BERTScore is sterk afhankelijk van de kwaliteit en relevantie van het gebruikte vooraf getrainde taalmodel. In scenario's waarin het vooraf getrainde model de nuances van de tekst mogelijk niet adequaat vastlegt, kunnen de evaluatieresultaten worden beïnvloed.
  • Schaalbaarheid – Het schalen van BERTScore voor grote datasets of realtime toepassingen kan een uitdaging zijn vanwege de rekenvereisten. Voor het implementeren van BERTScore in productieomgevingen zijn mogelijk optimalisatiestrategieën nodig om efficiënte prestaties te leveren.
  • Domein specificiteit – De prestaties van BERTScore kunnen variëren per domein of gespecialiseerde teksttypes. Het aanpassen van de statistiek aan specifieke domeinen of taken kan verfijning of aanpassingen vereisen om nauwkeurige evaluaties te produceren.
  • Interpreteerbaarheid – Hoewel BERTScore een uitgebreide evaluatie biedt op basis van contextuele inbedding, kan het interpreteren van de specifieke redenen achter de gelijkheidsscores die voor elk token worden gegenereerd complex zijn en aanvullende analyse vereisen.
  • Referentie-vrije evaluatie – Hoewel BERTScore de afhankelijkheid van referentiesamenvattingen voor evaluatie vermindert, kan het zijn dat deze referentievrije aanpak niet alle aspecten van de kwaliteit van samenvattingen volledig omvat, vooral in scenario's waarin door mensen vervaardigde referenties essentieel zijn voor het beoordelen van de relevantie en samenhang van de inhoud.

Het erkennen van deze beperkingen kan u helpen weloverwogen beslissingen te nemen bij het gebruik van BERTScore als maatstaf voor het evalueren van samenvattingstaken, waardoor u een evenwichtig inzicht krijgt in de sterke punten en beperkingen ervan.

Wanneer moet u BERTScore gebruiken?

BERTScore kan de kwaliteit van de tekstsamenvatting evalueren door een gegenereerde samenvatting te vergelijken met een referentiesamenvatting. Het maakt gebruik van neurale netwerken zoals BERT om semantische gelijkenis te meten die verder gaat dan alleen het matchen van exacte woorden of zinsdelen. Dit maakt BERTScore erg handig wanneer semantische betrouwbaarheid, waarbij de volledige betekenis en inhoud behouden blijft, van cruciaal belang is voor uw samenvattingstaak. BERTScore geeft hogere scores aan samenvattingen die dezelfde informatie overbrengen als de referentiesamenvatting, zelfs als ze andere woorden en zinsstructuren gebruiken. Het komt erop neer dat BERTScore ideaal is voor samenvattingstaken waarbij het behouden van de volledige semantische betekenis, niet alleen trefwoorden of onderwerpen, van vitaal belang is. Dankzij de geavanceerde neurale score kan het betekenis vergelijken die verder gaat dan woordmatching op oppervlakteniveau. Dit maakt het geschikt voor gevallen waarin subtiele verschillen in bewoordingen de algehele betekenis en implicaties aanzienlijk kunnen veranderen. BERTScore blinkt vooral uit in het vastleggen van semantische gelijkenis, wat cruciaal is voor het beoordelen van de kwaliteit van abstracte samenvattingen zoals die geproduceerd door Retrieval Augmented Generation (RAG)-modellen.

Modelevaluatiekaders

Modelevaluatiekaders zijn essentieel voor het nauwkeurig meten van de prestaties van verschillende samenvattingsmodellen. Deze raamwerken zijn behulpzaam bij het vergelijken van modellen, het bieden van samenhang tussen de gegenereerde samenvattingen en de broninhoud, en het opsporen van tekortkomingen in evaluatiemethoden. Door grondige beoordelingen en consistente benchmarking uit te voeren, stimuleren deze raamwerken het onderzoek naar tekstsamenvattingen door gestandaardiseerde evaluatiepraktijken te bepleiten en veelzijdige modelvergelijkingen mogelijk te maken.

Bij AWS is de FMEval-bibliotheek binnen Amazon SageMaker verduidelijken stroomlijnt de evaluatie en selectie van basismodellen (FM's) voor taken zoals het samenvatten van teksten, het beantwoorden van vragen en classificatie. Het stelt u in staat FM's te evalueren op basis van statistieken zoals nauwkeurigheid, robuustheid, creativiteit, vooringenomenheid en toxiciteit, en ondersteunt zowel geautomatiseerde als human-in-the-loop evaluaties voor LLM's. Met UI-gebaseerde of programmatische evaluaties genereert FMEval gedetailleerde rapporten met visualisaties om modelrisico's zoals onnauwkeurigheden, toxiciteit of vertekening te kwantificeren, waardoor organisaties zich kunnen afstemmen op hun verantwoorde generatieve AI-richtlijnen. In deze sectie laten we zien hoe u de FMEval-bibliotheek gebruikt.

Evalueer Claude v2 op de nauwkeurigheid van samenvattingen met Amazon Bedrock

Het volgende codefragment is een voorbeeld van hoe u kunt communiceren met het Anthropic Claude-model met behulp van Python-code:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Simpel gezegd voert deze code de volgende acties uit:

  1. Importeer de benodigde bibliotheken, inclusief json, om met JSON-gegevens te werken.
  2. Definieer de model-ID als anthropic.claude-v2 en stel het inhoudstype voor het verzoek in.
  3. Maak een prompt_data variabele die de invoergegevens voor het Claude-model structureert. In dit geval wordt de vraag gesteld: “Wie is Barack Obama?” en verwacht een reactie van het model.
  4. Construeer een JSON-object met de naam body dat de promptgegevens bevat, en geef aanvullende parameters op, zoals het maximale aantal tokens dat moet worden gegenereerd.
  5. Roep het Claude-model aan met behulp van bedrock_runtime.invoke_model met de gedefinieerde parameters.
  6. Parseer het antwoord uit het model, extraheer de voltooiing (gegenereerde tekst) en druk deze af.

Zorg ervoor dat de AWS Identiteits- en toegangsbeheer (IAM) rol geassocieerd met de Amazon SageMaker Studio gebruikersprofiel heeft toegang tot de Amazonebodem modellen worden aangeroepen. Verwijzen naar Op identiteit gebaseerde beleidsvoorbeelden voor Amazon Bedrock voor advies over best practices en voorbeelden van op identiteit gebaseerd beleid voor Amazon Bedrock.

De FMEval-bibliotheek gebruiken om de samengevatte uitvoer van Claude te evalueren

We gebruiken de volgende code om de samengevatte uitvoer te evalueren:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

In het voorgaande codefragment voeren we de volgende stappen uit om de samenvatting van de tekst te evalueren met behulp van de FMEval-bibliotheek:

  1. Maak een ModelRunner om een ​​aanroep uit te voeren op uw LLM. De FMEval-bibliotheek biedt ingebouwde ondersteuning voor Amazon Sage Maker eindpunten en Amazon SageMaker JumpStart LLM's. Je kunt de extensie ook verlengen ModelRunner interface voor alle LLM's die waar dan ook worden gehost.
  2. Gebruik ondersteund eval_algorithms zoals toxiciteit, samenvatting, nauwkeurigheid, semantiek en robuustheid, op basis van uw evaluatiebehoeften.
  3. Pas de evaluatieconfiguratieparameters aan voor uw specifieke gebruiksscenario.
  4. Gebruik het evaluatiealgoritme met ingebouwde of aangepaste gegevenssets om uw LLM-model te evalueren. De dataset die in dit geval wordt gebruikt, is afkomstig uit het volgende GitHub repo.

Verwijs naar de handleiding voor ontwikkelaars en voorbeelden voor gedetailleerd gebruik van evaluatie-algoritmen.

De volgende tabel vat de resultaten van de evaluatie samen.

model_invoer model_uitvoer doel_uitvoer prompt scores meteoor_score rouge_score bert_score
John Edward
0 Bates, voorheen van Spalding, Linco…..
Ik kan er geen definitieve uitspraak over doen
vonnissen, zoals …
Een voormalige
Politieagent uit Lincolnshire droeg…
Mens: Johannes
Edward Bates, voorheen van Spalding…
[{'naam': 'meteoor', 'waarde':
0.101010101010101 ...
0.10101 0 0.557155
23 oktober 2015
Laatst bijgewerkt op
17:44 BST|nHet'…
Hier zijn enkele belangrijke punten over orkaan/trop.. Orkaan Patricia is beoordeeld als een categorie... Menselijk: 23
Oktober 2015 Laatst bijgewerkt om 17:44 uur
B ...
[{'naam': meteoor', “waarde':
0.102339181286549 ..
0.102339 0.018265 0.441421
Ferrari leek in een positie om un… Hier zijn de belangrijkste punten uit het artikel: negen… Lewis Hamilton stormde naar pole position op de... Mens: Ferrari leek in een positie om uit te dagen... [{'naam': 'meteoor', 'waarde':
0.322543352601156 ...
0.322543 0.078212 0.606487
De in Bath geboren speler, 28, heeft er 36 gemaakt
verschijnen…
Oké, laat me de belangrijkste punten samenvatten:/nin- E….. Newport Gwent Dragons nummer acht Ed Jackson Mens: De in Bath geboren speler, 28, heeft 36 een... [{'naam': 'meteoor', 'waarde':
0105740181268882 ...
0.10574 0.012987 0.539488
Zwakke punten in de manier waarop muizen gegevens uitwisselden met c… Hier zijn de belangrijkste punten die ik heb verzameld uit de a ... Hackers kunnen toegang krijgen tot huis en Mens:
Zwakke punten in de
swar muizen wisselden gegevens uit
[{'naam': 'meteoor', 'waarde':
0.201048289433848 ...
0.201048 0.021858 0.526947

Bekijk het voorbeeld notitieboekje voor meer informatie over de samenvattende evaluatie die we in dit bericht hebben besproken.

Conclusie

ROUGE, METEOR en BERTScore meten allemaal de kwaliteit van machinaal gegenereerde samenvattingen, maar richten zich op verschillende aspecten, zoals lexicale overlap, vloeiendheid of semantische gelijkenis. Zorg ervoor dat u de statistiek selecteert die aansluit bij wat ‘goed’ definieert voor uw specifieke samenvattingsgebruikscasus. U kunt ook een combinatie van statistieken gebruiken. Dit zorgt voor een meer afgeronde evaluatie en beschermt tegen mogelijke zwakke punten van elke individuele metriek. Met de juiste metingen kunt u uw samenvattingen iteratief verbeteren om te voldoen aan het idee van nauwkeurigheid dat het belangrijkst is.

Bovendien is FM- en LLM-evaluatie noodzakelijk om deze modellen op schaal te kunnen produceren. Met FMEval krijgt u een uitgebreide set ingebouwde algoritmen voor veel NLP-taken, maar ook een schaalbare en flexibele tool voor grootschalige evaluaties van uw eigen modellen, datasets en algoritmen. Om op te schalen kunt u dit pakket in uw LLMOps-pijplijnen gebruiken meerdere modellen evalueren. Voor meer informatie over FMEval in AWS en hoe u dit effectief kunt gebruiken, raadpleegt u Gebruik SageMaker Clarify om grote taalmodellen te evalueren. Voor meer begrip en inzicht in de mogelijkheden van SageMaker Clarify bij het evalueren van FM's, zie Amazon SageMaker Clarify maakt het eenvoudiger om funderingsmodellen te evalueren en te selecteren.


Over de auteurs


Dinesh Kumar Subramani is een Senior Solutions Architect gevestigd in Edinburgh, Schotland. Hij is gespecialiseerd in kunstmatige intelligentie en machinaal leren, en is lid van de technische veldgemeenschap bij Amazon. Dinesh werkt nauw samen met klanten van de Britse centrale overheid om hun problemen met behulp van AWS-services op te lossen. Buiten zijn werk brengt Dinesh graag quality time door met zijn gezin, speelt hij schaak en ontdekt hij een breed scala aan muziek.


Pranav Sharma is een AWS-leider die technologie- en bedrijfstransformatie-initiatieven stimuleert in Europa, het Midden-Oosten en Afrika. Hij heeft ervaring met het ontwerpen en runnen van kunstmatige-intelligentieplatforms in productie die miljoenen klanten ondersteunen en bedrijfsresultaten opleveren. Hij heeft leiderschapsrollen op het gebied van technologie en mensen gespeeld voor organisaties in de mondiale financiële dienstverlening. Buiten zijn werk houdt hij van lezen, tennissen met zijn zoon en films kijken.

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?