Platão Inteligência de Dados.
Pesquisa Vertical e AI.

Avalie os recursos de resumo de texto dos LLMs para melhorar a tomada de decisões na AWS | Amazon Web Services

Data:

Organizações de todos os setores estão usando o resumo automático de texto para lidar com mais eficiência com grandes quantidades de informações e tomar melhores decisões. No sector financeiro, os bancos de investimento condensam os relatórios de lucros em conclusões importantes para analisar rapidamente o desempenho trimestral. As empresas de comunicação social utilizam a sumarização para monitorizar notícias e meios de comunicação social, para que os jornalistas possam escrever rapidamente histórias sobre questões em desenvolvimento. As agências governamentais resumem extensos documentos e relatórios políticos para ajudar os formuladores de políticas a definir estratégias e priorizar metas.

Ao criar versões condensadas de documentos longos e complexos, a tecnologia de resumo permite que os usuários se concentrem no conteúdo mais relevante. Isso leva a uma melhor compreensão e retenção de informações críticas. A economia de tempo permite que as partes interessadas revisem mais material em menos tempo, obtendo uma perspectiva mais ampla. Com melhor compreensão e insights mais sintetizados, as organizações podem tomar decisões estratégicas mais bem informadas, acelerar pesquisas, melhorar a produtividade e aumentar seu impacto. O poder transformador das capacidades avançadas de sumarização só continuará a crescer à medida que mais indústrias adoptem a inteligência artificial (IA) para aproveitar os fluxos de informação transbordantes.

Nesta postagem, exploramos as principais abordagens para avaliar objetivamente a precisão do resumo, incluindo métricas ROUGE, METEOR e BERTScore. Compreender os pontos fortes e fracos destas técnicas pode ajudar a orientar os esforços de seleção e melhoria. O objetivo geral desta postagem é desmistificar a avaliação de resumo para ajudar as equipes a avaliar melhor o desempenho dessa capacidade crítica à medida que buscam maximizar o valor.

Tipos de resumo

A sumarização geralmente pode ser dividida em dois tipos principais: sumarização extrativa e sumarização abstrativa. Ambas as abordagens visam condensar longos trechos de texto em formatos mais curtos, capturando as informações mais críticas ou a essência do conteúdo original, mas fazem isso de maneiras fundamentalmente diferentes.

O resumo extrativo envolve identificar e extrair frases-chave, sentenças ou segmentos do texto original sem alterá-los. O sistema seleciona as partes do texto consideradas mais informativas ou representativas do todo. A sumarização extrativa é útil se a precisão for crítica e o resumo precisar refletir as informações exatas do texto original. Podem ser casos de uso, como destacar termos legais, obrigações e direitos específicos descritos nos termos de uso. As técnicas mais comuns usadas para resumo extrativo são frequência de documento inversa de frequência de termo (TF-IDF), pontuação de sentença, algoritmo de classificação de texto e aprendizado de máquina supervisionado (ML).

A sumarização abstrativa vai um passo além ao gerar novas frases e sentenças que não estavam no texto original, essencialmente parafraseando e condensando o conteúdo original. Esta abordagem requer uma compreensão mais profunda do texto, porque a IA precisa de interpretar o significado e depois expressá-lo numa forma nova e concisa. Os modelos de linguagem grande (LLMs) são mais adequados para resumos abstrativos porque os modelos transformadores usam mecanismos de atenção para focar em partes relevantes do texto de entrada ao gerar resumos. O mecanismo de atenção permite que o modelo atribua pesos diferentes a diferentes palavras ou tokens na sequência de entrada, permitindo capturar dependências de longo alcance e informações contextualmente relevantes.

Além desses dois tipos principais, existem abordagens híbridas que combinam métodos extrativos e abstrativos. Estas abordagens podem começar com um resumo extrativo para identificar o conteúdo mais importante e depois usar técnicas abstrativas para reescrever ou condensar esse conteúdo num resumo fluente.

O desafio

Encontrar o método ideal para avaliar a qualidade do resumo permanece um desafio em aberto. À medida que as organizações dependem cada vez mais da sumarização automática de texto para extrair informações importantes dos documentos, cresce a necessidade de técnicas padronizadas para medir a precisão da sumarização. Idealmente, estas métricas de avaliação quantificariam até que ponto os resumos gerados por máquina extraem o conteúdo mais saliente dos textos de origem e apresentariam resumos coerentes que refletissem o significado e o contexto originais.

No entanto, o desenvolvimento de metodologias robustas de avaliação para resumo de textos apresenta dificuldades:

  • Resumos de referência de autoria humana usados ​​para comparação geralmente exibem alta variabilidade com base em determinações subjetivas de importância
  • Aspectos diferenciados da qualidade do resumo, como fluência, legibilidade e coerência, são difíceis de quantificar programaticamente
  • Existe uma grande variação entre métodos de resumo, desde algoritmos estatísticos até redes neurais, complicando comparações diretas

Subestudo Orientado para Recall para Avaliação de Gisting (ROUGE)

Métricas ROUGE, como ROUGE-N e ROUGE-L, desempenham um papel crucial na avaliação da qualidade dos resumos gerados por máquina em comparação com resumos de referência escritos por humanos. Essas métricas se concentram na avaliação da sobreposição entre o conteúdo de resumos gerados por máquinas e resumos elaborados por humanos, por meio da análise de n-gramas, que são grupos de palavras ou tokens. Por exemplo, ROUGE-1 avalia a correspondência de palavras individuais (unigramas), enquanto ROUGE-2 considera pares de palavras (bigramas). Além disso, o ROUGE-N avalia a maior subsequência comum de palavras entre os dois textos, permitindo flexibilidade na ordem das palavras.

Para ilustrar isso, considere os seguintes exemplos:

  • Métrica ROGUE-1 – ROUGE-1 avalia a sobreposição de unigramas (palavras únicas) entre um resumo gerado e um resumo de referência. Por exemplo, se um resumo de referência contiver “A raposa marrom salta rapidamente” e o resumo gerado for “A raposa marrom salta rapidamente”, a métrica ROUGE-1 consideraria “marrom”, “raposa” e “saltos” como sobrepostos. unigramas. O ROUGE-1 concentra-se na presença de palavras individuais nos resumos, medindo quão bem o resumo gerado captura as palavras-chave do resumo de referência.
  • Métrica ROGUE-2 – ROUGE-2 avalia a sobreposição de bigramas (pares de palavras adjacentes) entre um resumo gerado e um resumo de referência. Por exemplo, se o resumo de referência tiver “O gato está dormindo” e o resumo gerado for “Um gato está dormindo”, o ROUGE-2 identificaria “o gato está” e “está dormindo” como um bigrama sobreposto. ROUGE-2 fornece informações sobre quão bem o resumo gerado mantém a sequência e o contexto dos pares de palavras em comparação com o resumo de referência.
  • Métrica ROUGE-N – ROUGE-N é uma forma generalizada onde N representa qualquer número, permitindo avaliação baseada em n-gramas (sequências de N palavras). Considerando N = 3, se o resumo de referência indicar “O sol está brilhando intensamente” e o resumo gerado for “O sol brilhando intensamente”, o ROUGE-3 reconheceria “o sol brilhando intensamente” como um trigrama correspondente. ROUGE-N oferece flexibilidade para avaliar resumos com base em diferentes comprimentos de sequências de palavras, proporcionando uma avaliação mais abrangente da sobreposição de conteúdo.

Esses exemplos ilustram como as métricas ROUGE-1, ROUGE-2 e ROUGE-N funcionam na avaliação de tarefas de resumo automático ou tradução automática, comparando resumos gerados com resumos de referência baseados em diferentes níveis de sequências de palavras.

Calcule uma pontuação ROUGE-N

Você pode usar as seguintes etapas para calcular uma pontuação ROUGE-N:

  1. Tokenize o resumo gerado e o resumo de referência em palavras ou tokens individuais usando métodos básicos de tokenização, como divisão por espaços em branco ou bibliotecas de processamento de linguagem natural (PNL).
  2. Gere n-gramas (sequências contíguas de N palavras) do resumo gerado e do resumo de referência.
  3. Conte o número de n-gramas sobrepostos entre o resumo gerado e o resumo de referência.
  4. Calcule precisão, recall e pontuação F1:
    • Precisão – O número de n gramas sobrepostos dividido pelo número total de n gramas no resumo gerado.
    • Recordar – O número de n gramas sobrepostos dividido pelo número total de n gramas no resumo de referência.
    • Pontuação F1 – A média harmônica de precisão e recuperação, calculada como (2 * precisão * recuperação) / (precisão + recuperação).
  5. A pontuação F1 agregada obtida do cálculo de precisão, recall e pontuação F1 para cada linha do conjunto de dados é considerada como a pontuação ROUGE-N.

Limitações

ROGUE tem as seguintes limitações:

  • Foco estreito na sobreposição lexical – A ideia central por trás do ROUGE é comparar o resumo gerado pelo sistema a um conjunto de referências ou resumos criados por humanos e medir a sobreposição lexical entre eles. Isso significa que ROUGE tem um foco muito restrito na similaridade em nível de palavra. Na verdade, não avalia o significado semântico, a coerência ou a legibilidade do resumo. Um sistema poderia alcançar altas pontuações no ROUGE simplesmente extraindo frases palavra por palavra do texto original, sem gerar um resumo coerente ou conciso.
  • Insensibilidade à paráfrase – Como o ROUGE depende da correspondência lexical, ele não consegue detectar equivalência semântica entre palavras e frases. Portanto, parafrasear e usar sinônimos muitas vezes levará a pontuações mais baixas no ROUGE, mesmo que o significado seja preservado. Isto prejudica os sistemas que parafraseiam ou resumem de forma abstrativa.
  • Falta de compreensão semântica – ROUGE não avalia se o sistema realmente entendeu os significados e conceitos do texto original. Um resumo pode conseguir uma grande sobreposição lexical com as referências, ao mesmo tempo que perde as ideias principais ou contém inconsistências factuais. ROUGE não identificaria esses problemas.

Quando usar ROUGE

ROUGE é simples e rápido de calcular. Use-o como base ou referência para a qualidade do resumo relacionada à seleção de conteúdo. As métricas ROUGE são empregadas de forma mais eficaz em cenários que envolvem tarefas de sumarização abstrativa, avaliação automática de sumarização, avaliações de LLMs e análises comparativas de diferentes abordagens de sumarização. Ao utilizar as métricas ROUGE nestes contextos, as partes interessadas podem avaliar quantitativamente a qualidade e a eficácia dos processos de geração de resumos.

Métrica para Avaliação de Tradução com Ordenação Explícita (METEOR)

Um dos principais desafios na avaliação de sistemas de sumarização é avaliar até que ponto o resumo gerado flui logicamente, em vez de apenas selecionar palavras e frases relevantes do texto de origem. A simples extração de palavras-chave e frases relevantes não produz necessariamente um resumo coerente e coeso. O resumo deve fluir suavemente e conectar as ideias de forma lógica, mesmo que não sejam apresentadas na mesma ordem do documento original.

A flexibilidade de correspondência reduzindo as palavras à sua raiz ou forma básica (por exemplo, após a lematização, palavras como “correr”, “correr” e “correr” tornam-se todas “correr”) e sinônimos significam METEOR correlaciona-se melhor com julgamentos humanos de qualidade sumária. Ele pode identificar se um conteúdo importante foi preservado, mesmo que o texto seja diferente. Esta é uma vantagem importante em relação às métricas baseadas em n-gramas, como ROUGE, que procura apenas correspondências exatas de tokens. O METEOR também atribui pontuações mais altas aos resumos que focam no conteúdo mais saliente da referência. Pontuações mais baixas são atribuídas a informações repetitivas ou irrelevantes. Isso se alinha bem com o objetivo de resumir para manter apenas o conteúdo mais importante. METEOR é uma métrica semanticamente significativa que pode superar algumas das limitações da correspondência de n-gramas para avaliar o resumo de texto. A incorporação de lematização e sinônimos permite uma melhor avaliação da sobreposição de informações e da precisão do conteúdo.

Para ilustrar isso, considere os seguintes exemplos:

Resumo de referência: As folhas caem durante o outono.

Resumo gerado 1: As folhas caem no outono.

Resumo gerado 2: Folhas verdes no verão.

As palavras que coincidem entre a referência e o resumo gerado 1 estão destacadas:

Resumo de referência: Folhas cair durante o outono.

Resumo gerado 1: Folhas cair em cair.

Embora “outono” e “outono” sejam tokens diferentes, o METEOR os reconhece como sinônimos por meio de sua correspondência de sinônimos. “Drop” e “fall” são identificados como uma correspondência derivada. Para o resumo gerado 2, não há correspondências com o resumo de referência além de “Folhas”, portanto este resumo receberia uma pontuação METEOR muito mais baixa. Quanto mais correspondências semanticamente significativas, maior será a pontuação METEOR. Isso permite que o METEOR avalie melhor o conteúdo e a precisão dos resumos em comparação com a simples correspondência de n-gramas.

Calcule uma pontuação METEOR

Conclua as etapas a seguir para calcular uma pontuação METEOR:

  1. Tokenize o resumo gerado e o resumo de referência em palavras ou tokens individuais usando métodos básicos de tokenização, como divisão por espaço em branco ou bibliotecas de PNL.
  2. Calcule a precisão do unigrama, a recuperação e a pontuação média F, dando mais peso à recuperação do que à precisão.
  3. Aplique uma penalidade para correspondências exatas para evitar enfatizá-las demais. A penalidade é escolhida com base nas características do conjunto de dados, nos requisitos da tarefa e no equilíbrio entre precisão e recuperação. Subtraia esta penalidade da pontuação média F calculada na Etapa 2.
  4. Calcule a pontuação média F para formas radicais (reduzindo palavras à sua forma base ou raiz) e sinônimos para unigramas, quando aplicável. Agregue isso com a pontuação média F calculada anteriormente para obter a pontuação METEOR final. A pontuação METEOR varia de 0 a 1, onde 0 indica nenhuma semelhança entre o resumo gerado e o resumo de referência e 1 indica alinhamento perfeito. Normalmente, as pontuações de resumo ficam entre 0–0.6.

Limitações

Ao empregar a métrica METEOR para avaliar tarefas de resumo, vários desafios podem surgir:

  • Complexidade semântica – A ênfase do METEOR na similaridade semântica pode ter dificuldade em capturar os significados e o contexto diferenciados em tarefas complexas de resumo, levando potencialmente a imprecisões na avaliação.
  • Variabilidade de referência – A variabilidade nos resumos de referência gerados por humanos pode impactar as pontuações METEOR, porque as diferenças no conteúdo de referência podem afetar a avaliação dos resumos gerados por máquina.
  • Diversidade linguística – A eficácia do METEOR pode variar entre os idiomas devido a variações linguísticas, diferenças de sintaxe e nuances semânticas, colocando desafios nas avaliações de resumo multilíngue.
  • Discrepância de comprimento – A avaliação de resumos de tamanhos variados pode ser um desafio para a METEOR, porque as discrepâncias de tamanho em comparação com o resumo de referência podem resultar em penalidades ou imprecisões na avaliação.
  • Ajuste de parâmetros – A otimização dos parâmetros do METEOR para diferentes conjuntos de dados e tarefas de resumo pode ser demorada e exigir um ajuste cuidadoso para garantir que a métrica forneça avaliações precisas.
  • Viés de avaliação – Existe o risco de viés de avaliação com o METEOR se não for devidamente ajustado ou calibrado para domínios ou tarefas de sumarização específicas. Isto pode potencialmente levar a resultados distorcidos e afetar a fiabilidade do processo de avaliação.

Ao estarem conscientes destes desafios e considerá-los ao utilizar o METEOR como métrica para tarefas de resumo, os investigadores e profissionais podem navegar pelas potenciais limitações e tomar decisões mais informadas nos seus processos de avaliação.

Quando usar METEORO

METEOR é comumente usado para avaliar automaticamente a qualidade de resumos de texto. É preferível usar METEOR como métrica de avaliação quando a ordem das ideias, conceitos ou entidades no resumo é importante. METEOR considera a ordem e combina n-gramas entre o resumo gerado e os resumos de referência. Ele recompensa resumos que preservam informações sequenciais. Ao contrário de métricas como ROUGE, que dependem da sobreposição de n-gramas com resumos de referência, METEOR combina radicais, sinônimos e paráfrases. METEOR funciona melhor quando pode haver várias maneiras corretas de resumir o texto original. METEOR incorpora sinônimos WordNet e tokens derivados ao combinar n-gramas. Resumindo, resumos semanticamente semelhantes, mas que usam palavras ou frases diferentes, ainda terão uma boa pontuação. METEOR possui uma penalidade integrada para resumos com n-gramas repetitivos. Portanto, desencoraja a extração palavra por palavra ou a falta de abstração. METEOR é uma boa escolha quando a similaridade semântica, a ordem das ideias e o fraseado fluente são importantes para julgar a qualidade do resumo. É menos apropriado para tarefas em que apenas a sobreposição lexical com resumos de referência é importante.

BERTScore

Medidas lexicais de nível superficial, como ROUGE e METEOR, avaliam os sistemas de resumo comparando a sobreposição de palavras entre um resumo candidato e um resumo de referência. No entanto, eles dependem muito da correspondência exata de strings entre palavras e frases. Isso significa que eles podem perder semelhanças semânticas entre palavras e frases que têm formas superficiais diferentes, mas significados subjacentes semelhantes. Ao confiar apenas na correspondência superficial, essas métricas podem subestimar a qualidade dos resumos do sistema que usam palavras sinônimas ou parafraseiam conceitos de forma diferente dos resumos de referência. Dois resumos podem transmitir informações quase idênticas, mas receber pontuações baixas no nível superficial devido a diferenças de vocabulário.

BERTScore é uma forma de avaliar automaticamente a qualidade de um resumo, comparando-o a um resumo de referência escrito por um ser humano. Ele usa BERT, uma técnica popular de PNL, para compreender o significado e o contexto das palavras no resumo do candidato e no resumo de referência. Especificamente, ele analisa cada palavra ou token no resumo do candidato e encontra a palavra mais semelhante no resumo de referência com base nos embeddings do BERT, que são representações vetoriais do significado e do contexto de cada palavra. Ele mede a similaridade usando similaridade de cosseno, que informa o quão próximos os vetores estão uns dos outros. Para cada palavra no resumo do candidato, ele encontra a palavra mais relacionada no resumo de referência usando a compreensão da linguagem do BERT. Ele compara todas essas semelhanças de palavras em todo o resumo para obter uma pontuação geral de quão semanticamente semelhante é o resumo do candidato ao resumo de referência. Quanto mais semelhantes forem as palavras e os significados capturados pelo BERT, maior será o BERTScore. Isso permite avaliar automaticamente a qualidade de um resumo gerado, comparando-o a uma referência humana, sem precisar de avaliação humana a cada vez.

Para ilustrar isso, imagine que você tem um resumo gerado por máquina: “A rápida raposa marrom salta sobre o cachorro preguiçoso”. Agora, vamos considerar um resumo de referência criado pelo homem: “Uma rápida raposa marrom salta sobre um canino adormecido”.

Calcule um BERTScore

Conclua as etapas a seguir para calcular um BERTScore:

  1. BERTScore usa incorporações contextuais para representar cada token nas sentenças candidatas (geradas por máquina) e de referência (criadas por humanos). Incorporações contextuais são um tipo de representação de palavras na PNL que captura o significado de uma palavra com base em seu contexto dentro de uma frase ou texto. Ao contrário dos embeddings de palavras tradicionais que atribuem um vetor fixo a cada palavra, independentemente do seu contexto, os embeddings contextuais consideram as palavras circundantes para gerar uma representação única para cada palavra, dependendo de como ela é usada em uma frase específica.
  2. A métrica então calcula a similaridade entre cada token na sentença candidata com cada token na sentença de referência usando similaridade de cosseno. A similaridade de cossenos nos ajuda a quantificar o quão intimamente relacionados estão dois conjuntos de dados, concentrando-nos na direção que apontam em um espaço multidimensional, tornando-a uma ferramenta valiosa para tarefas como algoritmos de pesquisa, PNL e sistemas de recomendação.
  3. Ao comparar as incorporações contextuais e as pontuações de similaridade computacional para todos os tokens, o BERTScore gera uma avaliação abrangente que captura a relevância semântica e o contexto do resumo gerado em comparação com a referência criada por humanos.
  4. O resultado final do BERTScore fornece uma pontuação de similaridade que reflete o quão bem o resumo gerado por máquina se alinha com o resumo de referência em termos de significado e contexto.

Em essência, o BERTScore vai além das métricas tradicionais ao considerar as nuances semânticas e o contexto das frases, oferecendo uma avaliação mais sofisticada que reflete de perto o julgamento humano. Esta abordagem avançada aumenta a precisão e a confiabilidade da avaliação de tarefas de resumo, tornando o BERTScore uma ferramenta valiosa na avaliação de sistemas de geração de texto.

Limitações:

Embora o BERTScore ofereça vantagens significativas na avaliação de tarefas de resumo, ele também apresenta certas limitações que precisam ser consideradas:

  • Intensidade computacional – O BERTScore pode ser computacionalmente intensivo devido à sua dependência de modelos de linguagem pré-treinados como o BERT. Isto pode levar a tempos de avaliação mais longos, especialmente ao processar grandes volumes de dados de texto.
  • Dependência de modelos pré-treinados – A eficácia do BERTScore é altamente dependente da qualidade e relevância do modelo de linguagem pré-treinado utilizado. Em cenários onde o modelo pré-treinado pode não capturar adequadamente as nuances do texto, os resultados da avaliação podem ser afetados.
  • AMPLIAR – Dimensionar o BERTScore para grandes conjuntos de dados ou aplicações em tempo real pode ser um desafio devido às suas demandas computacionais. A implementação do BERTScore em ambientes de produção pode exigir estratégias de otimização para fornecer desempenho eficiente.
  • Especificidade de domínio – O desempenho do BERTScore pode variar em diferentes domínios ou tipos de texto especializados. A adaptação da métrica a domínios ou tarefas específicas pode exigir ajustes ou ajustes para produzir avaliações precisas.
  • Interpretabilidade – Embora o BERTScore forneça uma avaliação abrangente baseada em incorporações contextuais, a interpretação das razões específicas por trás das pontuações de similaridade geradas para cada token pode ser complexa e exigir análise adicional.
  • Avaliação sem referência – Embora o BERTScore reduza a dependência de resumos de referência para avaliação, esta abordagem sem referências pode não capturar totalmente todos os aspectos da qualidade do resumo, particularmente em cenários onde as referências criadas por humanos são essenciais para avaliar a relevância e a coerência do conteúdo.

Reconhecer essas limitações pode ajudá-lo a tomar decisões informadas ao usar o BERTScore como métrica para avaliar tarefas de resumo, proporcionando uma compreensão equilibrada de seus pontos fortes e restrições.

Quando usar BERTScore

O BERTScore pode avaliar a qualidade do resumo do texto comparando um resumo gerado com um resumo de referência. Ele usa redes neurais como o BERT para medir a similaridade semântica além da correspondência exata de palavras ou frases. Isso torna o BERTScore muito útil quando a fidelidade semântica, preservando todo o significado e conteúdo, é crítica para sua tarefa de resumo. O BERTScore dará pontuações mais altas aos resumos que transmitem as mesmas informações que o resumo de referência, mesmo que usem palavras e estruturas de frases diferentes. O resultado final é que o BERTScore é ideal para tarefas de resumo onde é vital reter todo o significado semântico, não apenas palavras-chave ou tópicos. Sua pontuação neural avançada permite comparar o significado além da correspondência de palavras no nível superficial. Isto o torna adequado para casos em que diferenças sutis na redação podem alterar substancialmente o significado e as implicações gerais. O BERTScore, em particular, se destaca na captura de similaridade semântica, o que é crucial para avaliar a qualidade de resumos abstrativos como aqueles produzidos por modelos Retrieval Augmented Generation (RAG).

Estruturas de avaliação de modelos

As estruturas de avaliação de modelos são essenciais para avaliar com precisão o desempenho de vários modelos de resumo. Estas estruturas são fundamentais na comparação de modelos, proporcionando coerência entre os resumos gerados e o conteúdo de origem e identificando deficiências nos métodos de avaliação. Ao realizar avaliações completas e benchmarking consistente, essas estruturas impulsionam a pesquisa de resumo de texto, defendendo práticas de avaliação padronizadas e permitindo comparações de modelos multifacetados.

Na AWS, o Biblioteca FMEval dentro Esclarecimento do Amazon SageMaker agiliza a avaliação e seleção de modelos básicos (FMs) para tarefas como resumo de texto, resposta a perguntas e classificação. Ele permite que você avalie FMs com base em métricas como precisão, robustez, criatividade, preconceito e toxicidade, apoiando avaliações automatizadas e humanas para LLMs. Com avaliações baseadas em UI ou programáticas, o FMEval gera relatórios detalhados com visualizações para quantificar os riscos do modelo, como imprecisões, toxicidade ou preconceito, ajudando as organizações a se alinharem com suas diretrizes de IA generativa responsável. Nesta seção, demonstramos como usar a biblioteca FMEval.

Avalie Claude v2 na precisão do resumo usando Amazon Bedrock

O trecho de código a seguir é um exemplo de como interagir com o modelo Anthropic Claude usando código Python:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

Em termos simples, este código executa as seguintes ações:

  1. Importe as bibliotecas necessárias, incluindo json, para trabalhar com dados JSON.
  2. Defina o ID do modelo como anthropic.claude-v2 e defina o tipo de conteúdo da solicitação.
  3. Crie uma prompt_data variável que estrutura os dados de entrada para o modelo de Claude. Neste caso, faz a pergunta “Quem é Barack Obama?” e espera uma resposta do modelo.
  4. Construa um objeto JSON chamado body que inclua os dados do prompt e especifique parâmetros adicionais, como o número máximo de tokens a serem gerados.
  5. Invoque o modelo de Claude usando bedrock_runtime.invoke_model com os parâmetros definidos.
  6. Analise a resposta do modelo, extraia a conclusão (texto gerado) e imprima-a.

Verifique se o Gerenciamento de acesso e identidade da AWS (IAM) associada ao Estúdio Amazon SageMaker perfil do usuário tem acesso ao Rocha Amazônica modelos sendo invocados. Referir-se Exemplos de políticas baseadas em identidade para Amazon Bedrock para obter orientação sobre práticas recomendadas e exemplos de políticas baseadas em identidade para o Amazon Bedrock.

Usando a biblioteca FMEval para avaliar o resultado resumido de Claude

Usamos o seguinte código para avaliar a saída resumida:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

No trecho de código anterior, para avaliar o resumo do texto usando a biblioteca FMEval, concluímos as seguintes etapas:

  1. Crie uma ModelRunner para realizar invocação em seu LLM. A biblioteca FMEval fornece suporte integrado para Amazon Sage Maker pontos finais e JumpStart do Amazon SageMaker LLMs. Você também pode estender o ModelRunner interface para qualquer LLM hospedado em qualquer lugar.
  2. Uso suportado eval_algorithms como toxicidade, resumo, precisão, semântica e robustez, com base nas suas necessidades de avaliação.
  3. Personalize os parâmetros de configuração de avaliação para seu caso de uso específico.
  4. Use o algoritmo de avaliação com conjuntos de dados integrados ou personalizados para avaliar seu modelo LLM. O conjunto de dados usado neste caso é proveniente do seguinte GitHub repo.

Consulte o guia do desenvolvedor e exemplos para uso detalhado de algoritmos de avaliação.

A tabela a seguir resume os resultados da avaliação.

modelo _entrada saída_modelo saída_alvo pronto pontuações pontuação_meteoro rouge_score bert_score
John Edward
0 Bates, ex-Spalding, Linco…..
Não posso fazer nada definitivo
julgamentos, como…
Um ex
Policial de Lincolnshire é levado…
Humano: João
Edward Bates, ex-Spalding…
[{'nome': 'meteoro', 'valor':
0.101010101010101 ...
0.10101 0 0.557155
23 de outubro de 2015
Última atualização em
17:44 BST |
Aqui estão alguns pontos-chave sobre furacão/trop. O furacão Patricia foi classificado como uma categoria… Humano: 23
Outubro de 2015 Última atualização às 17h44
B ...
[{'nome': meteoro', “valor':
0.102339181286549 ..
0.102339 0.018265 0.441421
A Ferrari parecia em posição de desafiar un… Aqui estão os pontos principais do artigo:nin… Lewis Hamilton conquistou a pole position no… Humano: Ferrari parecia em posição de desafiar… [{'nome': 'meteoro', 'valor':
0.322543352601156 ...
0.322543 0.078212 0.606487
O jogador nascido em Bath, de 28 anos, fez 36
aparecer…
Ok, deixe-me resumir os pontos principais:/nin- E….. Newport Gwent Dragons número oito, Ed Jackson Humano: O jogador nascido em Bath, 28, fez 36 a… [{'nome': 'meteoro', 'valor':
0105740181268882 ...
0.10574 0.012987 0.539488
Fraquezas na forma como os ratos trocavam dados com c… Aqui estão os pontos-chave que reuni do a… Hackers poderiam obter acesso a residências e Humanos:
Fraquezas no
ratos swar trocaram dados
[{'nome': 'meteoro', 'valor':
0.201048289433848 ...
0.201048 0.021858 0.526947

Confira a amostra caderno para obter mais detalhes sobre a avaliação de resumo que discutimos neste post.

Conclusão

ROUGE, METEOR e BERTScore medem a qualidade dos resumos gerados por máquina, mas concentram-se em diferentes aspectos, como sobreposição lexical, fluência ou semelhança semântica. Certifique-se de selecionar a métrica que se alinha com o que define “bom” para seu caso de uso de resumo específico. Você também pode usar uma combinação de métricas. Isto proporciona uma avaliação mais completa e protege contra potenciais fraquezas de qualquer métrica individual. Com as medições corretas, você pode melhorar iterativamente seus resumidores para atender à noção de precisão mais importante.

Além disso, a avaliação FM e LLM é necessária para poder produzir esses modelos em escala. Com o FMEval, você obtém um vasto conjunto de algoritmos integrados em muitas tarefas de PNL, mas também uma ferramenta escalonável e flexível para avaliações em larga escala de seus próprios modelos, conjuntos de dados e algoritmos. Para aumentar a escala, você pode usar este pacote em seus pipelines LLMOps para avaliar vários modelos. Para saber mais sobre o FMEval na AWS e como usá-lo de forma eficaz, consulte Use o SageMaker Clarify para avaliar grandes modelos de linguagem. Para maior compreensão e insights sobre os recursos do SageMaker Clarify na avaliação de FMs, consulte O Amazon SageMaker Clarify facilita a avaliação e a seleção de modelos básicos.


Sobre os autores


Dinesh Kumar Subramani é arquiteto de soluções sênior baseado em Edimburgo, Escócia. Ele é especialista em inteligência artificial e aprendizado de máquina e é membro da comunidade técnica da Amazon. Dinesh trabalha em estreita colaboração com clientes do governo central do Reino Unido para resolver seus problemas usando os serviços da AWS. Fora do trabalho, Dinesh gosta de passar bons momentos com sua família, jogando xadrez e explorando uma grande variedade de músicas.


Pranav Sharma é um líder da AWS que impulsiona iniciativas de transformação tecnológica e de negócios na Europa, no Oriente Médio e na África. Ele tem experiência em projetar e executar plataformas de inteligência artificial em produção que dão suporte a milhões de clientes e entregam resultados de negócios. Ele desempenhou funções de liderança em tecnologia e pessoas em organizações de serviços financeiros globais. Fora do trabalho, gosta de ler, jogar tênis com o filho e assistir filmes.

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?