柏拉圖數據智能。
垂直搜索和人工智能。

評估法學碩士的文本摘要能力,以增強 AWS 上的決策能力 |亞馬遜網路服務

日期:

各行業的組織正在使用自動文字摘要來更有效地處理大量資訊並做出更好的決策。在金融領域,投資銀行將收益報告濃縮為關鍵要點,以快速分析季度表現。媒體公司使用摘要來監控新聞和社群媒體,以便記者可以快速撰寫有關正在發展的問題的報導。政府機構總結冗長的政策文件和報告,以幫助政策制定者制定策略並確定目標的優先順序。

透過創建長而複雜的文件的壓縮版本,摘要技術使用戶能夠專注於最重要的內容。這可以更好地理解和保留關鍵資訊。節省的時間使利害關係人能夠在更短的時間內審查更多資料,並獲得更廣闊的視角。透過增強的理解和更全面的見解,組織可以做出更明智的策略決策、加速研究、提高生產力並增加影響力。隨著越來越多的產業採用人工智慧 (AI) 來利用氾濫的資訊流,高階摘要功能的變革力量只會繼續增強。

在這篇文章中,我們探索客觀評估摘要準確性的領先方法,包括 ROUGE 指標、METEOR 和 BERTScore。了解這些技術的優點和缺點可以幫助指導選擇和改進工作。這篇文章的總體目標是揭開總結評估的神秘面紗,幫助團隊在尋求價值最大化時更好地衡量這一關鍵能力的績效。

總結的類型

摘要一般可分為兩種主要類型:提取式摘要和抽象式摘要。這兩種方法都旨在將長文本壓縮為較短的形式,捕獲原始內容的最關鍵資訊或本質,但它們的實現方式根本不同。

提取式摘要涉及從原始文本中識別和提取關鍵字詞、句子或片段而不改變它們。系統選擇文本中被認為最具資訊性或最具代表性的部分。如果準確性至關重要且摘要需要反映原始文本的準確信息,則提取摘要非常有用。這些可以是使用案例,例如突出顯示使用條款中概述的特定法律條款、義務和權利。用於提取摘要的最常見技術是術語頻率-逆文檔頻率 (TF-IDF)、句子評分、文字排名演算法和監督機器學習 (ML)。

抽象摘要更進一步,產生原文中沒有的新片語和句子,本質上是原文內容的釋義和濃縮。這種方法需要對文本有更深入的理解,因為人工智慧需要解釋含義,然後以新的、簡潔的形式表達它。大型語言模型 (LLM) 最適合抽象摘要,因為 Transformer 模型在產生摘要時使用注意力機制來專注於輸入文字的相關部分。注意力機制允許模型為輸入序列中的不同單字或標記分配不同的權重,使其能夠捕獲遠端依賴性和上下文相關資訊。

除了這兩種主要類型之外,還有結合了提取和抽象方法的混合方法。這些方法可能從提取摘要開始,以確定最重要的內容,然後使用抽象技術將該內容重寫或濃縮為流暢的摘要。

所面臨的挑戰

尋找評估摘要品質的最佳方法仍然是一個開放的挑戰。隨著組織越來越依賴自動文字摘要從文件中提取關鍵訊息,對衡量摘要準確性的標準化技術的需求也在增長。理想情況下,這些評估指標將量化機器生成的摘要如何從來源文本中提取最顯著的內容,並呈現反映原始含義和上下文的連貫摘要。

然而,開發穩健的文本摘要評估方法存在困難:

  • 用於比較的人工撰寫的參考摘要通常表現出基於重要性的主觀確定的高度可變性
  • 事實證明,摘要品質的細微差別(例如流暢性、可讀性和連貫性)很難以程式方式量化
  • 從統計演算法到神經網路的總和方法存在很大差異,使直接比較變得複雜

面向回憶的 Gisting 評估研究 (ROUGE)

胭脂指標與人類編寫的參考摘要相比,諸如 ROUGE-N 和 ROUGE-L 等在評估機器生成摘要的品質方面發揮著至關重要的作用。這些指標著重於透過分析 n 元語法(單字或標記組)來評估機器產生的摘要和人工製作的摘要內容之間的重疊。例如,ROUGE-1 評估單字(一元組)的匹配,而 ROUGE-2 考慮單字對(二元組)的匹配。此外,ROUGE-N 還會評估兩個文本之間最長的單字公共子序列,從而實現詞序的彈性。

為了說明這一點,請考慮以下範例:

  • ROGUE-1 指標 – ROUGE-1 評估產生的摘要和參考摘要之間的一元組(單字)的重疊。例如,如果參考摘要包含“棕色狐狸快速跳躍”,並且生成的摘要是“棕色狐狸快速跳躍”,則 ROUGE-1 指標會將“棕色”、“狐狸”和“跳躍”視為重疊一元字。 ROUGE-1 重點在於摘要中單字的存在,衡量產生的摘要從參考摘要中捕捉關鍵字的效果。
  • ROGUE-2 指標 – ROUGE-2 評估產生的摘要和參考摘要之間的二元組(相鄰單字對)的重疊。例如,如果參考摘要為“貓正在睡覺”,並且生成的摘要為“貓正在睡覺”,則 ROUGE-2 會將“貓正在”和“正在睡覺”識別為重疊的二元組。 ROUGE-2 可以深入了解與參考摘要相比,產生的摘要在維護單字對的順序和上下文方面的表現如何。
  • ROUGE-N 公制 – ROUGE-N 是一種廣義形式,其中 N 代表任意數字,允許基於 n 元語法(N 個單字的序列)進行評估。考慮到 N=3,如果參考摘要指出“太陽閃耀明亮”,並且生成的摘要是“太陽閃耀明亮”,ROUGE-3 會將“陽光閃耀明亮”識別為匹配的三元組。 ROUGE-N 可以靈活地根據不同長度的單字序列評估摘要,從而對內容重疊提供更全面的評估。

這些範例說明了 ROUGE-1、ROUGE-2 和 ROUGE-N 指標如何透過將產生的摘要與基於不同層級的單字序列的參考摘要進行比較來評估自動摘要或機器翻譯任務。

計算 ROUGE-N 分數

您可以使用以下步驟來計算 ROUGE-N 分數:

  1. 使用基本標記化方法(例如按空格或自然語言處理 (NLP) 庫分割)將產生的摘要和參考摘要標記為單字或標記。
  2. 從產生的摘要和參考摘要產生 n-gram(N 個單字的連續序列)。
  3. 計算產生的摘要和參考摘要之間重疊的 n 元語法的數量。
  4. 計算精確率、召回率和 F1 分數:
    • 精密 – 重疊 n-gram 的數量除以產生的摘要中 n-gram 的總數。
    • 記得 – 參考摘要中重疊 n 元語法的數量除以 n 元語法總數。
    • F1分數 – 精確度和召回率的調和平均值,計算公式為 (2 * 精確度 * 召回率) / (精準度 + 召回率)。
  5. 透過計算資料集中每行的精確度、召回率和 F1 分數而獲得的總 F1 分數被視為 ROUGE-N 分數。

限制

ROGUE 有以下限制:

  • 狹隘地關注詞彙重疊 – ROUGE 背後的核心思想是將系統生成的摘要與一組參考或人類創建的摘要進行比較,並測量它們之間的詞彙重疊。這意味著 ROUGE 對詞級相似性的關注非常狹窄。它實際上並沒有評估摘要的語意、連貫性或可讀性。系統只需從原始文本中逐字提取句子即可獲得高 ROUGE 分數,而無需產生連貫或簡潔的摘要。
  • 對轉述不敏感 – 由於 ROUGE 依賴詞彙匹配,因此它無法檢測單字和短語之間的語義等效性。因此,即使保留了含義,釋義和使用同義詞通常也會導致較低的 ROUGE 分數。這不利於以抽象方式解釋或總結的系統。
  • 缺乏語義理解 – ROUGE不評估系統是否真正了解原文中的意義和概念。摘要可能會與參考文獻在詞彙上高度重疊,但會遺漏主要想法或包含事實不一致的內容。 ROUGE 不會指出這些問題。

何時使用胭脂

ROUGE 計算簡單且快速。將其用作與內容選擇相關的摘要品質的基準或基準。 ROUGE 指標最有效地應用於涉及抽象摘要任務、自動摘要評估、LLM 評估以及不同摘要方法的比較分析的場景。透過在這些環境中使用 ROUGE 指標,利害關係人可以定量評估摘要產生過程的品質和有效性。

明確排序翻譯評估指標 (METEOR)

評估摘要係統的主要挑戰之一是評估產生的摘要的邏輯流暢程度,而不僅僅是從來源文本中選擇相關單字和短語。簡單地提取相關關鍵字和句子並不一定能產生連貫且有凝聚力的摘要。摘要應該流暢並邏輯地連接想法,即使它們的呈現順序與原始文件不同。

透過將單字還原為詞根或基本形式(例如,在詞幹提取後,「running」、「runs」和「ran」等單字都變成「run」)和同義詞來進行匹配的靈活性意味著 流星 與人類對摘要品質的判斷更好地相關。它可以識別重要內容是否被保留,即使措辭不同。與 ROUGE 等基於 n-gram 的指標相比,這是一個關鍵優勢,後者只尋找精確的標記匹配。 METEOR 也對關注參考文獻中最突出內容的摘要給予更高的分數。重複或不相關的資訊得分較低。這與僅保留最重要內容的摘要目標非常一致。 METEOR 是一種語義上有意義的度量,可以克服 n 元語法匹配在評估文本摘要方面的一些限制。詞幹和同義詞的結合可以更好地評估資訊重疊和內容準確性。

為了說明這一點,請考慮以下範例:

參考總結: 秋天樹葉落下。

產生的摘要 1: 秋天葉子掉落。

產生的摘要 2: 夏日葉子呈綠色。

參考文獻和產生的摘要 1 之間的匹配單字會被反白:

參考總結: 下降 秋季期間。

產生的摘要 1: 落入 下降.

儘管「fall」和「autumn」是不同的標記,METEOR 透過同義詞匹配將它們識別為同義詞。 「Drop」和「fall」被辨識為字幹匹配。對於產生的摘要 2,除了「Leaves」之外,沒有與參考摘要相符的內容,因此該摘要將獲得低得多的 METEOR 分數。語意上有意義的配對越多,METEOR 分數就越高。與簡單的 n 元語法匹配相比,這使得 METEOR 能夠更好地評估摘要的內容和準確性。

計算 METEOR 分數

完成以下步驟來計算 METEOR 分數:

  1. 使用基本標記化方法(例如按空格或 NLP 庫分割)將產生的摘要和參考摘要標記為單字或標記。
  2. 計算一元組精確度、召回率和 F 均值分數,召回率比精確度更重要。
  3. 對精確匹配應用懲罰以避免過度強調它們。懲罰是根據資料集特徵、任務要求以及精確度和召回率之間的平衡來選擇的。從步驟 2 計算的 F 平均值分數中減去此罰分。
  4. 計算詞幹形式(將單字還原為其基本形式或詞根形式)的 F 平均值分數以及適用的一元語法的同義詞。將其與先前計算的 F 均值分數相加,以獲得最終的 METEOR 分數。 METEOR 分數範圍為 0-1,其中 0 表示產生的摘要與參考摘要之間沒有相似性,1 表示完美對齊。通常,總結分數介於 0-0.6 之間。

限制

當使用 METEOR 指標來評估摘要任務時,可能會出現幾個挑戰:

  • 語意複雜性 – METEOR 對語義相似性的強調可能難以捕捉複雜摘要任務中細微差別的含義和上下文,這可能導致評估不準確。
  • 參考變異性 – 人類產生的參考摘要的變異性可能會影響 METEOR 分數,因為參考內容的差異可能會影響機器產生的摘要的評估。
  • 語言多樣性 – 由於語言差異、語法差異和語義細微差別,METEOR 的有效性可能因語言而異,這給多語言摘要評估帶來了挑戰。
  • 長度差異 – 評估不同長度的摘要對於 METEOR 來說可能具有挑戰性,因為與參考摘要相比長度的差異可能會導致評估的處罰或不準確。
  • 參數調優 – 針對不同資料集和匯總任務最佳化 METEOR 的參數可能非常耗時,並且需要仔細調整以確保指標提供準確的評估。
  • 評價偏差 – 如果沒有針對特定的摘要領域或任務進行適當調整或校準,則 METEOR 有評估偏差的風險。這可能會導致結果出現偏差並影響評估過程的可靠性。

透過意識到這些挑戰並在使用 METEOR 作為總結任務的指標時考慮它們,研究人員和從業者可以克服潛在的局限性,並在評估過程中做出更明智的決策。

何時使用 METEOR

METEOR 通常用於自動評估文字摘要的品質。當摘要中的想法、概念或實體的順序很重要時,最好使用 METEOR 作為評估指標。 METEOR 考慮順序並符合產生的摘要和參考摘要之間的 n 元語法。它獎勵保留順序資訊的摘要。與 ROUGE 等依賴 n 元語法與參考摘要重疊的指標不同,METEOR 匹配詞幹、同義詞和釋義。當可以有多種正確的方法來總結原文時,METEOR 的效果會更好。 METEOR 在匹配 n 元語法時結合了 WordNet 同義詞和詞幹標記。簡而言之,語義相似但使用不同單字或措詞的摘要仍然會得分很高。 METEOR 對具有重複 n 元語法的摘要有內建懲罰。因此,它不鼓勵逐字提取或缺乏抽象。當語意相似性、思想順序和流暢的措詞對於判斷摘要品質很重要時,METEOR 是一個不錯的選擇。它不太適合僅與參考摘要詞彙重疊很重要的任務。

BERT評分

像 ROUGE 和 METEOR 這樣的表層詞彙度量透過比較候選摘要和參考摘要之間的單字重疊來評估摘要係統。然而,它們嚴重依賴單字和短語之間的精確字串匹配。這意味著他們可能會錯過表面形式不同但潛在含義相似的單字和短語之間的語義相似性。僅依靠表面匹配,這些指標可能會低估使用與參考摘要不同的同義詞或釋義概念的系統摘要的品質。兩個摘要可以傳達幾乎相同的訊息,但由於詞彙差異而獲得較低的表面分數。

BERT評分 是一種透過將摘要與人類編寫的參考摘要進行比較來自動評估摘要的好壞的方法。它使用流行的 NLP 技術 BERT 來理解候選摘要和參考摘要中單字的含義和上下文。具體來說,它會查看候選摘要中的每個單字或標記,並根據 BERT 嵌入(每個單字的含義和上下文的向量表示)找到參考摘要中最相似的單字。它使用餘弦相似度來測量相似度,餘弦相似度表明向量彼此之間的接近程度。對於候選摘要中的每個單詞,它使用 BERT 對語言的理解來找到參考摘要中最相關的單字。它比較整個摘要中的所有這些單字相似性,以獲得候選摘要與參考摘要在語義上的相似程度的總體分數。 BERT 捕捉的單字和意義越相似,BERTScore 就越高。這使得它可以透過將生成的摘要與人類參考進行比較來自動評估生成的摘要的質量,而無需每次都進行人工評估。

為了說明這一點,假設您有一個機器生成的摘要:“敏捷的棕色狐狸跳過了懶狗。”現在,讓我們考慮一個人工製作的參考摘要:“一隻快速的棕色狐狸跳過一隻熟睡的犬科動物。”

計算 BERTcore

完成以下步驟計算 BERTcore:

  1. BERTScore 使用上下文嵌入來表示候選(機器生成)和參考(人工製作)句子中的每個標記。上下文嵌入是 NLP 中的一種單字表示形式,它根據句子或文字中的上下文捕獲單字的含義。與傳統的詞嵌入不同的是,無論其上下文如何,都會為每個詞分配固定的向量,上下文嵌入會考慮周圍的詞,根據每個詞在特定句子中的使用方式來產生每個詞的唯一表示。
  2. 然後,該度量使用餘弦相似度計算候選句子中的每個標記與參考句子中的每個標記之間的相似度。餘弦相似度透過關注兩組數據在多維空間中指向的方向,幫助我們量化兩組數據的相關程度,使其成為搜尋演算法、自然語言處理和推薦系統等任務的寶貴工具。
  3. 透過比較上下文嵌入並計算所有標記的相似性分數,BERTScore 產生綜合評估,捕獲生成的摘要與人工參考相比的語義相關性和上下文。
  4. 最終的 BERTScore 輸出提供了一個相似度分數,反映了機器產生的摘要在含義和上下文方面與參考摘要的一致性程度。

從本質上講,BERTScore 超越了傳統指標,考慮了句子的語義細微差別和上下文,提供了更複雜的評估,密切反映了人類的判斷。這種先進的方法提高了評估摘要任務的準確性和可靠性,使 BERTScore 成為評估文字產生系統的寶貴工具。

限制:

儘管 BERTScore 在評估摘要任務方面具有顯著優勢,但它也存在一些需要考慮的限制:

  • 計算強度 – 由於 BERT 依賴 BERT 等預先訓練的語言模型,BERTScore 可能需要大量計算。這可能會導致評估時間更長,尤其是在處理大量文字資料時。
  • 對預訓練模型的依賴 – BERTScore 的有效性高度依賴所使用的預訓練語言模型的品質和相關性。在預訓練模型可能無法充分捕捉文字細微差別的情況下,評估結果可能會受到影響。
  • 可擴展性 – 由於其運算需求,針對大型資料集或即時應用程式擴展 BERTScore 可能具有挑戰性。在生產環境中實作 BERTcore 可能需要最佳化策略來提供高效率的效能。
  • 領域特異性 – BERTScore 的表現可能因不同領域或特定文字類型而異。使指標適應特定領域或任務可能需要微調或調整才能產生準確的評估。
  • 可解釋性 – 儘管 BERTScore 提供了基於上下文嵌入的綜合評估,但解釋為每個標記生成的相似性分數背後的具體原因可能很複雜,並且可能需要額外的分析。
  • 無參考評估 – 儘管 BERTScore 減少了對評估參考摘要的依賴,但這種無參考方法可能無法完全捕捉摘要品質的所有方面,特別是在人工製作的參考對於評估內容相關性和連貫性至關重要的情況下。

承認這些限制可以幫助您在使用 BERTScore 作為評估摘要任務的指標時做出明智的決策,從而對其優勢和限制提供平衡的理解。

何時使用 BERTcore

BERTScore 可以透過將產生的摘要與參考摘要進行比較來評估文字摘要的品質。它使用 BERT 等神經網路來測量語義相似性,而不僅僅是精確的單字或短語匹配。當保留完整意義和內容的語義保真度對於摘要任務至關重要時,BERTScore 非常有用。 BERTScore 會對傳達與參考摘要相同訊息的摘要給予更高的分數,即使它們使用不同的單字和句子結構。最重要的是,BERTScore 非常適合摘要任務,在這些任務中,保留完整的語義而不僅僅是關鍵字或主題至關重要。其先進的神經評分使其能夠比較表面單字匹配之外的含義。這使得它適用於措辭上的細微差別會極大地改變整體含義和含義的情況。 BERTScore 尤其擅長捕捉語意相似性,這對於評估抽象摘要(如檢索增強產生 (RAG) 模型產生的摘要)的品質至關重要。

模型評估框架

模型評估框架對於準確衡量各種摘要模型的表現至關重要。這些框架有助於比較模型、提供產生的摘要和來源內容之間的一致性以及找出評估方法的缺陷。透過進行徹底的評估和一致的基準測試,這些框架透過倡導標準化評估實踐和實現多方面的模型比較來推動文本摘要研究。

在 AWS 中, FMEval 庫亞馬遜SageMaker澄清 簡化了用於文本摘要、問答和分類等任務的基礎模型 (FM) 的評估和選擇。它使您能夠根據準確性、穩健性、創造力、偏見和毒性等指標評估 FM,以支援法學碩士的自動評估和人機互動評估。透過基於 UI 或程序化的評估,FMEval 可以產生詳細的視覺化報告,以量化模型風險,例如不準確、毒性或偏差,幫助組織遵守其負責任的生成式 AI 指南。在本節中,我們將示範如何使用 FMEval 函式庫。

使用 Amazon Bedrock 評估 Claude v2 的摘要準確性

以下程式碼片段是如何使用 Python 程式碼與 Anthropic Claude 模型互動的範例:

import json
# We use Claude v2 in this example.
# See https://docs.anthropic.com/claude/reference/claude-on-amazon-bedrock#list-available-models
# for instructions on how to list the model IDs for all available Claude model variants.
model_id = 'anthropic.claude-v2'
accept = "application/json"
contentType = "application/json"
# `prompt_data` is structured in the format that the Claude model expects, as documented here:
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
prompt_data = """Human: Who is Barack Obama?
Assistant:
"""
# For more details on parameters that can be included in `body` (such as "max_tokens_to_sample"),
# see https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-claude.html#model-parameters-claude-request-body
body = json.dumps({"prompt": prompt_data, "max_tokens_to_sample": 500})
# Invoke the model
response = bedrock_runtime.invoke_model(
body=body, modelId=model_id, accept=accept, contentType=contentType
)
# Parse the invocation response
response_body = json.loads(response.get("body").read())
print(response_body.get("completion"))

簡單來說,此程式碼執行以下操作:

  1. 導入必要的庫,包括 json,處理 JSON 資料。
  2. 將模型 ID 定義為 anthropic.claude-v2 並設定請求的內容類型。
  3. 創建一個 prompt_data 建構克勞德模型輸入資料的變數。在這種情況下,它提出了“巴拉克·奧巴馬是誰?”的問題。並期望模型做出回應。
  4. 建構一個名為 body 的 JSON 對象,其中包含提示數據,並指定其他參數,例如要產生的最大令牌數。
  5. 使用呼叫 Claude 模型 bedrock_runtime.invoke_model 與定義的參數。
  6. 解析模型的回應,提取完成內容(產生的文字),然後將其列印出來。

確保 AWS身份和訪問管理 與關聯的 (IAM) 角色 亞馬遜SageMaker Studio 用戶個人資料可以訪問 亞馬遜基岩 被呼叫的模型。參考 Amazon Bedrock 基於身分的策略範例 有關 Amazon Bedrock 的最佳實務指南和基於身分的策略範例。

使用 FMEval 函式庫評估 Claude 的總計輸出

我們使用以下程式碼來評估匯總輸出:

from fmeval.data_loaders.data_config import DataConfig
from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
from fmeval.constants import MIME_TYPE_JSONLINES
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy
config = DataConfig(
    dataset_name="gigaword_sample",
    dataset_uri="gigaword_sample.jsonl",
    dataset_mime_type=MIME_TYPE_JSONLINES,
    model_input_location="document",
    target_output_location="summary"
)
bedrock_model_runner = BedrockModelRunner(
    model_id=model_id,
    output='completion',
    content_template='{"prompt": $prompt, "max_tokens_to_sample": 500}'
)
eval_algo = SummarizationAccuracy()
eval_output = eval_algo.evaluate(model=bedrock_model_runner, dataset_config=config,
prompt_template="Human: Summarise the following text in one sentence: $featurennAssistant:n", save=True)

在前面的程式碼片段中,要使用 FMEval 函式庫評估文字摘要,我們完成以下步驟:

  1. 創建一個 ModelRunner 對您的法學碩士執行呼叫。 FMEval 庫提供內建支持 亞馬遜SageMaker 端點和 亞馬遜SageMaker JumpStart 法學碩士。您也可以延長 ModelRunner 任何地方託管的法學碩士的介面。
  2. 支援使用 eval_algorithms 根據您的評估需求,如毒性、摘要、準確性、語義和穩健性。
  3. 為您的特定用例自訂評估配置參數。
  4. 使用內建或自訂資料集的評估演算法來評估您的 LLM 模型。本例所使用的資料集來自以下 GitHub回購.

參考 開發者指南和範例 評估演算法的詳細使用。

下表總結了評估結果。

模型_輸入 模型輸出 目標輸出 提示 分數 流星分數 胭脂分數 伯特分數
約翰·愛德華茲
0 貝茨,前斯伯丁,林科......
我無法做出任何確定
判斷,作為...
前任
林肯郡警察攜帶...
人類:約翰
愛德華貝茨,前斯伯丁隊...
[{'名稱':'流星','值':
0.101010101010101 ...
0.10101 0 0.557155
二〇二三 年十月 三十日
上次更新時間
17:44 BST|nIt'…
以下是有關颶風/熱帶氣旋的一些要點。 颶風派翠西亞已被評為類別… 人類:23
2015 年 17 月 最後更新於 44:XNUMX
乙…
[{'名稱':流星','值':
0.102339181286549 ..
0.102339 0.018265 0.441421
法拉利似乎有能力挑戰… 以下是文章的要點:nin… 劉易斯漢密爾頓 (Lewis Hamilton) 在賽道上衝向杆位… 人類:法拉利似乎有能力挑戰..... [{'名稱':'流星','值':
0.322543352601156 ...
0.322543 0.078212 0.606487
這位出生於巴斯的球員今年 28 歲,已經打進 36 球
出現…
好吧,我總結一下要點:/nin- E… 紐波特昆特龍隊第八號艾德傑克遜 人類:出生於巴斯的球員,28 歲,已經取得了 36 分… [{'名稱':'流星','值':
0105740181268882 ...
0.10574 0.012987 0.539488
小鼠與人類交換資料的方式有缺陷… 以下是我從…收集到的要點。 駭客可以訪問家庭和 人類:
弱點在
swar 老鼠交換數據
[{'名稱':'流星','值':
0.201048289433848 ...
0.201048 0.021858 0.526947

查看樣品 筆記本 有關我們在本文中討論的總結評估的更多詳細資訊。

結論

ROUGE、METEOR 和 BERTScore 都衡量機器生成摘要的質量,但側重於不同的方面,例如詞彙重疊、流暢性或語義相似性。確保選擇與您的特定摘要用例的「好」定義一致的指標。您也可以使用指標的組合。這提供了更全面的評估,並防止任何單一指標的潛在弱點。透過正確的測量,您可以迭代地改進摘要器,以滿足最重要的準確性概念。

此外,FM 和 LLM 評估對於能夠大規模生產這些模型是必要的。借助 FMEval,您可以獲得跨許多 NLP 任務的大量內建演算法,同時也是一個可擴展且靈活的工具,用於大規模評估您自己的模型、資料集和演算法。要擴大規模,您可以在 LLMOps 管道中使用此套件來 評估多個模型。要了解有關 AWS 中的 FMEval 以及如何有效使用它的更多信息,請參閱 使用 SageMaker Clarify 評估大型語言模型。如需進一步了解並深入了解 SageMaker Clarify 在評估 FM 方面的功能,請參閱 Amazon SageMaker Clarify 讓評估和選擇基礎模型變得更輕鬆.


關於作者


迪內甚·庫馬爾·蘇布拉馬尼 是蘇格蘭愛丁堡的高級解決方案架構師。他專注於人工智慧和機器學習,是亞馬遜技術領域社群的成員。 Dinesh 與英國中央政府客戶密切合作,使用 AWS 服務解決他們的問題。工作之餘,迪內什喜歡與家人共度美好時光、下棋和探索各種音樂。


普拉納夫·夏爾馬 是推動歐洲、中東和非洲技術和業務轉型計劃的 AWS 領導者。他在設計和運行生產中的人工智慧平台方面擁有豐富的經驗,這些平台可以為數百萬客戶提供支援並交付業務成果。他曾在全球金融服務組織中擔任技術和人員領導職務。工作之餘,他喜歡閱讀、和兒子一起打網球、看電影。

現貨圖片

最新情報

現貨圖片

和我們線上諮詢

你好呀!我怎麼幫你?