柏拉圖數據智能。
垂直搜索和人工智能。

使用 Amazon Bedrock 和 Amazon Neptune 發現非結構化財務資料中的隱藏聯繫 |亞馬遜網路服務

日期:

在資產管理中,投資組合經理需要密切監控其投資範圍內的公司,以識別風險和機會,並指導投資決策。追蹤收益報告或信用降級等直接事件非常簡單 - 您可以設定警報以通知經理包含公司名稱的新聞。然而,檢測供應商、客戶、合作夥伴或公司生態系統中其他實體的事件所產生的二階和三階影響具有挑戰性。

例如,主要供應商的供應鏈中斷可能會對下游製造商產生負面影響。或者大客戶失去頂級客戶會為供應商帶來需求風險。通常,此類事件無法直接成為受影響公司的頭條新聞,但仍值得關注。在這篇文章中,我們示範了一個結合知識圖和 生成人工智慧(AI) 透過將關係圖與即時新聞交叉引用來揭示此類風險。

總的來說,這需要兩個步驟:首先,將公司(客戶、供應商、董事)之間的複雜關係建構到知識圖譜中。其次,使用此圖形資料庫以及生成式人工智慧來偵測新聞事件的二階和三階影響。例如,該解決方案可以強調零件供應商的延誤可能會擾亂產品組合中下游汽車製造商的生產,儘管沒有直接引用。

借助 AWS,您可以在無伺服器、可擴展且完全事件驅動的架構中部署此解決方案。這篇文章示範了基於兩個非常適合圖形知識表示和自然語言處理的關鍵 AWS 服務建構的概念驗證: 亞馬遜海王星亞馬遜基岩。 Neptune 是一種快速、可靠、完全託管的圖形資料庫服務,可輕鬆建立和運行與高度連接的資料集一起使用的應用程式。 Amazon Bedrock 是一項完全託管的服務,透過單一 API 提供來自 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon 等領先 AI 公司的高效能基礎模型 (FM) 的選擇,以及廣泛的構建具有安全性、隱私性和負責任的人工智慧的生成式人工智慧應用程式的能力。

總的來說,這個原型展示了知識圖譜和生成人工智慧的藝術——透過連接不同的點來導出訊號。投資專業人士的收穫是能夠在更接近訊號的情況下掌握發展動態,同時避免噪音。

建構知識圖譜

這個解決方案的第一步是建立知識圖譜,而知識圖譜的一個有價值但經常被忽視的資料來源是公司年報。由於官方公司出版物在發布前經過審查,因此其中包含的資訊可能是準確可靠的。然而,年度報告以非結構化格式編寫,適合人類閱讀而不是機器消費。為了釋放它們的潛力,您需要一種方法來系統地提取和建立它們所包含的豐富的事實和關係。

借助 Amazon Bedrock 等生成式 AI 服務,您現在能夠自動化此流程。您可以取得年度報告並觸發處理管道來提取報告,將其分解為更小的區塊,並應用自然語言理解來提取顯著的實體和關係。

例如,如果句子“[公司 A] 通過向 [公司 B] 訂購 1,800 輛電動貨車擴大了其歐洲電動送貨車隊”,則 Amazon Bedrock 可以識別以下內容:

  • [A公司]作為客戶
  • [B公司]作為供應商
  • [公司 A] 和 [公司 B] 之間的供應商關係
  • 「電動送貨車供應商」的關係詳情

從非結構化文件中提取此類結構化資料需要向大型語言模型 (LLM) 提供精心設計的提示,以便他們可以分析文字以提取公司和人員等實體,以及客戶、供應商等關係。提示包含關於要注意的內容以及返回資料的結構的明確說明。

然而,在將提取的資訊提交到知識圖之前,您需要先消除實體的歧義。例如,知識圖中可能已經存在另一個「[公司 A]」實體,但它可能代表具有相同名稱的不同組織。 Amazon Bedrock 可以推理和比較業務重點領域、行業和創收行業以及與其他實體的關係等屬性,以確定這兩個實體是否確實不同。這可以防止不相關的公司錯誤地合併為一個實體。

消歧完成後,您可以可靠地將新實體和關係添加到您的 Neptune 知識圖中,並使用從年度報告中提取的事實來豐富它。隨著時間的推移,可靠資料的攝取和更可靠資料來源的整合將有助於建立全面的知識圖譜,這些知識圖譜可以支援透過圖查詢和分析來揭示見解。

這種由生成式人工智慧實現的自動化使得處理數千份年度報告成為可能,並為知識圖譜管理釋放了寶貴的資產,否則,由於需要大量的人工工作,這些資產將無法被利用。

以下螢幕截圖顯示了使用 Neptune 圖形資料庫進行視覺化探索的範例 圖形瀏覽器 工具。

處理新聞文章

該解決方案的下一步是自動豐富投資組合經理的動態消息並突出顯示與其興趣和投資相關的文章。對於新聞源,投資組合經理可以透過訂閱任何第三方新聞提供商 AWS數據交換 或他們選擇的其他新聞 API。

當新聞文章進入系統時,會呼叫攝取管道來處理內容。使用與年度報告處理類似的技術,Amazon Bedrock 用於從新聞文章中提取實體、屬性和關係,然後用於消除知識圖譜中的歧義,以識別知識圖譜中的相應實體。

知識圖譜包含公司和人員之間的聯繫,透過將文章實體連結到現有節點,您可以識別是否有任何主題位於投資組合經理已投資或感興趣的公司的兩跳範圍內。文章可能與投資組合經理相關,並且由於基礎數據以知識圖的形式表示,因此可以將其可視化,以幫助投資組合經理理解此上下文為何以及如何相關。除了識別與投資組合的連結之外,您還可以使用 Amazon Bedrock 對引用的實體執行情緒分析。

最終輸出是豐富的新聞提要,其中包含可能影響投資組合經理的興趣和投資領域的文章。

解決方案概述

此解決方案的整體架構如下圖所示。

該工作流程包括以下步驟:

  1. 用戶將正式報告(PDF 格式)上傳至 亞馬遜簡單存儲服務 (亞馬遜 S3)存儲桶。這些報告應該是正式發布的報告,以盡量減少將不準確的數據納入您的知識圖中(而不是新聞和小報)。
  2. S3 事件通知調用 AWS Lambda 函數,它將 S3 儲存桶和檔案名稱發送到 Amazon Simple Queue服務 (亞馬遜 SQS)佇列。先進先出 (FIFO) 佇列確保報告攝取程序依序執行,以減少將重複資料引入知識圖譜的可能性。
  3. An 亞馬遜EventBridge 基於時間的事件每分鐘運行一次以開始運行 AWS步驟功能 異步狀態機。
  4. Step Functions 狀態機執行一系列任務,透過提取關鍵資訊並將其插入知識圖中來處理上傳的文件:
    1. 從 Amazon SQS 接收佇列訊息。
    2. 從 Amazon S3 下載 PDF 報告文件,將其拆分為多個較小的文字區塊(大約 1,000 個單字)進行處理,並將文字區塊儲存在 亞馬遜DynamoDB.
    3. 在 Amazon Bedrock 上使用 Anthropic 的 Claude v3 Sonnet 處理前幾個文字區塊,以確定報告所指的主要實體以及相關屬性(例如產業)。
    4. 使用 Amazon Bedrock 從 DynamoDB 檢索文字區塊,並針對每個文字區塊呼叫 Lambda 函數來提取實體(例如公司或個人)及其與主實體的關係(客戶、供應商、合作夥伴、競爭對手或董事) 。
    5. 合併所有提取的資訊。
    6. 使用 Amazon Bedrock 過濾掉噪音和不相關的實體(例如「消費者」等通用術語)。
    7. 使用 Amazon Bedrock 透過使用擷取的資訊針對知識圖中的相似實體清單進行推理來消除歧義。如果該實體不存在,則插入它。否則,使用知識圖中已存在的實體。插入提取的所有關係。
    8. 透過刪除 SQS 佇列訊息和 S3 檔案進行清理。
  5. 使用者存取基於 React 的 Web 應用程式以查看補充實體、情緒和連結路徑資訊的新聞文章。
  6. 使用 Web 應用程序,使用者指定要監視的連線路徑上的躍點數(預設 N=2)。
  7. 使用 Web 應用程序,使用者指定要追蹤的實體清單。
  8. 要產生虛構新聞,用戶選擇 產生樣本新聞 產生 10 篇財經新聞文章樣本,其中的隨機內容將輸入到新聞攝取過程中。內容是使用 Amazon Bedrock 產生的,純粹是虛構。
  9. 要下載實際新聞,用戶選擇 下載最新消息 下載今天發生的頭條新聞(由 NewsAPI.org 提供支援)。
  10. 新聞檔案(TXT 格式)上傳到 S3 儲存桶。步驟8 和9 會自動將新聞上傳到S3 儲存桶,但您也可以建立與首選新聞提供者(例如AWS Data Exchange 或任何第三方新聞提供者)的集成,以將新聞文章作為文件放入S3 存儲桶中。新聞資料檔案內容的格式應為 <date>{dd mmm yyyy}</date><title>{title}</title><text>{news content}</text>.
  11. S3 事件通知將 S3 儲存桶或檔案名稱傳送至 Amazon SQS(標準),後者呼叫多個 Lambda 函數來並行處理新聞資料:
    1. 使用 Amazon Bedrock 提取新聞中提到的實體以及所提到實體的任何相關資訊、關係和情緒。
    2. 檢查知識圖並使用 Amazon Bedrock 透過使用新聞和知識圖中的可用資訊進行推理來識別相應的實體,從而進行消歧。
    3. 找到實體後,搜尋並返回連接到標記為的實體的任何連接路徑 INTERESTED=YES 在知識圖中,距離 N=2 跳以內。
  12. Web 應用程式每 1 秒自動刷新一次,以提取最新的一組已處理新聞以顯示在 Web 應用程式上。

部署原型

您可以部署原型解決方案並開始自行試驗。原型可從 GitHub上 並包括以下詳細資訊:

  • 部署先決條件
  • 部署步驟
  • 清理步驟

總結

這篇文章示範了一個概念驗證解決方案,可幫助投資組合經理檢測新聞事件中的二階和三階風險,而無需直接引用他們追蹤的公司。透過將複雜的公司關係的知識圖與使用產生人工智慧的即時新聞分析相結合,可以突出下游影響,例如供應商問題造成的生產延遲。

儘管它只是一個原型,但該解決方案展示了知識圖和語言模型連接點並從雜訊中獲取訊號的前景。這些技術可以透過關係映射和推理更快地揭示風險,從而幫助投資專業人士。總的來說,這是圖數據庫和人工智慧的一個有前途的應用,值得探索以增強投資分析和決策。

如果您的企業對金融服務中的生成式 AI 範例感興趣,或者您有類似的想法,請聯絡您的 AWS 客戶經理,我們將很高興與您進一步探索。


關於作者

黃軒 是 AWS 的高級解決方案架構師,居住在新加坡。他與主要金融機構合作,在雲端設計和建構安全、可擴展且高度可用的解決方案。工作之餘,Xan 的大部分空閒時間都與家人在一起,並受他 3 歲女兒的指揮。您可以在以下位置找到 Xan LinkedIn.

現貨圖片

最新情報

現貨圖片

和我們線上諮詢

你好呀!我怎麼幫你?