柏拉图数据智能。
垂直搜索和人工智能。

使用 Amazon Bedrock 和 Amazon Neptune 发现非结构化财务数据中的隐藏联系 |亚马逊网络服务

日期:

在资产管理中,投资组合经理需要密切监控其投资范围内的公司,以识别风险和机会,并指导投资决策。跟踪收益报告或信用降级等直接事件非常简单 - 您可以设置警报以通知经理包含公司名称的新闻。然而,检测供应商、客户、合作伙伴或公司生态系统中其他实体的事件所产生的二阶和三阶影响具有挑战性。

例如,主要供应商的供应链中断可能会对下游制造商产生负面影响。或者大客户失去顶级客户会给供应商带来需求风险。通常,此类事件无法直接成为受影响公司的头条新闻,但仍然值得关注。在这篇文章中,我们演示了一种结合知识图谱和 生成人工智能(AI) 通过将关系图与实时新闻交叉引用来揭示此类风险。

概括地说,这需要两个步骤:首先,将公司(客户、供应商、董事)之间复杂的关系构建到知识图谱中。其次,使用该图形数据库以及生成式人工智能来检测新闻事件的二阶和三阶影响。例如,该解决方案可以强调零件供应商的延误可能会扰乱产品组合中下游汽车制造商的生产,尽管没有直接引用。

借助 AWS,您可以在无服务器、可扩展且完全事件驱动的架构中部署此解决方案。这篇文章演示了基于两个非常适合图形知识表示和自然语言处理的关键 AWS 服务构建的概念验证: 亚马逊海王星亚马逊基岩。 Neptune 是一种快速、可靠、完全托管的图形数据库服务,可以轻松构建和运行与高度连接的数据集一起使用的应用程序。 Amazon Bedrock 是一项完全托管的服务,通过单个 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon 等领先 AI 公司的高性能基础模型 (FM) 的选择,以及广泛的构建具有安全性、隐私性和负责任的人工智能的生成式人工智能应用程序的能力。

总的来说,这个原型展示了知识图谱和生成人工智能的艺术——通过连接不同的点来导出信号。投资专业人士的收获是能够在更接近信号的情况下掌握发展动态,同时避免噪音。

构建知识图谱

该解决方案的第一步是构建知识图谱,而知识图谱的一个有价值但经常被忽视的数据源是公司年报。由于官方公司出版物在发布前经过审查,因此其中包含的信息可能是准确可靠的。然而,年度报告以非结构化格式编写,适合人类阅读而不是机器消费。为了释放它们的潜力,您需要一种方法来系统地提取和构建它们所包含的丰富的事实和关系。

借助 Amazon Bedrock 等生成式 AI 服务,您现在能够自动化此过程。您可以获取年度报告并触发处理管道来提取报告,将其分解为更小的块,并应用自然语言理解来提取显着的实体和关系。

例如,如果句子“[公司 A] 通过向 [公司 B] 订购 1,800 辆电动货车扩大了其欧洲电动送货车队”,则 Amazon Bedrock 可以识别以下内容:

  • [A公司]作为客户
  • [B公司]作为供应商
  • [公司 A] 和 [公司 B] 之间的供应商关系
  • “电动送货车供应商”的关系详情

从非结构化文档中提取此类结构化数据需要向大型语言模型 (LLM) 提供精心设计的提示,以便他们可以分析文本以提取公司和人员等实体,以及客户、供应商等关系。提示包含关于要注意的内容以及返回数据的结构的明确说明。通过在整个年度报告中重复此过程,您可以提取相关实体和关系以构建丰富的知识图谱。

然而,在将提取的信息提交到知识图之前,您需要首先消除实体的歧义。例如,知识图中可能已经存在另一个“[公司 A]”实体,但它可能代表具有相同名称的不同组织。 Amazon Bedrock 可以推理和比较业务重点领域、行业和创收行业以及与其他实体的关系等属性,以确定这两个实体是否确实不同。这可以防止不相关的公司错误地合并为一个实体。

消歧完成后,您可以可靠地将新实体和关系添加到您的 Neptune 知识图中,并使用从年度报告中提取的事实来丰富它。随着时间的推移,可靠数据的摄取和更可靠数据源的集成将有助于构建全面的知识图谱,该知识图谱可以支持通过图查询和分析来揭示见解。

这种由生成式人工智能实现的自动化使得处理数千份年度报告成为可能,并为知识图谱管理释放了宝贵的资产,否则,由于需要大量的人工工作,这些资产将无法得到利用。

以下屏幕截图显示了使用 Neptune 图形数据库进行可视化探索的示例 图表浏览器 工具。

处理新闻文章

该解决方案的下一步是自动丰富投资组合经理的新闻源并突出显示与其兴趣和投资相关的文章。对于新闻源,投资组合经理可以通过订阅任何第三方新闻提供商 AWS数据交换 或他们选择的其他新闻 API。

当新闻文章进入系统时,会调用摄取管道来处理内容。使用与年度报告处理类似的技术,Amazon Bedrock 用于从新闻文章中提取实体、属性和关系,然后用于消除知识图谱中的歧义,以识别知识图谱中的相应实体。

知识图谱包含公司和人员之间的联系,通过将文章实体链接到现有节点,您可以识别是否有任何主题位于投资组合经理已投资或感兴趣的公司的两跳范围内。找到这样的连接表明文章可能与投资组合经理相关,并且由于基础数据以知识图的形式表示,因此可以将其可视化,以帮助投资组合经理理解此上下文为何以及如何相关。除了识别与投资组合的连接之外,您还可以使用 Amazon Bedrock 对引用的实体执行情绪分析。

最终输出是丰富的新闻提要,其中包含可能影响投资组合经理的兴趣和投资领域的文章。

解决方案概述

该解决方案的整体架构如下图所示。

工作流程包括以下步骤:

  1. 用户将正式报告(PDF 格式)上传至 亚马逊简单存储服务 (亚马逊 S3)存储桶。这些报告应该是正式发布的报告,以尽量减少将不准确的数据纳入您的知识图中(而不是新闻和小报)。
  2. S3 事件通知调用 AWS Lambda 函数,它将 S3 存储桶和文件名发送到 Amazon Simple Queue服务 (亚马逊 SQS)队列。先进先出 (FIFO) 队列确保报告摄取过程按顺序执行,以减少将重复数据引入知识图谱的可能性。
  3. An 亚马逊EventBridge 基于时间的事件每分钟运行一次以开始运行 AWS步骤功能 异步状态机。
  4. Step Functions 状态机运行一系列任务,通过提取关键信息并将其插入到知识图中来处理上传的文档:
    1. 从 Amazon SQS 接收队列消息。
    2. 从 Amazon S3 下载 PDF 报告文件,将其拆分为多个较小的文本块(大约 1,000 个单词)进行处理,并将文本块存储在 Amazon DynamoDB.
    3. 在 Amazon Bedrock 上使用 Anthropic 的 Claude v3 Sonnet 处理前几个文本块,以确定报告所指的主要实体以及相关属性(例如行业)。
    4. 使用 Amazon Bedrock 从 DynamoDB 检索文本块,并针对每个文本块调用 Lambda 函数来提取实体(例如公司或个人)及其与主实体的关系(客户、供应商、合作伙伴、竞争对手或董事) 。
    5. 合并所有提取的信息。
    6. 使用 Amazon Bedrock 过滤掉噪音和不相关的实体(例如“消费者”等通用术语)。
    7. 使用 Amazon Bedrock 通过使用提取的信息针对知识图中的相似实体列表进行推理来消除歧义。如果该实体不存在,则插入它。否则,使用知识图中已存在的实体。插入提取的所有关系。
    8. 通过删除 SQS 队列消息和 S3 文件进行清理。
  5. 用户访问基于 React 的 Web 应用程序以查看补充有实体、情绪和连接路径信息的新闻文章。
  6. 使用 Web 应用程序,用户指定要监视的连接路径上的跃点数(默认 N=2)。
  7. 使用 Web 应用程序,用户指定要跟踪的实体列表。
  8. 要生成虚构新闻,用户选择 生成样本新闻 生成 10 篇财经新闻文章样本,其中的随机内容将被输入到新闻摄取过程中。内容是使用 Amazon Bedrock 生成的,纯属虚构。
  9. 要下载实际新闻,用户选择 下载最新消息 下载今天发生的头条新闻(由 NewsAPI.org 提供支持)。
  10. 新闻文件(TXT 格式)上传到 S3 存储桶。步骤 8 和 9 会自动将新闻上传到 S3 存储桶,但您也可以构建与首选新闻提供商(例如 AWS Data Exchange 或任何第三方新闻提供商)的集成,以将新闻文章作为文件放入 S3 存储桶中。新闻数据文件内容的格式应为 <date>{dd mmm yyyy}</date><title>{title}</title><text>{news content}</text>.
  11. S3 事件通知将 S3 存储桶或文件名发送到 Amazon SQS(标准),后者调用多个 Lambda 函数来并行处理新闻数据:
    1. 使用 Amazon Bedrock 提取新闻中提到的实体以及所提到实体的任何相关信息、关系和情绪。
    2. 检查知识图并使用 Amazon Bedrock 通过使用新闻和知识图中的可用信息进行推理来识别相应的实体,从而进行消歧。
    3. 找到实体后,搜索并返回连接到标记为的实体的任何连接路径 INTERESTED=YES 在知识图中,距离 N=2 跳以内。
  12. Web 应用程序每 1 秒自动刷新一次,以提取最新的一组已处理新闻以显示在 Web 应用程序上。

部署原型

您可以部署原型解决方案并开始自行试验。原型可从 GitHub上 并包括以下详细信息:

  • 部署先决条件
  • 部署步骤
  • 清理步骤

总结

这篇文章演示了一个概念验证解决方案,可帮助投资组合经理检测新闻事件中的二阶和三阶风险,而无需直接引用他们跟踪的公司。通过将复杂的公司关系的知识图与使用生成人工智能的实时新闻分析相结合,可以突出下游影响,例如供应商问题造成的生产延迟。

尽管它只是一个原型,但该解决方案展示了知识图和语言模型连接点并从噪声中获取信号的前景。这些技术可以通过关系映射和推理更快地揭示风险,从而帮助投资专业人士。总的来说,这是图数据库和人工智能的一个有前途的应用,值得探索以增强投资分析和决策。

如果您的企业对金融服务中的生成式 AI 示例感兴趣,或者您有类似的想法,请联系您的 AWS 客户经理,我们将很高兴与您进一步探索。


关于作者

黄轩 是 AWS 的高级解决方案架构师,居住在新加坡。他与主要金融机构合作,在云中设计和构建安全、可扩展且高度可用的解决方案。工作之余,Xan 的大部分空闲时间都与家人在一起,并受他 3 岁女儿的指挥。您可以在以下位置找到 Xan LinkedIn.

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?