柏拉图数据智能。
垂直搜索和人工智能。

加密助记词正在转变为 AI 生成的问答艺术

日期:

Facebook 的母公司 Meta Platforms Inc 表示,它已经创造了一种人工智能,可以在流行的策略游戏“外交”的在线版本中超越人类,七名玩家通过在地图上四处移动棋子来争夺欧洲的地理控制权。

在 Science.com 上发表的一篇论文中,Meta 说 西塞罗 (Cicero) 是第一个在外交中实现人类水平表现的 AI 代理,外交是一种既有合作又有竞争的游戏,强调七名玩家之间的自然语言谈判和战术协调。

梅塔表示,在总共 40 场匿名在线外交游戏中,西塞罗取得了超过人类玩家平均分一倍以上的成绩,并且在参与超过一场游戏的参与者中排名前 10%。

这家领先的技术集团表示,这是其在人工智能领域的战略和长期目标的一部分,即构建可以用自然语言与人类进行计划、协调和协商的代理。

西塞罗有多重要?

Meta 说 Cicero 非常重要,因为人工智能依赖于非对抗性环境。

过去,多智能体 AI 的主要成功是在完全对抗的环境中,例如国际象棋、围棋和扑克,在这些环境中,交流没有价值,西塞罗采用了战略推理引擎和可控对话模块。

由于这些原因,meta 说外交已经成为多代理学习的一个具有挑战性的基准。

西塞罗将可控对话模块与战略推理引擎相结合。 在游戏的每一点,西塞罗都会根据游戏状态和他们的对话来模拟其他玩家可能采取的行动,元说。

然后,人工智能计划玩家如何协调以实现互惠互利,并将这些计划映射到自然语言信息中。

健康的不信任

西塞罗避免盲目相信其他参与者的建议,拒绝“预测价值”低且与自身利益平行的计划。

由于外交中的对话是在一对玩家之间私下进行的,西塞罗推理并分析了玩家在做出预测时可以获得的信息。

例如,如果西塞罗正在与盟友协调攻击对手,西塞罗对对手政策的预测必须考虑到对手不知道有意协调的事实,=梅塔说。

Meta 表示,在 40 年 19 月 13 日至 2022 月 XNUMX 日期间,它在 XNUMX 场人类玩家在线联盟的外交游戏中匿名进入西塞罗。

它说,在 72 小时的游戏过程中,发送了 5,277 条消息,西塞罗在玩了不止一场游戏的参与者中排名前 10%。

Meta 表示,它从 webDiplomacy.net 上在线玩的 125,261 场外交游戏中收集了数据。 在这些游戏中,共有 40,408 个游戏包含对话,玩家之间交换的消息总数为 12,901,662 条。

提示:“机器人在外交游戏中击败其他人”

提示:“机器人在外交游戏中击败其他人”(AI 生成)。

Meta 指出,它的新 AI 远非完美

西塞罗发送的消息包含错误,有时会与自己的计划相矛盾并犯下战略失误。

但 Meta 坚持认为,人类仍然选择与 AI 合作而不是与其他玩家合作,而没有意识到它是一个机器人。

“几乎所有以前的人工智能游戏突破都是在两人零和 (2p0s) 设置中进行的,包括国际象棋、围棋、单挑扑克和星际争霸。 在有限的 2p0s 游戏中,某些通过与自己对战来学习的强化学习 (RL) 算法——一个被称为自我博弈的过程——将收敛到一个在平衡游戏中预期无与伦比的策略,”Meta 在论文中补充道。 “换句话说,任何有限的 2p0s 游戏都可以通过具有足够计算和模型能力的自我博弈来解决。”

然而,Meta 表示,对于涉及合作的游戏,没有人类数据的自我博弈不再保证能够找到对人类表现良好的策略,即使具有无限的计算和模型容量,因为自我博弈代理可能会收敛到一个策略不符合人类的规范和期望。

西塞罗预计可能采取的行动

Meta 补充说,西塞罗根据棋盘和对话的状态预测每个玩家可能采取的行动,并将其作为使用 RL 训练模型的规划算法的起点。

该公司表示,人工智能使用战略推理模块来智能地选择意图和行动。

然后,该模块运行一个规划算法,根据游戏状态和对话预测所有其他玩家的策略,并考虑不同动作的强度及其在人类游戏中的可能性。 基于这些信息和变量,为西塞罗采取最佳行动。

在 Meta 的创始人兼首席执行官马克扎克伯格的领导下,该公司一直在大力投资人工智能和元宇宙,以利用被视为技术未来的快速发展的行业。

/元新闻

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?