プラトンデータインテリジェンス。
バーティカルサーチ&アイ。

クリプト シード フレーズは AI 生成のクイズ アートに変換されています

日付:

Facebook の親会社である Meta Platforms Inc は、XNUMX 人のプレーヤーが地図上でピースを動かしてヨーロッパの地理的支配を競う人気戦略ゲーム Diplomacy のオンライン バージョンで、人間の裏をかくことができる AI を作成したと発表しました。

Science.com に掲載された論文で、Meta 氏は次のように述べています。 Cicero は、協力と競争の両方を含むゲームである Diplomacy で人間レベルのパフォーマンスを達成した最初の AI エージェントであり、自然言語による交渉と XNUMX 人のプレイヤー間の戦術的調整に重点を置いています。

メタ氏によると、匿名のオンライン ディプロマシー ゲーム 40 回で、シセロは人間のプレーヤーの平均スコアの 10 倍以上を達成し、複数のゲームをプレイした参加者の上位 XNUMX% にランクされました。

これは、自然言語で人間と計画、調整、交渉できるエージェントを構築するという、人工知能の分野における戦略的かつ長期的な目標の一部であると、主要なテクノロジー グループは述べています。

シセロはどれくらい重要ですか?

Meta は、AI が非敵対的環境に依存しているため、Cicero は非常に重要であると述べています。

マルチエージェント AI のこれまでの大きな成功が、チェス、囲碁、ポーカーなど、コミュニケーションに価値のない純粋に敵対的な環境であった過去とは異なり、Cicero は戦略的推論エンジンと制御可能な対話モジュールを採用しています。

これらの理由から、メタは、外交がマルチエージェント学習の挑戦的なベンチマークとして役立ったと述べています。

Cicero は、制御可能な対話モジュールと戦略的推論エンジンを結合します。 ゲームの各ポイントで、Cicero は、ゲームの状態と会話に基づいて、他のプレイヤーがどのように行動する可能性が高いかをモデル化します。  メタは言います。

次に AI は、プレーヤーが相互利益のためにどのように調整できるかを計画し、これらの計画を自然言語メッセージにマッピングします。

健全な不信感

シセロは、他のプレーヤーからの提案を盲目的に信頼することを避け、「予測価値」が低く、自分の利益と並行して実行される計画を拒否します。

ディプロマシーの対話はプレイヤーのペア間で非公開で行われるため、Cicero はプレイヤーが予測を行う際にアクセスできる情報を推論し、分析します。

たとえば、Cicero が味方と敵対者に対する攻撃を調整している場合、敵対者のポリシーに関する Cicero の予測は、敵対者が意図された調整を認識していないという事実を説明する必要があります。 メタは言った。

Meta は、40 年 19 月 13 日から 2022 月 XNUMX 日までの間に、人間のプレイヤーによるオンライン リーグの Diplomacy の XNUMX ゲームに匿名で Cicero に参加したと述べています。

72 通のメッセージを送信する 5,277 時間のプレイの過程で、Cicero は複数のゲームをプレイした参加者の上位 10% にランクされました。

Meta は、webDiplomacy.net でオンラインでプレイされた 125,261 の Diplomacy ゲームからデータを収集したと述べています。 これらのゲームのうち、合計 40,408 ゲームに対話が含まれ、合計 12,901,662 のメッセージがプレイヤー間で交換されました。

プロンプト: 「外交ゲームでロボットが他の人を打ち負かす」

プロンプト: 「外交ゲームでロボットが他の全員を打ち負かす」(AI 生成)。

メタノート、その新しい AI は完璧にはほど遠い

Cicero はエラーを含むメッセージを送信し、時には自身の計画と矛盾し、戦略的な失敗を犯しました。

しかしメタ氏は、それでも人間はAIがボットであることに気づかずに、他のプレイヤーよりもAIと協力することを選んだと主張している.

「チェス、囲碁、ヘッズアップ ポーカー、StarCraft など、ゲームにおけるこれまでのほとんどすべての AI ブレークスルーは、2 人プレイのゼロサム (0p2s) 設定で行われました。 有限の 0p2s ゲームでは、自分自身と対戦することによって学習する特定の強化学習 (RL) アルゴリズム (セルフプレイとして知られるプロセス) が、バランスの取れたゲームでの期待において無敵のポリシーに収束します」と Meta は論文に付け加えました。 「言い換えれば、有限の 0pXNUMXs ゲームは、十分な計算能力とモデル能力を備えたセルフプレイで解決できます。」

しかし、Meta は、協力を伴うゲームに関して、人間のデータを使用しないセルフプレイは、無限のコンピューティングとモデルの容量であっても、人間とうまく機能するポリシーを見つけることが保証されなくなったと述べました。人間の規範や期待と相容れない。

シセロはありそうな行動を予想している

Meta は、Cicero がボードの状態とダイアログに基づいて各プレイヤーの可能性のあるアクションを予測し、それを RL トレーニング モデルを使用した計画アルゴリズムの出発点として使用すると付け加えました。

AI は戦略的推論モジュールを使用して、意図と行動をインテリジェントに選択します。

次に、このモジュールは、ゲームの状態とダイアログに基づいて他のすべてのプレーヤーのポリシーを予測し、さまざまなアクションの強さと人間のゲームでの可能性の両方を説明する計画アルゴリズムを実行します。 この情報と変数に基づいて、Cicero にとって最適なアクションが実行されます。

Meta の創設者兼 CEO である Mark Zuckerberg の下で、同社は AI とメタバースに多額の投資を行っており、テクノロジーの未来と見なされている急成長中の業界を利用しています。

/メタニュース

スポット画像

最新のインテリジェンス

スポット画像