Google DeepMindは、テキストや画像から多様な3D仮想世界を生成する新たなAI「Genie 2」を発表しました。
このニュースのポイント
- Google DeepMindは、テキストや画像から新しいコンテンツを生成し多様な視点からビデオを生成する「Genie 2」を発表
- ユーザーはテキストで要望を伝えることで、そのアイデアに基づいたシミュレーションに参加可能に
- 「Genie 2」は、ユーザーのキーボード操作に基づくキャラクターの識別・移動機能や視界外情報の再現能力を持つ
米Google傘下のGoogle DeepMindは、テキストや画像から多様な3D仮想世界を生成する新たなAI「Genie 2」を発表しました。この基盤世界モデルは、エージェントのトレーニングと評価のために、無限にアクション制御可能でプレイ可能な3D環境を生成することができます。
また、ユーザーは単一のプロンプト画像に基づいて、キーボードとマウスを使用して人間またはAIエージェントがプレイできる環境を楽しむことができます。
「Genie 2」は、ユーザーのキーボード操作に基づくキャラクターの識別・移動機能や視界外情報の再現能力を持ち、新しいコンテンツを生成し多様な視点からビデオを生成できるツールです。生成できるのは1分間のみです。
これにより、新しいトレーニング環境が提供され、未来のエージェントは無限のカリキュラムで学習や評価が可能になるほか、リアルな物理法則やNPCの行動をシミュレートした仮想世界を生成することもできます。
さらに、現実世界の画像を使って自然な動きをモデル化した3Dワールドを生成します。様々なアクションの結果をシミュレートし、大規模なビデオデータセットでトレーニングされ、オブジェクトの相互作用やキャラクターアニメーション、物理学を予測する機能が搭載されています。
また、ユーザーはテキストで要望を伝えることで、そのアイデアに基づいたシミュレーションに参加できます。Google DeepMindがゲーム開発者と共同で開発したAIエージェント「SIMA」を活用した例では、Genie 2を使用して、青いドアと赤いドアの2つがある3D環境を生成し、SIMAエージェントにそれぞれのドアを開くように指示する実験が行われました。
「青いドアを開けてください」というプロンプトを入力
この実験では、SIMAはキーボードとマウス入力でアバターを操作し、Genie 2がゲームフレームを生成しました。
また、SIMAはGenie 2の機能を評価するためにも使用できます。ここでは、SIMA に周囲を見回して家の裏を探索するように指示することで、一貫した環境を生成するGenie 2の能力をテストしています。
「振り向いてください」というプロンプトを入力
Google DeepMindは「研究は初期段階であり、生成機能の改善に注力しています。また、SIMAと同様に、オンラインおよび現実の人々に役立つ一般的なAIシステムとエージェントの構築を目指しています」とコメントしています。
The post Google DeepMind、新たな基盤世界モデル「Genie 2」を発表。テキストや画像から多様な3D仮想世界を生成 first appeared on AIポータルメディアAIsmiley.