Googleは、GeminiのAIを使用してロボットを訓練し、ロボットがナビゲートしてタスクを完了する能力を向上できるようにしている。 DeepMind のロボット工学チームは次のように説明しています。 新しい研究論文 AI モデルが処理できる情報量を制限する Gemini 1.5 Pro の長いコンテキスト ウィンドウにより、ユーザーは自然言語命令を使用して RT-2 ロボットとより簡単に対話できるようになります。
この技術は、家庭やオフィススペースなどの特定のエリアのビデオツアーを撮影することで機能し、研究者はGemini 1.5 Proソフトウェアを使用して、ロボットにビデオを「見て」環境について学習させます。 ロボットは、音声出力や視覚出力を使用して観察した内容に基づいてコマンドを実行できます。たとえば、携帯電話を見せて「どこで充電できますか?」と尋ねた後、ユーザーを電源コンセントに誘導するなどです。 DeepMindによると、同社のGemini搭載ロボットは、9,000平方フィート以上の動作領域で50以上のユーザー指示に対して90パーセントの成功率を達成したという。
研究者らはまた、Gemini 1.5 Proソフトウェアにより、ロボットが単純な誘導を超えた指示を実行する方法を計画できるようになったという「予備的証拠」も発見した。 たとえば、机の上にコーラの缶がたくさんあるユーザーがボットに自分の好きな飲み物はあるかどうか尋ねたとき、研究チームはジェミニは「ボットが冷蔵庫に移動し、コーラの缶があるかどうかを確認し、その後、ユーザーに戻って知らせてください。」 DeepMind は、これらの調査結果をさらに調査する予定であると述べています。
研究論文によると、Googleのビデオデモンストレーションは印象的だが、ボットが各リクエストを認識した後の鮮明なクリップには、それらの命令の処理に10秒から30秒かかることが隠されているという。 私たちがより高度な環境マッピングロボットと家を共有するまでにはしばらく時間がかかるかもしれませんが、少なくともこれらのロボットは私たちの紛失した鍵や財布を見つけることができるかもしれません。
“Analyst. Television trailblazer. Bacon fanatic. Internet fanatic. Lifetime beer expert. Web enthusiast. Twitter fanatic.”
More Stories
PS5 Proは数週間以内に発表されるのは確かのようだ
リークにより、疑惑のPS5 Proデバイスの名前とデザインが明らかに
Apple、最新の iOS アップデートで写真内の AI オブジェクト除去を導入