Gemini、AI クライアント、Pixel 4 の新しい Google アシスタント

最近、AI エージェントがコマンドを受け取り、携帯電話上で必要なタップやスワイプなどのタスクを実際に実行するという話題が増えています。 AI エージェントの構築に関するこの話は、2019 年に Pixel 4 とともに発表された「新しい Google アシスタント」をよく思い出させます。

I/O 2019 で、Google はこの次世代アシスタントをデビューさせました。その仮説は、デバイス上の音声処理によって「携帯電話の電源を入れるためにタップする操作がほとんど遅く感じられる」というものでした。

Googleは、アプリケーションを開いて制御することを含む単純なコマンドを示しましたが、より複雑なアイデアは、「デバイスの内蔵アシスタントがアプリケーション間でタスクをどのように調整できるか」でした。この例では、受信テキストを受信し、音声で応答し、その後、付随する画像を検索して送信するというアイデアを思いつきました。「実行」および「マルチタスク」機能は、Gmail の自然言語「作成」機能によって完成されます。

この次世代アシスタントを使用すると、音声で携帯電話を瞬時に操作したり、アプリ間でマルチタスクを実行したり、複雑なアクションを完了したりすることが、すべて実質的にゼロの遅延で可能になります。

新しいアシスタントはその年の後半に Pixel 4 でリリースされ、その後のすべての Google デバイスで利用できるようになりました。

「自撮りをしてください。」次に、「これをライアンと共有してください」と言います。
会話スレッドで、「返信してください。向かっています」と言います。
「YouTube でヨガのクラスを見つけてください。」次に、「これをお母さんと共有してください」と言います。
「Gmail でミシェルからのメールを見せてください。」
Google フォトアプリが開いているときに、「ニューヨークの写真を見せて」と言います。次に、「セントラルパークにあるもの」と言います。
Chrome でレシピサイトを開いているときに、「チョコレートナッツマフィンを検索して」と言うことができます。
旅行アプリが開いているときに、「パリのホテル」と言います。

これが AI エージェントの基本的な考え方です。先月行われたAlphabetの決算会見で、Sundar Pichai氏はアシスタントに対する生成AIの影響について質問された。同氏は、これによりGoogleアシスタントが「時間の経過とともにプロキシとして機能」し、「答えを超えてユーザーを追跡」できるようになるだろうと述べた。

によると情報今週、OpenAI は ChatGPT プロキシに取り組んでいます。

「この取り組みに詳しい関係者によると、こうした種類のリクエストは、クリック、カーソルの移動、テキスト入力、その他人間がさまざまなアプリケーションを操作するときに行うアクションをエージェントに促すことになる。」

次に、既存のモバイルおよびデスクトップインターフェイスと対話して特定のタスクを完了するようにトレーニングされた Large Action Model (LAM) Rabbit があります。

2019年にGoogleアシスタントによって導入されたバージョンは、非常に事前にプログラムされているようで、ユーザーが自然に話してからそのアクションを自動的に強調表示するのではなく、特定のフレーズをコミットする必要がありました。当時Googleは、アシスタントが「多くのアプリとシームレスに連携」し、「今後もアプリの統合を改善し続ける」と述べた。私たちの知る限り、このようなことは一度も起こったことはありませんが、Google が実証した機能の一部は、アプリケーションの変更により動作しなくなりました。真のエージェントは、設定された条件に依存するのではなく、適応することができます。

昨年 Google Research が「大規模な言語モデルを使用してモバイル UI との会話型対話を可能にする」。

Google の調査によると、彼らのアプローチは「モバイル UI の意図を迅速に理解」できることがわかっています。

興味深いことに、LLM の学生は概要を作成する際に、事前の知識を利用して、ユーザーインターフェイスに表示されていない情報を推測していることが観察されました。以下の例では、LLM は地下鉄の駅がロンドンの地下鉄システムに属していると推測していますが、入力 UI にはこの情報が含まれていません。

また、ユーザーインターフェイスに表示されるコンテンツに関する質問に答え、自然言語の指示を受け取った後に制御することもできます。

Android デバイス用の Gemini AI エージェントは、携帯電話の新しい使用方法を提供するオールインワンアシスタントに対する Google の最初の、これまでに発見されたことのない試みの自然な進化です。ただし、メッセージへの返信をコピーして、Gboard アシスタントの音声入力で直接「送信」と言える機能もあります。

これまでの取り組みは、Googleがアイデアを出すのが遅れ、必要な技術を持っていなかったことが原因とみられる。ここまで来たら、Google はこの取り組みを優先して、追いつくのではなく、この分野をリードできるようにするのが賢明でしょう。

FTC: 私たちは収入を得るために自動アフィリエイトリンクを使用しています。 もっと。

Fujii Aoi

“Analyst. Television trailblazer. Bacon fanatic. Internet fanatic. Lifetime beer expert. Web enthusiast. Twitter fanatic.”

READ Samsung Camera Assistant がついに多くの Galaxy デバイスに対応

Gemini、AI クライアント、Pixel 4 の新しい Google アシスタント

悪魔城ドラキュラドミナスコレクションの物理的なリリースが決定、予約注文は来月開始

Microsoftは最新のWindows 11アップデートでRyzen CPUのパフォーマンスを向上させています

バービー人形がスマートフォン依存症を克服できると企業が主張

マイク・リンチのヨット沈没に関する最新ニュース: 乗組員2名が調査を受ける中、船長は質問に答えることを拒否

RIIZEの来日公演がソールドアウト

ゼネラルモーターズとサムスン、インディアナ州に35億ドルをかけて電気自動車用バッテリー工場を建設することで合意

アダム・サンドラー、テイラー・スウィフトの恋人トラヴィス・ケルシーとの関係についてのコメントで「汗だく」

コメントを残す コメントをキャンセル

More Stories

悪魔城ドラキュラ ドミナス コレクションの物理的なリリースが決定、予約注文は来月開始