OpenAIは今週初めに、ほとんどのユーザーがGPT-4oの高度な音声機能にアクセスするには秋まで待たなければならないと発表したが、一部の幸運な人々は次世代音声アシスタントで何ができるのかを垣間見ることができたようだ。
レディットユーザー ロージー・ザ・クリエイター 彼は幸運な数少ないうちの一人でした。 彼らは、雷や足音などの物語に関連した音響効果を備えた、ホラーストーリーを語る、これまでに聞いたことのない新しい GPT-4o の音声の録音を共有しました。 アムネスティ・インターナショナル記者サンバフ・グプタ クリップは X で最初にハイライトされました、より広い注目を集めるために。
ロージーがアクセスできたのは間違いだったようだ。 OpenAI は声明で、一部のユーザーが誤ってモデルにアクセスしたと述べましたが、現在は修正されています。
流出したビデオでは何が聞こえるのでしょうか?
これまでに入手した高度な GPT-4o オーディオのビデオはすべて OpenAI の制御下にあり、見た目は素晴らしかったものの、カスタム ユースケースに限定されていました。
RozziTheCreator による新しいビデオでは、これまで聞いたことのない音響効果機能を含め、この能力をより自然な方法で披露しているようです。
RozziTheCreator にこの体験についてのメッセージを送ったところ、「それは突然現れました。見た目は同じで、唯一の違いはサウンドでした。」と言われました。 この発見は、RozziTheCreator がチャットボットに「変更を発見しました」という質問をしようとした深夜に起こりました。
ほんの数分しか続かず、RozziTheCreator によれば、「バグだらけ」だったため、多くをキャプチャする時間がありませんでしたが、この素晴らしいストーリーの一部を記録することに成功しました。
RozziTheCreator 氏によると、「私が言っていないことを繰り返したり、反応したりしておかしくなり始めた」とのことですが、その後、他の誰もが実際に使用できる通常の基本的な音声に戻りました。
ビデオでは、効果音をバックに GPT-4o が熱心かつ何気なくストーリーを語るのを聞くことができます。 「想像してみてください、この小さな町があり、誰もが誰もを知っていて、通りの突き当たりにこの小さな家があります」と彼は説明する。
物語は嵐の最中に「懐中電灯と携帯電話だけを持って」家の様子を確認していた2人の十代の若者について続く。
では、引き算の何が間違っていたのでしょうか?
OpenAI は、大量の新機能をゆっくりと展開しています。 Early Plus ユーザーは今月、高度な GPT-4o オーディオを入手できる予定でしたが、セキュリティ上の問題と、ハードウェア インフラストラクチャの準備が整っているかどうかに関する懸念により、延期されました。
RozziTheCreator がアクセスできるようになった原因を OpenAI に尋ねたところ、同社の広報担当者は「この機能をテストしているときに、誤って少数の ChatGPT ユーザーに招待状を送信してしまいました。これはバグでしたので修正しました。」と答えてくれました。
彼らは、来月には最初の数人の Plus ユーザーがアクセスできるようになるが、ほとんどの人にとってはさらに時間がかかることを確認しました。 彼らは、最初の展開は「フィードバックを収集し、学んだことに基づいて拡張を計画する」ことになると説明しました。
つまり、GPT-4o のサウンドはまだありませんが、これは GPT-4o がその制約を打ち破り、そのすべての機能を提供したいと考えていると思われる一連の例の最新のものです。 私は、彼がライブ オーディオ ファイルを 1 分間分析し、次の瞬間にコードを実行している例を個人的に見てきました。
これにより、私はその全機能にさらに興奮し、遅延にさらにイライラするようになりましたが、それは当然のことです。
トムのガイドの詳細
“Analyst. Television trailblazer. Bacon fanatic. Internet fanatic. Lifetime beer expert. Web enthusiast. Twitter fanatic.”
More Stories
PS5 Proは数週間以内に発表されるのは確かのようだ
リークにより、疑惑のPS5 Proデバイスの名前とデザインが明らかに
Apple、最新の iOS アップデートで写真内の AI オブジェクト除去を導入