昨年後半の登場以来、有料版は特に多くのアップデートがあったChatGPT。
GPT-3.5から大幅にアップグレードしたGPT-4は、ChatGPTをさらに便利にするサードパーティのサービスとプラグインでつなぐことができます。
今もまたChatGPTは進化しており、テキストベースの会話だけでなく、視覚と聴覚コンテンツの両方にサポートを広げようとしています。
先日OpenAIは、ChatGPTのこのような変更を発表しました。ChatGPT Plus(有料版)を使用していれば、ChatGPTに直接話しかけたり、チャットで画像を共有することができ、ChatGPTの利便性が向上する可能性があります。
描画ツールでChatGPTに聞きたい部分を強調し、画像の特定の部分について質問をすることができます。さらに、あなたの音声を理解するだけでなく、今やChatGPT自体の音声もあるので、実際に会話をすることもできます。
ChatGPTに画像を共有する
OpenAIは、この機能を紹介する動画の中で、自分の自転車のサドルを下げる方法がわからない場合を例に上げて見せています。
ChatGPTアプリを開き、自分の自転車の写真を添付し、ChatGPTに助けを求めてみましょう。
すると、サドルの下げ方の概要を教えてくれますが、さらに別の写真を付けて突っ込んだ質問をしたくなるかもしれません。
その場合は、別の写真を撮り(サドル部分のクローズアップなど)、ChatGPTがそこに注目しやすいように、サドルを固定しているロックの部分を丸で囲んであげましょう。
このOpenAIの事例動画によると、ChatGPTはバイクの様々なパーツを識別することができます。この部分が自転車のレバーなのかと聞いたら、ChatGPTは実際は緩めるのに六角レンチが必要なボルトだと答えます。
しかし、それよりもさらに驚きなのが、自転車の取扱説明書と、自分の家の用具箱の中身を一緒に共有し、自転車のサドルを下げるのに必要なツールはあるかを聞くことができるのです。ChatGPTは画像を解析し、それから判定します。
必要なツールがあれば、用具箱のどこにあるかを教えてくれます。
最後に、この事例動画のユーザーはChatGPTに感謝していました。AI企業は、未来のロボットを司る自分たちに対して、人々にもっと感謝して欲しいと思っているのではないか、という私の疑問をさらに裏付けるものでした。
この事例に留まらず、もっと様々な可能性が考えられます。
たとえば、冷蔵庫の中身の写真を撮って、ChatGPTに夕食の献立を考えてもらったり、建物の写真を送って、その建築の歴史について聞いたりすることもできます。
この機能は、PlusとEnterpriseのユーザーであれば、すべてのChatGPTのプラットフォームで使用でき、これから2週間以内には展開します。
ChatGPTと会話をする
もちろん、ChatGPTは今や画像が使えるだけでなく、音声を使うこともできます。2つ目の事例動画では、ユーザーがChatGPTに、OpenAIがDALL·E 3を紹介する動画で使った「super-duper sunflower hedgehog named Larry」というのは、どんなストーリーなのかを自分の声で聞いています。
そして、Larryについて少し紹介するところからはじめてほしいと言っています。当然、ChatGPTは、ユーザーがLarryの家はどんな感じかと聞く前に、Larryの紹介を創作して話します。まるでChatGPTが本物のストーリーテラーかのように、即興でやり取りが続きます。
この機能の秀逸なところは、テキストベースのチャットに比べて自然なところです。マイクボタンをタップして、いつでもChatGPTが話しているところに割り込むことができるので、ChatGPTが説明していることをもっと詳しく聞いたり、会話の矛先を完全に変えたりすることができます。
この「Voice」機能は、iOSとAndroidのChatGPTアプリのみで使用でき、これから2週間ほどでPlusとEnterpriseユーザーに展開していきます。
「Settings > New Features」に、この機能のオプションが表示されます。それから、右上のヘッドホンボタンをタップして、5つの音声の中から好きなものを選びます(OpenAIはこの機能で実際の声優を起用しています)
当然ながら、あらゆるAI機能に言えることですが、この2つの機能は完璧ではありませんし、これまで経験してきたのと同じように幻想を語る危険性もあります。
OpenAIは、その事実を十分認識しています。過激主義や科学的習熟度などの問題に対して、レッドチームと共に画像モデルのテストをしたり、 視覚障害者がスマホを使って“見る”ことを支援するアプリ「Be My Eyes」を使って、この機能を開発しました。
また、このモデルは人に関する結果を返す能力には限界があります