世界を変えるテクノロジー、人達を追う(本サイトでは、「アフィリエイト広告」を使用しています)

テクノロジーの羅針盤

AI ChatGPT

GPT-4 リリースいつ? 始め方・使い方・何ができるか比較 ChatGPT4とは? マルチモーダルモデル(テキスト、音声、画像、動画)

投稿日:2023年3月14日 更新日:

OpenAIから、GPT-4が発表された。 GPT-4(OpenAI)

始め方、使い方に関しては、現時点においても、以前に書いた記事のまま → ChatGPT(現在のバージョン)

GPT-4になって、ChatGPT Plus(20ドルの課金ユーザー)のうちの一部?のみがGPT4を使えるようになった模様。

また、期待が高かった画像に関しては、画像入力は、プレビューの段階。まだ、もう少し使えるまでに時間がかかる模様。

OpenAIが、発表した動画については、下記に
[日本語訳]GPT-4 何ができるの?

[日本語訳]GPT-4 紹介動画(イントロダクション)

主要な機能に関しては、次の章で記載しました

 

GPT-4で何ができるのか?

問題解決能力の飛躍的な進歩

GPT-4は問題解決能力の飛躍的な進歩です。 たとえば、ピラニアで満たされたタンクの内部をどのように清掃すればよいか尋ねることができます。 そして、役に立つ情報を提供してくれます。

以下が、GPT-4による答え。

 

ChatGPTの約8倍、最大25,000単語のテキストを生成

GPT-4は、非常に高度で洗練されています。ChatGPTの約8倍、最大25,000単語のテキストを生成でき、画像を理解して論理的なアイデアを表現することもできます。

主要なプログラミング言語でコードを書くことができる

主要なプログラミング言語でコードを書くことができます。

Write a python script to analyze my monthly purchases と打つだけで、以下のスクリプトを作ってくれる。しかも、使い方まで教えてくれる

 

入力された画像を理解し、洗練された方法で推論することができる

また、入力された画像を理解し、洗練された方法で推論することができます。(上記の写真を入力として、グローブを落とした時、何が起きる?といった質問に答えることができる。)

画像を理解して論理的なアイデアを表現

例えば、この画像の紐が切られた場合、風船が飛んでいくと教えてくれます

不当な使用、不要なコンテンツ、プライバシーへの配慮

不当な使用、不要なコンテンツ、プライバシーに関する問題に対して、長い時間をかけて改善を続けている。

教育分野のニーズを重視

に対して、

と問うと、

と答える。

 

始め方・使い方

始め方、使い方に関しては、現時点においても、以前に書いた記事のまま → ChatGPT(現在のバージョン)

 

発表されるGPT-4の予想

マルチモーダルモデル(multimodal models)がキーワードだ。(マルチモーダルAI)

テキスト、音声、画像、動画などという異なるデータから、出力が生成される。簡単に言うと、今までのチャットGPT(GPT3)では、言語(テキスト、音声)だけだったやりとり(返答)が、画像や動画も混在してくるということ。テキストから動画像が作られたりすることが、当たり前にできる時代がやってきそうだ。

〇〇な物語を作ってと、テキストで書くと、動画、画像、音声付きのAIが作った物語が作られたりするかも。

マルチモーダルモデルとは、複数のモダリティからのデータを処理し、分析するための機械学習モデル。

 

と予想していたが、まだ、簡単にそこまではいかないようだ。 画像の入力による推論が、入った程度(それもまだプレビューだ。)

始め方、使い方に関しては、発表前は、こちらを見ておいてください。→ ChatGPT(現在のバージョン)

スポンサーリンク

マイクロソフトのリリース発表は、Microsoft 365 Copilot だった。

マイクロソフトドイツのCTO(アンドレアス・ブラウン氏)のAIイベントでの発表によると、GPT-4が、3月16日に開催のマイクロソフトのAIイベント(Reinventing productivity: The Future of Work with AI)にて、発表される模様。3月16日午前8時(US時間)の模様

Reinventing productivity The Future of Work with AI(Microsoft news)

Join us for a special event with Satya Nadella and Jared Spataro to learn how Microsoft is reinventing productivity with AI.
The livestream starts at 8 am PT on March 16. Learn how AI will usher in a new way of working for every person and organization.

 

 

マルチモーダルモデル(multimodal models)とは?

マルチモーダルモデルとは、複数のモダリティ(modalities)からのデータを処理し、分析するための機械学習モデルのことです。例えば、テキスト、音声、画像、ビデオなど、複数のモダリティ(データ種別)から成り立ちます。これらのモデルは、自然言語処理(NLP)、コンピュータビジョン(CV)、音声認識など、機械学習の異なる分野の技術を組み合わせて、複雑なデータの処理を行います。

例えば、ビデオのキャプション(字幕)生成のためのマルチモーダルモデルは、ビデオのフレームから抽出された視覚的特徴と、それに付随するトランスクリプトからのテキスト特徴を使用して、正確で情報量の多いキャプションを生成することができます。

同様に、マルチモーダルチャットボットは、テキスト、音声、視覚的な入力からの情報を統合し、よりコンテキストに即した個人的な応答を提供することができます。

マルチモーダルモデルは、自然言語処理、コンピュータビジョン、ロボティクス、人間とコンピュータのインタラクションなどの様々な分野で、ますます人気が高まっています。これらは、画像やビデオのキャプション生成、音声認識、感情認識、機械翻訳などのタスクで有望な結果を示しています。

スポンサーリンク

GPT4とは?(現在のChatGPTの見解)

GPT-4は、現在のところ存在していない人工知能のモデルです。ただし、GPT-3はOpenAIによって開発された最新の自然言語処理(NLP)モデルであり、2020年6月に発表されました。

GPT-3は、1750億のパラメータを持ち、膨大な量のテキストデータを使用してトレーニングされました。GPT-3は、文章の生成、文章の翻訳、質問応答、文章の要約など、多岐にわたるNLPタスクに対応しています。GPT-3は、オンラインのテキスト編集やコミュニケーションツールでの利用、AIアシスタントの開発など、幅広いアプリケーションに使用されています。

GPT-4はまだ開発中であり、OpenAIや他の研究者たちは、より大きなデータセットとより高度なアルゴリズムを使用して、より優れた自然言語処理の能力を備えた次世代のAIモデルを目指しています。ただし、具体的なリリース日程は現時点では明らかにされていません

スポンサーリンク

新しい Bingで、使われているのは、GPT3.5? それともPrometheus=GPT4?

新しい Bing 体験は、次の 4 つの技術的ブレークスルーの集大成です:

  • 次世代の OpenAI モデル: 新しい Bing は、ChatGPT よりも強力で、検索専用にカスタマイズされた新しい次世代 OpenAI 大規模言語モデルで稼働していることを発表します。ChatGPT と GPT-3.5 における学びと技術進化を取り入れ、より速く、より正確で、より有能なモデルが実現されました。
  • Microsoft Prometheus モデルマイクロソフトは、OpenAI モデルの力を最大限に発揮できるよう、独自の方法を開発しました。この機能と技術の集合体を Prometheus モデルと呼んでいます。この組み合わせにより、より関連性が高く、タイムリーで、的を射た結果が提供されると共に、安全性も向上しています。
  • コア検索アルゴリズムへの AI 適用: また、Bing の検索ランキングエンジンのコア機能に AI モデルを適用し、過去 20 年間で最大の関連性の向上を実現しました。この AI モデルにより、基本的な検索クエリにおいても、より正確で、より適切な検索が可能になります。
  • 新たなユーザーエクスペリエンス: マイクロソフトは、検索、ブラウザ、チャットの統一的な体験により、コンピューターとのやり取りの仕方を再構築します。これによって、ウェブとのまったく新しい対話方法が実現されます。

スポンサーリンク

ChatGPT が Azure OpenAI Service で利用可能に

2023年3月10日(日本)、マイクロソフトは、ChatGPT のプレビュー版が、Azure OpenAI Service において利用可能になったことを発表した。Azure OpenAI Service では、1,000 社以上のお客様が、Dall-E 2、GPT-3.5、Codex といった最先端の AI モデル、そして、Azure 独自のスーパーコンピューティングとエンタープライズ級機能に支えられた大規模言語モデルを適用して、新たな方法でイノベーションを実現しています。

ChatGPT は昨年末に導入されて以来、コンテンツの要約、メールのドラフト作成、さらにはプログラミングに関するサポートなど、さまざまな用途で活用されています。今回、Azure OpenAI Service 内で ChatGPT のプレビュー版が提供されたことで、開発者は独自の AI 機能に基づく体験を自社のアプリケーションに直接的に統合できるようになりました。たとえば、既存のボットを強化して予期せぬ質問に対応できるようにする、コールセンターの会話をサマリーしてお客様の問い合わせを迅速に解決する、パーソナライズされたオファーで新しい広告コピーを作成する、クレーム処理を自動化することなどが考えられます。また、コグニティブサービスを Azure OpenAI と組み合わせることで、企業にとって魅力的なユースケースを創出できます。たとえば、対話によって企業データの知識ベースを検索するために Azure OpenAI と Azure Cognitive Search との組み合わせを活用した事例を参照ください。

お客様は、ChatGPT を本日から利用できます。料金は、1,000 トークンあたり 0.002 ドルです。すべての ChatGPT 利用への課金は 3 月 13 日から始まります。

ChatGPT が Azure OpenAI Service で利用可能

 

出典:マイクロソフト、ChatGPT

-AI, ChatGPT

Copyright© テクノロジーの羅針盤 , 2024 All Rights Reserved.