生成AIに強みを持つベトナムオフショア開発
​株式会社スクーティー
お役立ち資料
生成AIに強みを持つベトナムのオフショア開発|株式会社スクーティー
  • Home
  • Services
    • オフショア開発/ラボ型開発サービス
    • 生成AIコンサルティングサービス >
      • ChatGPTラボ型開発サービス
    • ベトナムエンジニアの日本客先常駐開発(SES)サービス
    • ベトナム進出支援サービス
    • ベトナム視察ツアー
    • サーバ構築・運用保守ラボサービス
  • Solutions
    • AI文書読み取りサービス
    • AI記事制作代行サービス
    • Dify導入支援サービス
  • News
  • About
  • Blog
  • Download
  • Contact
  • Home
  • Services
    • オフショア開発/ラボ型開発サービス
    • 生成AIコンサルティングサービス >
      • ChatGPTラボ型開発サービス
    • ベトナムエンジニアの日本客先常駐開発(SES)サービス
    • ベトナム進出支援サービス
    • ベトナム視察ツアー
    • サーバ構築・運用保守ラボサービス
  • Solutions
    • AI文書読み取りサービス
    • AI記事制作代行サービス
    • Dify導入支援サービス
  • News
  • About
  • Blog
  • Download
  • Contact

ブログ

5/17/2024

【とにかくすごい】GPT-4oとは?最新モデルと新機能のまとめ

 
【とにかくすごい】GPT-4oとは?最新モデルと新機能のまとめ
こんにちは、スクーティー代表のかけやと申します。
​
弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。
​

​OpenAI社が2024/05/13に発表した最新のAIモデル「GPT-4o(読み方:ジーピーティーフォーオー)」は、従来のGPT-4 Turboをさらに進化させ、ベンチマークが圧倒的に向上し、レスポンスが驚くほど速くなりました。

これにより、ユーザーとのやり取りがよりスムーズになり、リアルタイムでの会話が可能になっています。また、教育やビジネス、日常生活での応用が期待されており、AIの未来を形作る重要な一歩となっています。

​この記事では、GPT-4oの性能がどのように進化したか、そして、どのような機能が追加されたかについて解説し、どのような新しい体験が提供できるかを掘り下げます。控えめに言ってやばいです・・・!

目次

  • GPT-4oの進化と特性
  • GPT-4oのパフォーマンス評価
  • GPT-4oの応用事例
  • GPT-4oが意味する未来とは?
スクーティーの生成AIコンサルティングサービス
本題に入る前に、生成AIとは何か?ChatGPTとは何か?を確認しておきたい方は、下記の記事を御覧ください。
  • 【生成AI入門】わかりやすく解説:テキストと画像生成の世界
  • 【ChatGPT入門ガイド】生成AIがもたらす新たな価値

​GPT-4oの進化と特性

GPT-4oの概要

GPT-4oは、OpenAIによって開発された最新のAIモデルで、従来のモデルに比べて大幅に進化しています。このモデルは「オムニ」を意味する「o」が示す通り、テキスト、画像、音声といった多様なメディアを理解し、処理する能力を持っています。

GPT-4oのすごい点を簡単にまとめると、以下のようになります。
  • 精度爆上がり。ベンチマークの結果は圧倒的。
  • レスポンス速度がGPT-4 turboの2倍
  • 音声での入出力が非常になめらか
  • API使用料がGPT-4 turboの半分
  • Rate limit(使用制限)がGPT-4 turboの5倍
  • いろいろな機能が無料開放

GPT-4oはGPT-4 turboと比べてどのように進化したか

​◉感情表現が可能に
Whisper(Sound to Text)、GPT-4 Turbo、TTS(Text to Sound)をパイプラインで組み合わせた以前のOpenAIのシステムでは、推論エンジンのGPT-4は話し言葉にしかアクセスできませんでした。

この方式では、声のトーンや背景の雑音、複数の話者による音声の知識などは単純に捨てられていたようです。そのため、GPT-4 turboは、感情や話し方の違いによる反応を表現することができませんでした。

しかし、GPT-4oはテキストと音声を推論できる単一のモデルを持つことで、豊富な音声情報を使用して、感情表現豊かな応答を可能にしています。
笑ったり(僕はこのジョークの何が面白いのか理解できなかったので笑うことができませんでした😂)、
​歌ったり。これで十分お腹いっぱいですが。。。まだまだ多くの進化を見せてくれます。
◉ほぼリアルタイムな会話を実現
既存の言語モデルでは、ChatGPTに話しかけてから返答を得るまでにわずかな遅延がありました。

OpenAIの発表によると、Voiceモードの平均レイテンシはGPT-3.5で2.8秒、GPT-4で5.4秒。一方、GPT-4oの平均待ち時間は0.32秒で、GPT-3.5の9倍、GPT-4の17倍速いです。

GPT-4oの平均待ち時間は0.32秒というのは、人間の平均応答時間(0.21秒)にかなり近い数字のため、人間と人間が会話をするのとあまり違いを感じない位の体験を得ることができるということになります。

GPT-4oの待ち時間の短縮によって実現可能性が高まるユースケースのひとつに、音声のリアルタイム翻訳があります。実際、OpenAIは英語⇔スペイン語の同時通訳(実際は通訳の出力を待っているので「同時」ではありませn)のデモを公開しています。
かなり実用的な通訳。弊社でも使えそうです。
◉カメラ映像の解析
音声とテキストの統合に加え、GPT-4oは画像とビデオ機能を搭載しています。つまり、デスクトップアプリを介してPCの画面にアクセスさせれば、画面に映し出されたものを理解、説明したり、画面上の画像に関する質問に答えたり、作業のアシスタントとして振る舞うことができます。

下記のデモは、数学の宿題を​GPT-4oが先生のように教えてくれるというものです。この仕組みを活用してリモートでの個性に合わせた教育が進みそうです。
AIの先生と会話しながら人間が学習を進める。とんでもない未来世界ですが、これが今起きていると思うと震えます。
◉他にも盛りだくさん!
「他にも」とまとめていいような内容では全然無いのですが、全部書いていると記事が長くなりそうなので、箇条書きでまとめたいと思います。
  • 非ローマ字アルファベットのトークン化改善:GPT-4oはトークン化モデルが改善され、非ローマ字アルファベットの言語で必要なトークン数が減少。これは通常のChatGPT利用時にはあまり関係ありませんが、API使用料はトークン数に依存するためインパクトが大きいです。つまり、API使用料が安くなります。例えば、インドの言語(ヒンディー語、マラーティー語、タミル語、テルグ語、グジャラート語)は2.9~4.4倍、アラビア語は2倍、東アジアの言語(中国語、日本語、韓国語、ベトナム語)は1.4~1.7倍の削減を達成。
  • 無料プランで使える機能が拡充:従来は有料プランのみだったGPT-4が無料プランでも使用できます(ただし、回数制限あり)。また、他にも画像解析やGPTsなども無料プランでも使用できるようになったようです。これは便利!
  • ChatGPTデスクトップアプリのリリース:GPT-4oとは関係ありませんが、Mac版のデスクトップアプリも同時に発表されました。Windows版はまだのようです。これによって、MacのPCに表示されている情報をもとにAIに質問したりできます。以下のデモは、プログラミングの様子です。
​AIとペアプロが普通の時代になりそうです。これからはオフィスでみんながPCに向かって独り言をつぶやくのが普通になる時代が来るのでしょうか・・・

GPT-4oのパフォーマンス評価

GPT-4oのテキスト評価

OpenAIが発表したベンチマーク結果によると、GPT-4oは、以前のGPT-4や、AnthropicのClaude 3 Opus、GoogleのGemini、MetaのLlama3といった他のLMMと比較して、テキストについては若干の改善、あるいは同等のスコアを示しています。

※比較対象にLlama 3 400Bがなぜか含まれていますが、このモデルはまだ正式にローンチされていません。
GPT-4oと他の主要モデルのベンチマーク比較
出典: https://openai.com/index/hello-gpt-4o/
ちなみに各評価項目の意味は下記のようになります。
  • 大規模マルチタスク言語理解(MMLU):初等数学、米国史、コンピュータサイエンス、法律などに関するタスク。このテストで高い精度を達成するためには、モデルが幅広い世界の知識と問題解決能力を持っている必要がある。
  • 大学院レベルのGoogle-Proof Q&A (GPQA):生物学、物理学、化学の各分野の専門家による多肢選択問題。問題は質が高く、非常に難しい。対応するドメインの博士号を持っているか、取得を目指している専門家は、74%の精度を達成している。
  • 数学 (MATH):数学中学・高校の数学の問題集。
  • HumanEval:コンピュータプログラムの機能的な正しさのテストで、コード生成のチェックに使われる。
  • Multilingual Grade School Math (MSGM):ベンガル語やスワヒリ語などの代表的でない言語を含む10ヶ国語に翻訳された小学校の数学の問題集。
  • Discrete Reasoning Over Paragraphs (DROP):完全な段落を理解する必要のある問題。例えば、複数の文にまたがる値を足したり、数えたり、並べ替えたりする。

GPT-4oの音声関連機能

OpenAI発表のベンチマーク結果によると、GPT-4oは、自動音声認識(ASR)におけるこれまでの最先端であったOpenAI独自のWhisper-v3を上回る精度がでています。以下の図は自動音声認識(ASR)の精度について、Wisper-v3とGPT-4oを比較したものです。薄いオレンジがGPT-4oで、縦軸は単語エラー率なので低いほうがいい、というデータになります。
GPT-4oの自動音声認識(ASR)精度
出典: https://openai.com/index/hello-gpt-4o/
下記の図はモデルごとに翻訳の精度を比較したものです。GPT-4oは、GoogleのGeminiよりややいい結果となっており、全言語モデルの中でもトップの精度を出しています。
GPT-4oの翻訳の精度、他モデルとの比較
出典: https://openai.com/index/hello-gpt-4o/

GPT-4oの視覚理解能力

こちらもOpenAI発表の視覚認識ベンチマーク結果では、GPT-4oは最先端の性能を達成しています。
GPT-4oの視覚理解能力
出典: https://openai.com/index/hello-gpt-4o/
以前、GPT-4とClaude 3の画像解析精度対決でGPT-4がうまくいかなかったケースを試してみました。

下記のGoogleストリートビューの適当な場所のスクリーンショットをアップロードし、場所を特定できるか試すというものです。プロンプトはこちら。
【添付した画像を解析し、どの場所の写真かを教えて下さい。】
GPT-4oの視覚認識能力を確認するための画像
回答:
【この画像は福岡市の天神地区にある交差点を写したものです。左側の建物には「STARBUCKS COFFEE」があり、その隣のビルには「北九州SPRAY」という看板が見えます。右側のビルには「福岡県信用保証協会」の看板が掲げられています。この場所は福岡市の中心地で、商業施設やオフィスビルが立ち並ぶエリアです。】

正解!GPT-4よりも進化してる!

GPT-4oのユースケース

すでにいくつかのユースケースは列挙しましたが、もう少しどのように最新のGPT-4oを活用できるか挙げてみたいと思います。

目の不自由な方の補助

動画をリアルタイムに解析することができるため、カメラで周りの様子を映しながらGPT-4oが目の不自由な方にその様子を伝えるというデモが公開されています。

安全性にかかわるので流石に盲導犬や他の方の補助が必要と思われますが、行動の自由度が上がりそうです。

同じ仕組みを利用して、観光案内にも使えそうです。

言語教育

先程は数学の宿題をやっていたので、言語に限らず教育全般に活用できそうですが、言語教育は特に相性が良さそうです。下記のデモでは、カメラで物を映して、「これはスペイン語でなんといいますか?」とGPT-4oに質問して教えてもらう、というやり取りをしています。

ロープレ

下記のデモは面接の練習ですが、営業のロープレ、商談、インフォメーションセンターの応対、カスタマーサポートなどにも応用できそうです。

​GPT-4oが意味する未来とは?

AGIを創造するというOpenAIのビジョンとそのビジネスモデルにより、言語モデルより強化し、より幅広いタスクをこなせるようにするという方向性をしっかりと見せてきたものと考えました。

同時に、音声によるAIとのコミュニケーションを重視している点は印象深かったです。音声によるUXにおいてはレスポンススピードが最も重要であるという点の再認識。将来的には、人間が話す相手が人間なのかAIなのかを意識することはほとんど無くなる、そのような世界観を目指しているのではないでしょうか。

動画解析やデスクトップアプリにも対応したことで、「GPTに何かを聞く」ことができるユースケースが格段に増えたことも一つのポイントです。

人と人とがコミュニケーションを取らないといけないような業種は、しばらくAIに置き換わることは無いだろうと考えていましたが、今回のデモを見てむしろ、代替は一気に加速しそうだと感じました。本当にこの分野の技術的な進歩は速い・・・!だからこそ面白い!

​生成AIを使用したシステム開発のご要望はこちらから

最後までお読みいただき、ありがとうございます!

​弊社では、LLM(大規模言語モデル)やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。

また、業務利用できるChatGPTのような仕組みである「セキュアGAI」も提供しています。
​
もし本記事で生成AIに興味が湧き、生成AIとのシステム連携などのニーズがございましたら、ぜひお問い合わせフォームからお気軽にお問い合わせください!

​​その他の生成AI関連サービス

安全な環境でChatGPT「セキュアGAI for enterprise」
安全な環境でChatGPT「セキュアGAI for enterprise」
​セキュアGAI for enterprise で、安全にChatGPTを使用できます。Azure OpenAI API Serviceを使用して、Azureのプライベートな環境内で完結するChatGPTと同様の機能を提供します。
AIが接客「バーチャルアシスタント」
AIが接客「バーチャルアシスタント」
​接客ができる人材の確保にお困りではありませんか?バーチャルアシスタントが人材不足の課題を解決します!多言語も対応可能です。
    ベトナムオフショア開発/ラボ型開発
    ベトナムオフショア開発/ラボ型開発
    生成AIコンサルティング
    生成AIコンサルティングサービス
    安全な環境でChatGPT「セキュアGAI for enterprise」
    安全な環境でChatGPT「セキュアGAI for enterprise」
     AIが接客「バーチャルアシスタント」
     AIが接客「バーチャルアシスタント」
    ベトナムオフショア開発|ラボ開発
    オフショア開発や生成AIに関する資料はこちらから無料でDLいただけます

    アーカイブ

    10月 2024
    9月 2024
    8月 2024
    7月 2024
    6月 2024
    5月 2024
    4月 2024
    3月 2024
    2月 2024
    1月 2024
    12月 2023
    11月 2023
    1月 2023
    11月 2022
    9月 2022
    8月 2022
    3月 2022
    2月 2022
    1月 2022
    11月 2020
    8月 2020
    7月 2020
    5月 2020
    2月 2020
    1月 2020
    12月 2019
    11月 2019
    10月 2019
    5月 2019
    4月 2019
    11月 2018
    10月 2018
    8月 2018
    2月 2018
    9月 2017
    7月 2017
    6月 2017
    5月 2017
    4月 2017
    3月 2017
    2月 2017

    カテゴリー

    すべて
    Chat GPT
    ChatGPT
    Dify
    オフショア開発
    ブロックチェーン
    ベトナムNOW!
    ベトナムオフショア
    ベトナム一目惚れ
    生成AI
    開発事例

    最新記事の購読

    RSSフィード

      【ベトナムNOW!】でベトナム情報をお届けします

    【ベトナムNOW!】に申し込む
スクーティーのラボ型開発サービス
オフショア開発資料ダウンロード

リンク

HOME
SERVICES
SOLUTIONS
NEWS
ABOUT
CONTACT
DOWNLOAD
個人情報保護方針​
​

プロダクト

安全な環境でChatGPT「セキュアGAI for enterprise」
AIが接客「バーチャルアシスタント」
​

ブログ

ベトナムのオフショア開発に関するブログ
The Scuti Blog(英語)
​

株式会社スクーティー

生成AIに強みを持つベトナムのオフショア開発サービスを提供しています。​優秀なベトナム人エンジニアでチームを組み、安価で高速な開発体制を作りましょう。
​
Scuti Co., Ltd.
Scuti.inc © COPYRIGHT 2023. ALL RIGHTS RESERVED.