Meta社は、2024年9月25日に大規模言語モデル(LLM)「Llama 3.2」をリリースしました。Llama 3.2は、前バージョンのLlama 3.1を大幅に進化させた、次世代のオープンソースLLMです。最大の特徴は、新たにマルチモーダル機能が追加され、画像を理解できるようになった点、そしてスマートフォンやエッジデバイスといったオンデバイス環境での実行に最適化された軽量モデルが提供された点です。
Llama 3.2は、テキスト生成、質問応答、翻訳、要約など、従来の言語モデルが得意としていたタスクに加え、画像の内容説明、画像からの情報抽出、画像に基づいた推論といった、視覚情報を扱うタスクにも対応できるようになりました。また、軽量モデルの提供により、従来はクラウド環境での実行が必須であったLLMを、より身近なデバイスで利用することが可能になり、AI技術の民主化を大きく前進させる可能性を秘めています。 本記事では、Llama 3.2の全体像を把握した上で、各モデルの詳細、ベンチマーク結果、ユースケースについて詳しく解説します。
本題に入る前に、生成AIとは何か?ChatGPTとは何か?を確認しておきたい方は、下記の記事を御覧ください。
また、前バージョンであるLlama3.1については「Metaが最新言語モデルLlama3.1を発表!脅威のGPT-4o超え!?」に詳しく記載していますので、ぜひそちらをご覧ください! Llama 3.2 の全体像
Llama 3.2は、以下の3つのモデルファミリーで構成されています。
モデルはこちらから入手できます。
Llama 3.1から進化している点:
ライセンス
Llama 3.2 visionのライセンスは、Llama 3.1とほぼ同様ですが、欧州連合に居住する個人、または欧州連合に主たる事業所がある企業は、Llama 3.2 Visionのマルチモーダルモデルを使用するライセンス権が付与されません。
ただし、Llama 3.2 Visionを組み込んだ製品やサービスのエンドユーザーにはこの制限は適用されないため、グローバルな製品を開発することは可能です。 詳細については、Llama 3.2 Visionの公式ライセンスと利用規約を参照してください。 Llama 3.2 Vision: マルチモーダル機能の詳細
Llama 3.2 Visionは、Metaがリリースした最も強力なオープンマルチモーダルモデルです。11Bと90Bの2つのサイズがあり、それぞれベースモデルと指示調整済みモデルが用意されています。
Llama 3.2 Visionのアーキテクチャは、Llama 3.1 LLMをベースに、ビジョタワーとイメージアダプターを組み合わせた構成となっています。11B VisionモデルはLlama 3.1 8Bを、90B VisionモデルはLlama 3.1 70Bをテキストモデルとして使用しています。テキストモデルはVisionモデルの学習中に固定され、テキストのみのパフォーマンスを維持しています。 Llama 3.2 Visionの主な特徴
推論例
ベンチマーク結果
Llama 3.2 Visionのベンチマーク結果はMeta社から上記のように公表されています。簡単にまとめると以下のようになります。
優れた点:
劣る点:
このように、Llama 3.2 はGPT-4o miniにも匹敵する非常に高性能なマルチモーダルの言語モデルであることがわかりました。ただ、「すごいけどなにに使うの・・・?」という疑問を持たれたかもしれません。
Llama 3.2の最も効果的な活用方法は、オンプレミス環境でRAGを構築することです。会社のセキュリティポリシー上、クラウドサービスのRAGを使用できない場合に、企業内のサーバ上にLlama 3.2を使用してRAGを構築できます。 実は弊社は「セキュアGAI」というRAG(文書検索)のサービスをSaaSで提供していますが、こちらをオンプレミス環境に構築することに知見と実績がございます。もしオンプレミス環境のRAG構築をご要望でしたら、ぜひお気軽にお問い合わせください! Llama 3.2 1B・3B:オンデバイス実行に特化した軽量モデル
Llama 3.2 1B・3Bは、スマートフォン、タブレット、エッジデバイスなどのオンデバイス環境での実行に最適化された軽量モデルです。
プロンプトの書き換え、多言語の知識検索、要約タスク、ツールの使用、ローカルで実行するアシスタントなど、デバイス上のユースケース向けに調整されています。 Llama 3.2 1B・3Bの主な特徴
本モデルは主に以下のような特徴を持っています。
オンデバイスだからこそ効果的なユースケース
1. プライバシー重視のパーソナルアシスタント
常に携帯するプライベートな情報こそ、デバイス内で安全に処理したい。 Llama 3.2 1B・3Bなら、ユーザーのプライベートな情報(メール、メッセージ、カレンダー、位置情報など)をデバイス内に留めたまま、高度なAI処理が可能になります。 例:
2. リアルタイム性が求められるアシスタント機能 クラウドとの通信遅延をなくし、瞬時の応答を実現。 Llama 3.2 1B・3Bは、デバイス内で処理を行うため、ユーザーの入力に対して瞬時に反応することができます。 例:
3. ネットワーク接続が不安定な環境での利用 オフラインでもAIの力を活用。 Llama 3.2 1B・3Bは、インターネット接続がなくても動作するため、ネットワーク環境が不安定な場所でも利用することができます。 例:
4. バッテリー消費を抑えたAI機能 限られたバッテリー容量を有効活用。 Llama 3.2 1B・3Bは、軽量モデルであるため、巨大なモデルと比べてバッテリー消費を抑えることができます。 例:
Llama 3.2 1B・3Bは、従来のLLMでは実現が難しかった、オンデバイスならではの利点を活かしたユースケースを可能にする、革新的な軽量モデルです。 これらのモデルが普及することで、AIはよりパーソナルで、より身近なものとなり、私たちの生活を豊かに変えていく可能性を秘めていると言えるでしょう。 ベンチマーク結果
Llama 3.2 1B・3Bは、スマートフォンやエッジデバイスでの利用を想定した軽量モデルです。限られた計算資源でも動作するように設計されていますが、その性能は既存のオープンモデルを凌駕し、巨大なモデルにも匹敵するほどです。
①指示への追従能力:Llama 3.1に迫る性能 Llama 3.2 1B・3Bは、人間が与えた指示を理解し、それに従ってタスクをこなす能力を測るテストで、優れた結果を示しました。
②多様なタスクにおける性能:軽量モデルの中でもトップクラス Llama 3.2 1B・3Bは、指示への追従能力に加え、以下のような様々なタスクをこなす能力もテストされ、軽量モデルの中でもトップクラスの性能を示しました。
Llama 3.2 の利用方法
Hugging Faceでのデモ
自前で環境を用意しなくても、こちらから、Llama 3.2 Vision 11Bのマルチモーダルを試せるので、早速試してみました。
上記はGoogleストリートビューのスクリーンショットです。この画像をアップロードし、「この場所はどこですか?」と日本語で聞いてみました。結果はこちら。
レスポンス速度がかなり速いのがわかります。そしてLlama 3.2からの回答は「ベトナム・ハノイの西湖公園」ということでしたが、間違いです笑
正解はホアンキエム湖場所なのですが、ハノイまではあっているので、とりあえず良しとしようと思います。 また、公式なサポートをしている言語には日本語は含まれませんが、日本語で質問したら日本語で回答をしてくれて、作成される文章に全く違和感はありませんでした。 まとめ
Llama 3.2は、マルチモーダル機能、オンデバイス実行能力、そして強力な性能を兼ね備えた、次世代のオープンソースLLMです。Meta社は、Llama 3.2をオープンソースとして公開することで、AI技術の民主化を推進し、より多くの人々がAIの恩恵を受けられる社会の実現を目指しています。実際弊社も恩恵を受けており、ありがたい限りです・・・!
生成AIを使用したシステム開発のご要望はこちらから
最後までお読みいただき、ありがとうございます!
弊社では、LLM(大規模言語モデル)やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。 また、業務利用できるChatGPTのような仕組みである「セキュアGAI」も提供しています。 もし本記事で生成AIに興味が湧き、生成AIとのシステム連携などのニーズがございましたら、ぜひ下記フォームからお気軽にお問い合わせください! その他の生成AI関連サービス |
ベトナムオフショア開発/ラボ型開発
生成AIコンサルティングサービス
安全な環境でChatGPT「セキュアGAI for enterprise」
AIが接客「バーチャルアシスタント」
オフショア開発や生成AIに関する資料はこちらから無料でDLいただけます
アーカイブ
10月 2024
カテゴリー
すべて
最新記事の購読 |
リンクプロダクトブログ株式会社スクーティー生成AIに強みを持つベトナムのオフショア開発サービスを提供しています。優秀なベトナム人エンジニアでチームを組み、安価で高速な開発体制を作りましょう。
|
9/30/2024