生成AIに強みを持つベトナムオフショア開発
​株式会社スクーティー
お役立ち資料
生成AIに強みを持つベトナムのオフショア開発|株式会社スクーティー
  • Home
  • Services
    • オフショア開発/ラボ型開発サービス
    • 生成AIコンサルティングサービス >
      • ChatGPTラボ型開発サービス
    • ベトナムエンジニアの日本客先常駐開発(SES)サービス
    • ベトナム進出支援サービス
    • ベトナム視察ツアー
    • サーバ構築・運用保守ラボサービス
  • Solutions
    • AI文書読み取りサービス
    • AI記事制作代行サービス
    • Dify導入支援サービス
  • News
  • About
  • Blog
  • Download
  • Contact
  • Home
  • Services
    • オフショア開発/ラボ型開発サービス
    • 生成AIコンサルティングサービス >
      • ChatGPTラボ型開発サービス
    • ベトナムエンジニアの日本客先常駐開発(SES)サービス
    • ベトナム進出支援サービス
    • ベトナム視察ツアー
    • サーバ構築・運用保守ラボサービス
  • Solutions
    • AI文書読み取りサービス
    • AI記事制作代行サービス
    • Dify導入支援サービス
  • News
  • About
  • Blog
  • Download
  • Contact

ブログ

7/31/2024

Difyの音声出力(TTS: Text‐to-Speech)を試す

 
Difyの音声出力(TTS: Text-to-Speech)を試す
※本記事は新ブログサイトへ移行しています。以下のリンクからそちらをご覧いただくことをおすすめいたします。
>> 
Difyの音声出力(TTS: Text‐to-Speech)を試す

こんにちは、スクーティー代表のかけやと申します。
​
弊社は生成AIを強みとするベトナムオフショア開発・ラボ型開発や、生成AIコンサルティングなどのサービスを提供しており、最近はありがたいことに生成AIと連携したシステム開発のご依頼を数多く頂いています。

Difyのバージョン0.6.14がリリースされました。このリリースではいくつかの新しい機能が追加されていますが、その中でも音声出力(TTS: Text-to-Speech)機能が追加されており、早く試そう試そうと思いつつ、やっと試すことができました!

なのですが、、、あれれ?どうやって使うの・・・・・・?ということで結構はまったので(僕だけでしょうか??)、使い方をご紹介いたします!
スクーティーのDify導入支援サービス

準備

Difyのバージョン0.6.14について

Difyのバージョン0.6.14では、以下の機能が新たに追加されました。
  • TTSストリーミング設定:音声の自動出力がサポートされました。
  • Workflowの機能拡張:ワークフローノードにelifが追加され、条件として定数だけでなく変数を指定できるようになりました。
  • いくつかの連携できる外部サービスの追加

環境を作る

今回はMacOSのローカルPC上で動作することを前提とします。

ローカルPC上にDifyを立ち上げる方法は、「DifyでSEO記事作成を試してみる」に詳しく記載していますので、そちらをご覧ください。

また、最新のソースコードに更新しておく必要があります。その方法はこちらのリリースノートの「Upgrade Guide」に記載があるので、そのまま従うだけでできます。docker-compose.yamlがリファクタリングされたため、ソースコードの更新方法がこれまでと変わっています。

しかし今回は、私はその部分を読まずに今までと同じコマンドで更新をしてしまいましたが、Warningはいくつかでたものの、アプリケーションは問題なく動作しました。

​その方法は「ローカル環境上のDifyでGPT-4oを使えるようにする」をご覧ください。

Dify愛が止まらない私は、これまでもいくつかDifyに関する記事を書いています。そちらもぜひご覧いただけると嬉しいです!
  • ​Difyのワークフローを使って今度こそSEO記事を作成する【2024年6月更新】
  • DifyでRAGを爆速で構築する
  • ローカル環境上のDifyでGPT-4oを使えるようにする
  • DifyでSEO記事作成を試してみる

音声出力(TTS: Text-to-Speech)を試す

とりあえずいろいろ試す

先程のリリースノートを見ても、実際にどうやってTTSを使用できるのか全然わからない・・・ということで、あれこれ試してみました。

もともとやりたかったのは、Groq(LLMはLlama3.1)を使用して、超高速レスポンス環境で会話をしたかったのですが、結論としては、以下の理由でこれはできませんでした。
  • GroqはTTSに対応していない
    • TTSに対応しているLLMはOpenAIのGPTを始め、Difyで選べるものとしては全部で3つのみ
  • 上記がわかったため、Groqの出力をGPT-4o miniに入力し、GPT-4o miniを音声出力しようと試したが、Workflowでは音声出力ができない。音声出力を設定できるのはChatbotのみ。
    • というか、Groqの出力をGPT-4o miniに入力している時点で、レスポンス速度がGPT-4o miniに律速されるため、Groqの超高速レスポンスでの会話がこの構成ではそもそもできるわけがないということに、後で気づきました。。。
  • 音声出力は自動再生ができるが、音声入力は自動的にされる仕様になっていないため、音声入出力【のみ】での会話ができない。

ChatbotでTTSを試す

ということで、現時点でDifyのTTSを使いたければ、Chatbot一択になるため、Chatbotを作成していきます。

① 空のChatbotを作成する
① Difyで空のChatbotを作成する
  1. トップメニューの「Studio」から左上の「Chatbot」を選択
  2. 「Create from Blank」を選択

そうすると、Chatbot作成画面の初期状態が開きます。

​
② 「ADD FEATURES」をクリック
② DifyのChatbot作成画面で「ADD FEATURES」をクリック
ここはいわゆる、初期状態では使えない機能を追加できるようにするための設定です。この中で音声入出力を有効にすることができます。

​
③ 「Text to Speech」をOnにする
③ DifyのChatbot作成画面で「Text to Speech」をOnにする
「Text to Speech」をOnにすると音声出力(TTS)が使用できるようになります。ちなみに、その下にある「Speech to Text」をOnにすると、音声入力を使用することができるようになります。

​
④ 「Text to Speech」の「Seetings」をクリック
④ DifyのChatbot作成画面で「Text to Speech」の「Seetings」をクリック
これをクリックすると、TTSの設定をいくつか変更できるようになります。

​
⑤ 「Auto Play」をOnにする
⑤ DifyのChatbot作成画面で「Auto Play」をOnにする
これがOffの場合、音声出力すること自体はできますが、チャットのメッセージ出力の▶ボタンを押して始めて、出力されたテキストを音声で聞くことができるという動作になります。

僕は「会話」をしたかったので、いちいち▶ボタンを押さずに、テキストの出力ができたら音声出力も同時にされるようにしたかったため、「Auto Play」をOnにしました。


​​⑥ 右上メニューの「Settings」をクリック
写真
音声出力に対応しているモデルを確認しておきたかったので、右上のSettingsから、モデルの設定画面を開きます。

​
⑦ ポップアップ内左メニューの「Model Provider」をクリック
写真
「Model Provider」をクリックすると、Difyで利用できるモデルを提供しているサービス一覧が表示されます。各サービスプロバイダーの欄にラベルが表示されており、その中で「TTS」のラベルがついているものがTTSに対応しています。

本記事作成の2024年7月末時点では、GPTと他2つ、合計3つがTTSに対応していました。私はすでにOpenAIのGPTを設定済みだったため、GPTを選択することにしました。

この画面では特に何も設定せず、確認のみになります。

​
⑧ Chatbotで適当に入力し、音声出力を試す
写真
今回はモデルとして、高速で安価なGPT-4o miniを選択しました。

これで最低限の準備は完了です!早速TTSを試してみましょう。
ウィンドウの右半分がチャットの動作確認用の画面になります。なんでもいいのでとりあえず適当にテキストを入力してみます。

すると、テキストと共に、音声でも回答が出力されました。テキストで入力して、音声で返ってくるという不思議なコミュニケーション!とても自然な日本語で話してくれます!

​ちなみに、④のSettingsで音声出力される言語や声も選択できます。ただし、日本語は一種類の声しか実装されていませんでした。また、英語を選択したとしても、モデルからの出力が日本語の場合は日本語を話してくれました。英語の設定で日本語を話すと、やや訛っているような発音ではありましたが、日本語設定の場合と大して変わりませんでした。

生成AIを使用したシステム開発のご要望はこちらから

最後までお読みいただき、ありがとうございます!

​弊社では、LLM(大規模言語モデル)やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。

また、業務利用できるChatGPTのような仕組みである「セキュアGAI」も提供しています。

もちろん、Difyの構築のお手伝いも可能です。
​
もし本記事で生成AIに興味が湧き、生成AIとのシステム連携などのニーズがございましたら、ぜひ下記フォームからお気軽にお問い合わせください!

​​その他の生成AI関連サービス

​安全な環境でChatGPT「セキュアGAI for enterprise」
​安全な環境でChatGPT「セキュアGAI for enterprise」
セキュアGAI for enterprise で、安全にChatGPTを使用できます。Azure OpenAI API Serviceを使用して、Azureのプライベートな環境内で完結するChatGPTと同様の機能を提供します。
写真
AIが接客「バーチャルアシスタント」
​接客ができる人材の確保にお困りではありませんか?バーチャルアシスタントが人材不足の課題を解決します!多言語も対応可能です。
    ベトナムオフショア開発/ラボ型開発
    ベトナムオフショア開発/ラボ型開発
    生成AIコンサルティング
    生成AIコンサルティングサービス
    安全な環境でChatGPT「セキュアGAI for enterprise」
    安全な環境でChatGPT「セキュアGAI for enterprise」
     AIが接客「バーチャルアシスタント」
     AIが接客「バーチャルアシスタント」
    ベトナムオフショア開発|ラボ開発
    オフショア開発や生成AIに関する資料はこちらから無料でDLいただけます

    アーカイブ

    10月 2024
    9月 2024
    8月 2024
    7月 2024
    6月 2024
    5月 2024
    4月 2024
    3月 2024
    2月 2024
    1月 2024
    12月 2023
    11月 2023
    1月 2023
    11月 2022
    9月 2022
    8月 2022
    3月 2022
    2月 2022
    1月 2022
    11月 2020
    8月 2020
    7月 2020
    5月 2020
    2月 2020
    1月 2020
    12月 2019
    11月 2019
    10月 2019
    5月 2019
    4月 2019
    11月 2018
    10月 2018
    8月 2018
    2月 2018
    9月 2017
    7月 2017
    6月 2017
    5月 2017
    4月 2017
    3月 2017
    2月 2017

    カテゴリー

    すべて
    Chat GPT
    ChatGPT
    Dify
    オフショア開発
    ブロックチェーン
    ベトナムNOW!
    ベトナムオフショア
    ベトナム一目惚れ
    生成AI
    開発事例

    最新記事の購読

    RSSフィード

      【ベトナムNOW!】でベトナム情報をお届けします

    【ベトナムNOW!】に申し込む
スクーティーのラボ型開発サービス
オフショア開発資料ダウンロード

リンク

HOME
SERVICES
SOLUTIONS
NEWS
ABOUT
CONTACT
DOWNLOAD
個人情報保護方針​
​

プロダクト

安全な環境でChatGPT「セキュアGAI for enterprise」
AIが接客「バーチャルアシスタント」
​

ブログ

ベトナムのオフショア開発に関するブログ
The Scuti Blog(英語)
​

株式会社スクーティー

生成AIに強みを持つベトナムのオフショア開発サービスを提供しています。​優秀なベトナム人エンジニアでチームを組み、安価で高速な開発体制を作りましょう。
​
Scuti Co., Ltd.
Scuti.inc © COPYRIGHT 2023. ALL RIGHTS RESERVED.