AIでテキストを自然な音声にする。思ったより進化してたぞ!iMyFone VoxBox

ソフトウェア検証
記事内にはプロモーションやアフィリエイトリンクが含まれています。

最近YouTubeを見てると合成音声っぽい綺麗なナレーションがある動画が増えてるじゃないですか

なとり
なとり

個人チャンネルでも綺麗なナレーションがついてたりさ!

どうやらAIの音声読み上げソフトの精度が上がっていて、すごく使いやすくなってるみたいなんですよ

ちょうどそういうソフトを販売しているiMyFoneさんから「最新のAI読み上げソフトを紹介してくれませんか~?」というプロモーション案件のご案内を頂いたのでこのソフトの紹介をしたいと思います

AIでテキストから音声を作成!「iMyFone VoxBox」公式サイト

ちなみにiMyFoneは2022年にパソコンで使うボイスチェンジャーのソフトをレビューした時の会社でもありますね

私たちパソコンユーザーが使えそうな面白いソフトを販売している会社です。

なとり
なとり

いろいろ出してる会社だ

実際に触ってみたところ、簡単操作でびっくりするほど自然な音声を作成することができました。

先ほどのイラストにVoxBoxで作った音声を乗せてみるとこんな感じ

なとり
なとり

これが簡単に作れてしまうってのか~!?

*使用する音声については動画など商用利用しても良いもの、ダメなものがわかれているので注意をしてください(詳細はコチラで)

さらに対話型で複数人の会話を同時に作成できたり、後ろに素敵なBGMをつけることができたり、非常に多機能で便利なソフトに仕上がっていました

なとり
なとり

これは試してみるしかない!

ということで「iMyFone VoxBoxで簡単AI音声作成!」の様子を見ていきましょう

iMyFone VoxBox概要

iMyFone VoxBoxは中国にあるソフトウェアメーカーiMyFoneが販売しているソフトです。

機能は色々あるのですがメインは文字で書いたテキストをAIで音声にしてくれることです

AIでテキストから音声を作成!「iMyFone VoxBox」公式サイト

特徴としては自然な音声が作成できること、デフォルトでいろんなパターンの音声が登録されていて男性や女性といった性別の他、声の高い、低いなども簡単に切り替えて作成できることです

なとり
なとり

プロフェッショナルなソフトだな!

ということで2025年現在のAIの音声作成ソフトの様子を見て行きましょう

*今回のレビュー記事はメーカーよりライセンスを無償提供頂き作成しています。記事内の解説は私の体験のもとに書いたもので、私が機能を勘違いしていたり仕様の変更等がある可能性があります。ソフトウェアの詳細や正しい仕様に関しては公式の情報をご確認お願いいたします。

テキスト読み上げ、AI音声作成

まずはメインのテキスト読み上げ機能を見て行きましょう

iMyFone VoxBoxの起動画面はこんな感じになっています

左側がモードを切り替えるメニュー、真ん中が作成したい文字を入力するところ、そして右側が音声プロフィールを選ぶ画面です

日本語に対応していることもさることながら、アプリの操作フィールドと作業フィールドが視覚的にわかりやすく配置されているのはとてもいいですね

なとり
なとり

これなら簡単に使えそうだ

文字を入力して音声生成!

中央のテキストウインドウに適当な文字をいれて…

生成をクリック!

なとり
なとり

さあどうだ!

なんということでしょう、一瞬で音声が作成されました

出来上がった音声はこんな感じ

想像以上に簡単でわかりやすいですねぇ

AIの読み上げってもっといろんなパラメーターとかを調整しないといけないかと思ってたんですけどとても簡単でした

なとり
なとり

パソコンに詳しくない人でもできそう

声のタイプを変えてみよう

次は右側のプロフィール画面から音声のタイプを切り替えてみましょう

テキストウインドウはそのままで、別の音声タイプを指定して生成ボタンクリックで女性Verの音声の完成です

いい感じで性別が切り替わってますね

なとり
なとり

女性になった~

この音声のタイプをボタン一つで切り替えられるのも便利ですねぇ。

使っていて思ったんですが最初は女性ボイスを使った方がナチュラルで心地がいいよ声が作りやすいような気がします。

商用利用は非VIPカテゴリーから

こちらのソフトウェアを使用して作成した動画を公開したり、YouTube上にアップロードする場合は、音声プロフィールは非VIPのカテゴリーから選択してください

こちらのカテゴリーのみが商用利用可能となっているようです

作成した音声は下にリスト化!

こんな風に音声を作成していくと作ったファイルがどんどん溜まっていくと思うんですけど、VoxBoxで作成したボイスはウインドウ下の方に一覧表示され、再生ボタンでそれぞれパッと呼び出すことができます

なとり
なとり

べ、、便利だ、、、!

これはとても便利なポイントで、仮にこういう風にリスト化されずに音声ファイルだけが出力されるやり方だったとすると、ユーザーは作成するたびに音声フォルダを開いてダブルクリックして再生しないといけないですよね。

より良い音声を作るために試行錯誤したりする場合には、たくさんの音声出来上がると思うのでこういうふうにソフトウェアの中で今作成したファイル、一個前のファイル、二個前のファイル、と再生できるのはとてもポイントが高いです。

なとり
なとり

簡単に聞き比べができるな

こういうのはちゃんと専門の有料ソフトを使うメリットですね~

トークンについて

ここで一つこのソフトウェアの仕組みであるトークンについて触れておきましょう

画面の左上に書いてあるこのステータス気になった方も多いかと思うんですがこれは残りの使えるトークン(使用可能な量)を表しています

私はレビュー用に提供された有料版のVoxBoxを使っています。ソフトウェア自体は期限の縛りなしに使うことができますが、AIによる音声生成のできる量には限りがあります。

なとり
なとり

無限に使えるわけではないんだな

生成するごとにこの保有するポイントが少しずつ減っていき、ポイントがなくなると生成ができなくなります。

「有料ソフトウェアなのに使えなくなるの?」と思うかもしれませんが、AIが仕事をするたびにソフトウェアの開発元はそのトークンの使用料を払っています。2025年現在のAIソフトは原則的にこのようなポイントを消費する有限のシステムであるということを覚えておきましょう。

ただポイントを使い切った後も完全ソフトウェアが無価値になるということではなくこのポイント自体を追加料金で購入することができます

なとり
なとり

足りなくなったら追加で買いましょう

便利な機能もたくさん

VoxBoxにはその他にも便利な機能もたくさん付いています順番に紹介して行きましょう

まずはスピードやピッチのコントロールです。

コントロール画面から音声のピッチや読み上げスピードを調整することができます

動画の内容に合わせて素早いナレーションにしたりゆっくりとした朗読にしたり適切な音声の作成ができますね

先ほどの音声をすごくゆっくり喋らせてみるとこんな感じ

なとり
なとり

ゆっくり動画だ~

ピッチを上げると声が高くなるので声が若くなり可愛らしい感じになります。

音楽追加機能も良し

ここで音楽の追加をしてみましょう

VoxBoxではプリセットの音楽も用意されていてそれ選ぶことで音声の生成時に後ろで音楽を流すことができます

なとり
なとり

そんなことまで出来るのっ!?

現在は11パターンのBGMが用意されています。どれもボイスが長くなっても綺麗にループするタイプのBGMになっていてバックグラウンドミュージックとして適切です。

BGM付きの音声がこちら

音声の後ろにBGMをつけるだけで一気に本格的になりましたね

なとり
なとり

企業のCMみたい!

ソフトウェア上でここまで簡単に仕上げることができるのはVoxBoxの大きな魅力です

対話型の音声作成

動画用の音声を作る際対話形式の音声を作りたくなることもあると思うんです

こんな感じのやり取り↓

なとり
なとり

みんなは筋トレについて悩んでることはないかな

Aちゃん
Aちゃん

全然続かなくて困ってるんです効果も感じられなくて

VoxBoxではこういう対話形式の音声も簡単に作ることができます。

メニュー中央下側の行を話者を追加を押すと、別のウインドウが登場します

追加のテキスト欄が登場

これで音声プロファイルを変えながら複数のテキストのやり取りを同時に作成することができます

こんな風に男女で口語に会話させたりすることができるってわけですね

このやり方にどういうメリットがあるかというと出力される音声ファイルが一つに統合されているので男女別々に音声を出力してつなぎ合わせたりする必要がないということです

なとり
なとり

再生して確認するのも簡単

製品の広告CMを作る場合なんかはこういう対話型も多いと思うので、この音声生成画面で対話の状態を作れることはとても便利です

なとり
なとり

本当進んでるなあ~

ChatGPTと合わせて動画を作ってみました

それではちょっとしたナレーション付き動画を作ってみましょう

ChatGPTにイラストを作ってもらいそれを連続してつなげてこのソフトで作った音声と合成してみます。対話形式の場合現在はBGMを搭載することができなかったためBGMは別撮りで出力したものを合わせています

出来上がった動画がこちらです

なとり
なとり

本格的な動画じゃないか!

パッと作ったものなのでChatGPTのイラストの荒さなどはありますが動画として最低限成立しています

特にこのソフトで作った音声は自然で充分なクオリティです。

その他の機能

この記事では紹介しきれませんでしたが他にも

・一定の量の声を入力することでその声を複製した音声を作るクローン機能
・動画の音声を分析し、喋っている内容をテキストにする文字おこし機能

など動画作成に便利な機能があります。

たとえば自分の声をクローンしておいて自分が読み上げることなく、自分の音声のナレーションをつけたり、声が綺麗な人にお願いしてナレーション役をやってもらうようなこともできます

動画から音声をテキストにすることで動画をアップロードするときのテロップの用意の補助にしたりしてもいいですね

なとり
なとり

便利な機能がたくさんだな~!

まとめ 精度がすごい!音声がナチュラルだ!

こんな感じでVoxBoxを使ったAI音声生成は思っていた以上にクオリティが高くナチュラルな音声を特に苦労することなく生成することができました

私もChatGPTで調べ物をしたり常にAIには触ってましたが、こういう何かの機能に特化したものは使っていなかったので、専用のAIソフトの便利さを猛烈に感じました

なとり
なとり

やっぱ制作用のインターフェースがあるいいよねぇ

このソフトは基本的に有料ですし動画を作成したりビジネスユーザーの利用が主なだと思いますが、遊びで触ってみたいという人の好奇心も自分に満たしてくれる楽しいソフトだろうと思いました

なとり
なとり

遊びやAIを知るために買うのもありだと思う

こういう分野は進化してくれると楽しくなるのでこれからのこのソフトのアップデートに期待したいところですね

AIで動画ナレーションをつけたい方やビジネスシーンでのガイダンス音声やを作りたい方は是非このソフトを試してみてください

公式サイトはこちら↓

AIでテキストから音声を作成!「iMyFone VoxBox」公式サイト

↑    ↑    ↑

以上本日は「AIで自然な音声を作る。思ったより進化してたぞ!iMyFone VoxBox」の紹介でした

コメント

タイトルとURLをコピーしました