- Published on
「so-vits-svc」のインストール・使い方
- Authors
- Name
- 章 有坂
- short bio
- オープンソースソフトウェアのトレンドを追いかけてます。
so-vits-svcは、歌声変換(Singing Voice Conversion: SVC)に焦点を当てたオープンソースプロジェクトです。このプロジェクトはテキストから音声への変換(Text-to-Speech: TTS)ではなく、特に歌声変換に重点を置いています。このプロジェクトでは、TTS機能はサポートされておらず、VITSはSVCタスクを実行することはできません。これら2つのプロジェクトで使用されるモデルは交換可能ではなく、全ての状況で適用可能ではありませんSource 0。
インストール・導入方法
このプロジェクトの具体的なインストール・導入手順は公式のREADMEファイルに記述されていますが、以下に主な手順を示します:
必要なモデルファイルをダウンロードし、指定のディレクトリに配置します。例えば、事前学習済みのモデルファイル(G_0.pth、D_0.pth)は
logs/44k
ディレクトリに、事前学習済みの拡散モデルのベースモデルファイル(model_0.pt)はlogs/44k/diffusion
ディレクトリに配置します。使用する音声エンコーダを選択します。例えば、
contentvec
を音声エンコーダとして使用する場合は、それに関連する設定を行います。データセットの準備を行います。これには、音声のスライス、44100Hzとモノにリサンプリング、データセットの自動分割、ハブルトとf0の生成などが含まれます。
モデルの訓練を行います。例えば、Sovitsモデルを訓練する場合は、以下のコマンドを実行します:
python train.py -c configs/config.json -m 44k
注意点として、このプロジェクトは完全にオフラインで動作し、ユーザー情報を収集したり、ユーザー入力データを収集したりすることはありません。また、このプロジェクトは学術的な目的であり、本番環境でのデプロイメントは想定されていませんSource 0。
使い方
このプロジェクトの具体的な使い方は、公式のREADMEファイルに記述されていますが、以下に主な手順を示します:
データセットの準備を行います。これには、音声のスライス、44100Hzとモノにリサンプリング、データセットの自動分割、ハブルトとf0の生成などが含まれます。
モデルの訓練を行います。例えば、Sovitsモデルを訓練する場合は、以下のコマンドを実行します:
python train.py -c configs/config.json -m 44k
- 推論を行います。このプロジェクトは、自動的なf0予測、クラスタベースの