- Published on
「suno-ai/bark」のインストール・使い方
- Authors
- Name
- 章 有坂
- short bio
- オープンソースソフトウェアのトレンドを追いかけてます。
suno-ai/barkは、テキストから音声を生成するための変換器ベースのモデルです。このモデルは、高度にリアルな多言語音声だけでなく、他の音声(音楽、背景ノイズ、シンプルな音声効果)を生成することも可能です。また、笑い声、息を吹き出す音、泣き声などの非言語的なコミュニケーションも生成できます。研究コミュニティを支援するために、事前学習済みのモデルチェックポイントへのアクセスを提供しており、これらは推論のために準備されており、商用利用にも使用できますSource 0。
インストール・導入方法
Barkのインストールは以下のコマンドを実行することで可能です:
pip install git+https://github.com/suno-ai/bark.git
または、以下の手順でもインストールできます:
git clone https://github.com/suno-ai/bark
cd bark && pip install .
注意点として、pip install bark
コマンドは別のパッケージをインストールするため、Sunoによって管理されていないことを指摘していますSource 0。
また、BarkはTransformersライブラリからバージョン4.31.0以降で利用可能で、最小限の依存関係と追加パッケージが必要です。以下の手順で始めることができます:
pip install git+https://github.com/huggingface/transformers.git
次に、以下のPythonコードを実行してモデルをロードします:
from transformers import AutoProcessor, BarkModel
processor = AutoProcessor.from_pretrained("suno/bark")
model = BarkModel.from_pretrained("suno/bark")
voice_preset = "v2/en_speaker_6"
inputs = processor("Hello, my dog is cute", voice_preset=voice_preset)
audio_array = model.generate(**inputs)
audio_array = audio_array.cpu().numpy().squeeze()
このコードは、"Hello, my dog is cute"というテキストを"v2/en_speaker_6"という音声プリセットを使用して音声に変換しますSource 0。
使い方
Barkの基本的な使用方法は以下の通りです:
from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio
# download and load all models
preload_models()
# generate audio from text
text_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)
# save audio to disk
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)
このコードは、"Hello, my name is Suno. And, uh — and I like pizza. [laughs]"というテキストを音声に変換し、その音声を"bark_generation.wav"という名前のファイルに保存します。また、音声をノートブック上で再生することも可能ですSource 0。