- Published on
「LLaVA」のインストール・使い方
1382文字3分で読めます–––
閲覧数
- Authors
- Name
- 章 有坂
- short bio
- オープンソースソフトウェアのトレンドを追いかけてます。
LLaVAは、大規模な言語と視覚モデルをGPT-4のレベルで構築するためのプロジェクトです。このプロジェクトは、視覚指示調整を提案し、大規模な言語と視覚モデルをGPT-4レベルの機能で構築するためのプロジェクトですSource 0。
※ NordVPNにこちらから新規登録すると、最大73%オフの割引になります。
インストール・導入方法
このプロジェクトはLinux上で動作します。それ以外のOSを使用している場合は、macOSとWindowsの導入手順を参照してください。以下の手順でインストールできます:
- リポジトリをクローンします:
git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
- Pythonの仮想環境を作成し、パッケージをインストールします:
conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip # enable PEP 660 support
pip install -e .
- 必要なパッケージをインストールします:
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
使い方
LLaVAは、視覚指示に基づいてテキストと画像を生成するためのツールです。以下の手順で使用できます:
LLaVAのチェックポイントをローカルに準備します。こちらの指示に従ってチェックポイントをダウンロードします。
コントローラーを起動します:
python -m llava.serve.controller --host 0.0.0.0 --port 10000
- GradioのWebサーバーを起動します:
python -m llava.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload
- モデルワーカーを起動します。これはGPU上で推論を実行する実際のワーカーです。各ワーカーは指定されたモデルに対応します:
python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path liuhaotian/llava-v1.5-13b
- 必要に応じて、他のワーカーを起動し、同じGradioインターフェース内で異なるモデルチェックポイントを比較できます。ただし、コントローラーは同じままにし、ポートとワーカーをそれぞれのワーカーごとに異なるポート番号に修正してくださいSource 0。
※ NordVPNにこちらから新規登録すると、最大73%オフの割引になります。