- Published on
「llama」のインストール・使い方
1606文字3分で読めます–––
閲覧数
- Authors
- Name
- 章 有坂
- short bio
- オープンソースソフトウェアのトレンドを追いかけてます。
llamaはFacebook Researchが開発した大規模な言語モデルです。このプロジェクトは、個々の開発者、クリエイター、研究者、およびすべてのサイズのビジネスがアイデアを実験、イノベーションし、それを責任ある範囲でスケールすることを可能にします。このリリースには、事前学習されたと微調整されたLlama言語モデル(7Bから70Bパラメータ)のモデル重みとスタートコードが含まれていますSource 0。
※ NordVPNにこちらから新規登録すると、最大73%オフの割引になります。
インストール・導入方法
Llamaのセットアップは以下の手順で行います:
- まず、PyTorchとCUDAが利用可能なconda環境を作成し、このリポジトリをクローンし、ダウンロードします。
git clone https://github.com/facebookresearch/llama.git
cd llama
pip install -e .
次に、Metaウェブサイトにアクセスしてモデルをダウンロードします。登録後、モデルのダウンロードリンクを含む電子メールを受け取ります。このリンクは、
download.sh
スクリプトを実行する際に必要です。電子メールを受け取ったら、ダウンロードしたllamaリポジトリに移動し、
download.sh
スクリプトを実行します。このスクリプトを実行する前に、スクリプトに実行権限を付与する必要があります。
chmod +x download.sh
./download.sh
- モデルをローカルで実行するには、以下のコマンドを使用します:
torchrun --nproc_per_node 1 example_chat_completion.py \
--ckpt_dir llama-2-7b-chat/ \
--tokenizer_path tokenizer.model \
--max_seq_len 512 --max_batch_size 6
ここで、llama-2-7b-chat/
はチェックポイントディレクトリへのパス、tokenizer.model
はトークナイザモデルへのパスに置き換えてください。また、--nproc_per_node
は使用しているモデルのMP値に設定します。必要に応じて、max_seq_len
とmax_batch_size
パラメータを調整しますSource 0。
使い方
Llamaは主に次の2つの形式で使用されます:
- 事前学習済みモデル:これらのモデルはチャットやQ&Aに特化していません。期待される回答がプロンプトの自然な続きであることを示すためにプロンプトに指示する必要があります。以下のコマンドは、llama-2-7bモデルを使用して
example_text_completion.py
を実行する例です:
torchrun --nproc_per_node 1 example_text_completion.py \
--ckpt_dir llama-2-7b/ \
--tokenizer_path tokenizer.model \
--max_seq_len 128 --max_batch_size 4
- 微調整済みチャットモデル:これらのモデルはダイアログアプリケーションのために訓練されています。これらのモデルを使用して期待される特性とパフォーマンスを得るには、
chat_completion
※ NordVPNにこちらから新規登録すると、最大73%オフの割引になります。