- Published on
「evals」のインストール・使い方
- Authors
- Name
- 章 有坂
- short bio
- オープンソースソフトウェアのトレンドを追いかけてます。
evalsは、大規模言語モデル(LLMs)やLLMシステムを評価するためのフレームワークで、その上でベンチマークの公開レジストリを提供していますSource 0。
インストール・導入方法
evalsを実行するためには、まずOpenAI APIキーを取得し、OPENAI_API_KEY
という名前の環境変数に指定する必要があります。APIキーの使用に関連するコストに注意してください。また、Weights & Biasesを使用してevalsを実行し、作成することも可能です。
evalsのレジストリはGit-LFSを使用して保存されています。LFSをダウンロードしてインストールした後、以下のコマンドを実行してevalsを取得できます:
cd evals
git lfs fetch --all
git lfs pull
これにより、evals/registry/data
以下のすべてのポインターファイルが作成されます。選択したevalのデータだけを取得したい場合は、以下のコマンドを実行します:
git lfs fetch --include=evals/registry/data/${your eval}
git lfs pull
evalsを作成する予定がある場合、このリポジトリをGitHubから直接クローンし、要件をインストールすることをお勧めします:
pip install -e .
-e
を使用すると、evalへの変更は再インストールせずにすぐに反映されます。また、pre-commitフォーマッタをインストールすることもオプションです:
pip install -e .[formatters]
そして、pre-commitをgitフックにインストールします:
pre-commit install
これで、pre-commitがすべてのコミットで実行されます。リポジトリ全体ですべてのpre-commitフックを手動で実行したい場合は、pre-commit run --all-files
を実行します。個々のフックを実行するには、pre-commit run <hook_id>
を使用します。
使い方
evalsをローカルで実行したいが、新しいevalを貢献したくない場合は、pipを使用してevalsパッケージをインストールできます:
pip install evals
既存のevalを実行する方法の詳細は、run-evals.md
を参照し、既存のevalテンプレートはeval-templates.md
を参照してください。prompt chainsやtool-using agentsなどのより高度な使用事例については、Completion Function Protocol
を参照してください。
eval結果をSnowflakeデータベースにログ記録するオプションも提供しています。このオプションを利用するには、SNOWFLAKE_ACCOUNT
、SNOWFLAKE_DATABASE
、SNOWFLAKE_USERNAME
、SNOWFLAKE_PASSWORD
という環境変数をさらに指定する必要があります。
evalを作成する場合、evalのビルドプロセスを行うためのbuild-eval.md
と、カスタムevalロジックの実装例を示すcustom-eval.md
を参照してください。現在はカスタムコードを含むEvalsの提出は受け付けていませんが、カスタムモデルgraded YAMLファイルを使用したモデルgraded evalを提出することは可能です。興味深いevalがあると思