「evals」のインストール・使い方

Authors

Name
章有坂
short bio
オープンソースソフトウェアのトレンドを追いかけてます。

evalsは、大規模言語モデル（LLMs）やLLMシステムを評価するためのフレームワークで、その上でベンチマークの公開レジストリを提供していますSource 0。

※ NordVPNにこちらから新規登録すると、最大73%オフの割引になります。

インストール・導入方法

evalsを実行するためには、まずOpenAI APIキーを取得し、OPENAI_API_KEYという名前の環境変数に指定する必要があります。APIキーの使用に関連するコストに注意してください。また、Weights & Biasesを使用してevalsを実行し、作成することも可能です。

evalsのレジストリはGit-LFSを使用して保存されています。LFSをダウンロードしてインストールした後、以下のコマンドを実行してevalsを取得できます：

cd evals
git lfs fetch --all
git lfs pull

これにより、evals/registry/data以下のすべてのポインターファイルが作成されます。選択したevalのデータだけを取得したい場合は、以下のコマンドを実行します：

git lfs fetch --include=evals/registry/data/${your eval}
git lfs pull

evalsを作成する予定がある場合、このリポジトリをGitHubから直接クローンし、要件をインストールすることをお勧めします：

pip install -e .

-eを使用すると、evalへの変更は再インストールせずにすぐに反映されます。また、pre-commitフォーマッタをインストールすることもオプションです：

pip install -e .[formatters]

そして、pre-commitをgitフックにインストールします：

pre-commit install

これで、pre-commitがすべてのコミットで実行されます。リポジトリ全体ですべてのpre-commitフックを手動で実行したい場合は、pre-commit run --all-filesを実行します。個々のフックを実行するには、pre-commit run <hook_id>を使用します。

使い方

evalsをローカルで実行したいが、新しいevalを貢献したくない場合は、pipを使用してevalsパッケージをインストールできます：

pip install evals

既存のevalを実行する方法の詳細は、run-evals.mdを参照し、既存のevalテンプレートはeval-templates.mdを参照してください。prompt chainsやtool-using agentsなどのより高度な使用事例については、Completion Function Protocolを参照してください。

eval結果をSnowflakeデータベースにログ記録するオプションも提供しています。このオプションを利用するには、SNOWFLAKE_ACCOUNT、SNOWFLAKE_DATABASE、SNOWFLAKE_USERNAME、SNOWFLAKE_PASSWORDという環境変数をさらに指定する必要があります。

evalを作成する場合、evalのビルドプロセスを行うためのbuild-eval.mdと、カスタムevalロジックの実装例を示すcustom-eval.mdを参照してください。現在はカスタムコードを含むEvalsの提出は受け付けていませんが、カスタムモデルgraded YAMLファイルを使用したモデルgraded evalを提出することは可能です。興味深いevalがあると思

※ NordVPNにこちらから新規登録すると、最大73%オフの割引になります。

インストール・導入方法

使い方

章 有坂

他の記事

タグ ->

章有坂