agency-agents/evals/scripts/extract-metrics.test.ts at bdfbc2bff2496d0bed7eda2c24fe0d9e0fcb73f9

Files

Russell Jones b456845e85 feat: add promptfoo eval harness for agent quality scoring (#371 )

Adds promptfoo eval harness for agent quality scoring. LLM-as-judge system scoring task completion, instruction adherence, identity consistency, deliverable quality, and safety. Includes tests.

2026-04-10 21:54:31 -05:00

2.1 KiB

Raw Blame History

View Raw

2.1 KiB Raw Blame History

2.1 KiB

Raw Blame History