批量测试

多轮任务 Benchmark

选择任务，批量运行 baseline 与 spec workflow，对比质量、速度、成本和上下文压缩收益。

已选 3 个任务2 种模式

实验包

一键载入一组任务与模式。

任务选择

当前任务库覆盖多轮规划、客服、需求澄清、分析和推荐场景。

当前显示 60 个任务

运行模式

选择本次要对比的工作流。

本次批量运行

3 个任务 × 2 种模式

启用 LLM Judge

可额外使用模型裁判补充评分；如果 judge 不可用，会自动回退到启发式评分。

Baseline 模型

Spec 草稿模型

Spec 校验模型

Judge 模型

平均成功分

任务成功评分

平均端到端时延

按单次运行计算

平均成本

估算值

草稿接受率

仅 Spec Workflow

平均压缩率

越低代表压缩越强

平均升级率

越低代表 verifier 介入越少

汇总结果

按模式查看质量、时延、成本与多轮特征指标。

先从 2 到 3 个任务开始，观察不同模式在真实多轮任务上的表现差异。

单项结果

每条运行都保留了多轮指标，可直接跳转到详情页查看逐轮 trace。