批量测试

多轮任务 Benchmark

选择任务,批量运行 baseline 与 spec workflow,对比质量、速度、成本和上下文压缩收益。

已选 3 个任务2 种模式
平均成功分
-

任务成功评分

平均端到端时延
-

按单次运行计算

平均成本
-

估算值

草稿接受率
-

仅 Spec Workflow

平均压缩率
-

越低代表压缩越强

平均升级率
-

越低代表 verifier 介入越少

汇总结果
按模式查看质量、时延、成本与多轮特征指标。
先从 2 到 3 个任务开始,观察不同模式在真实多轮任务上的表现差异。
单项结果
每条运行都保留了多轮指标,可直接跳转到详情页查看逐轮 trace。