结果总览
在一个界面里看质量、速度和成本。
集中查看最近运行的通过率、耗时、费用和工具稳定性;如果暂时没有历史记录,这里会先展示示例数据帮助你熟悉界面。
示例数据(数据库不可用)去做一次批量测试
数据库当前不可用,以下图表已回退为示例数据
已检测到 DATABASE_URL,但当前无法读取数据库。请确认数据库服务可达,并检查连接串、网络权限和迁移状态。
运行次数
10
当前统计窗口
平均时延
13.3 s
所含运行的平均值
平均费用
US$0.026
按单次运行估算
平均通过率
74%
评分范围 0–100%
工具报错率
5%
按每次运行求均值
草稿接受率
60%
仅统计草稿校验模式
系统解读
根据当前汇总结果自动生成,帮助快速判断接下来该优化什么。
草稿加校验模式把平均耗时降低了约 23%。从成本看,草稿加校验每次运行大约便宜 50%。同时,它的整体任务成功分也高约 8%。 在高难度任务(难度 ≥ 4)上,草稿加校验的平均成功分比单代理高约 9%。
不同模式的平均时延
耗时越低越好
不同模式的平均费用
按单次运行估算的美元成本
不同模式的平均通过率
按评分规则换算后的平均分(0–100%)
草稿接受率趋势
按时间顺序查看草稿校验模式的接受率变化
按任务类型查看工具报错率
比较不同模式在各类任务中的平均工具报错率(%)
模式对比
在同一批运行窗口里,对比不同模式的平均表现。
| 模式 | 运行数 | 平均时延 | 平均费用 | 平均通过率 |
|---|---|---|---|---|
| 单代理 | 5 | 15.0 s | US$0.0347 | 71% |
| 草稿 + 校验 | 5 | 11.6 s | US$0.0174 | 77% |
最近运行
打开任意一条已保存记录,查看完整回答和工具过程。
| 运行 | 模式 | 通过率 | 时延 | 查看 |
|---|---|---|---|---|
Inbox prioritization · 草稿 + 校验 2026年5月31日 08:06 UTC | 草稿 + 校验 | 75% | 6.8 s | 查看详情 |
Inbox prioritization · 单代理 2026年5月31日 07:06 UTC | 单代理 | 70% | 9.3 s | 查看详情 |
Data reconciliation · 草稿 + 校验 2026年5月30日 08:06 UTC | 草稿 + 校验 | 79% | 19.6 s | 查看详情 |
Data reconciliation · 单代理 2026年5月30日 07:06 UTC | 单代理 | 73% | 24.1 s | 查看详情 |
Release readiness plan · 草稿 + 校验 2026年5月29日 08:06 UTC | 草稿 + 校验 | 78% | 14.7 s | 查看详情 |
Release readiness plan · 单代理 2026年5月29日 07:06 UTC | 单代理 | 72% | 18.8 s | 查看详情 |
Refund policy resolution · 草稿 + 校验 2026年5月28日 08:06 UTC | 草稿 + 校验 | 75% | 6.7 s | 查看详情 |
Refund policy resolution · 单代理 2026年5月28日 07:06 UTC | 单代理 | 70% | 9.3 s | 查看详情 |
Supplier risk triage · 草稿 + 校验 2026年5月27日 08:06 UTC | 草稿 + 校验 | 77% | 10.2 s | 查看详情 |
Supplier risk triage · 单代理 2026年5月27日 07:06 UTC | 单代理 | 70% | 13.7 s | 查看详情 |