结果总览

在一个界面里看质量、速度和成本。

集中查看最近运行的通过率、耗时、费用和工具稳定性;如果暂时没有历史记录,这里会先展示示例数据帮助你熟悉界面。

示例数据(数据库不可用)去做一次批量测试
运行次数
10

当前统计窗口

平均时延
13.3 s

所含运行的平均值

平均费用
US$0.026

按单次运行估算

平均通过率
74%

评分范围 0–100%

工具报错率
5%

按每次运行求均值

草稿接受率
60%

仅统计草稿校验模式

系统解读
根据当前汇总结果自动生成,帮助快速判断接下来该优化什么。

草稿加校验模式把平均耗时降低了约 23%。从成本看,草稿加校验每次运行大约便宜 50%。同时,它的整体任务成功分也高约 8%。 在高难度任务(难度 ≥ 4)上,草稿加校验的平均成功分比单代理高约 9%。

不同模式的平均时延
耗时越低越好
不同模式的平均费用
按单次运行估算的美元成本
不同模式的平均通过率
按评分规则换算后的平均分(0–100%)
草稿接受率趋势
按时间顺序查看草稿校验模式的接受率变化
按任务类型查看工具报错率
比较不同模式在各类任务中的平均工具报错率(%)
模式对比
在同一批运行窗口里,对比不同模式的平均表现。
模式运行数平均时延平均费用平均通过率
单代理515.0 sUS$0.034771%
草稿 + 校验511.6 sUS$0.017477%
最近运行
打开任意一条已保存记录,查看完整回答和工具过程。
运行模式通过率时延查看
Inbox prioritization · 草稿 + 校验
2026年5月31日 08:06 UTC
草稿 + 校验75%6.8 s查看详情
Inbox prioritization · 单代理
2026年5月31日 07:06 UTC
单代理70%9.3 s查看详情
Data reconciliation · 草稿 + 校验
2026年5月30日 08:06 UTC
草稿 + 校验79%19.6 s查看详情
Data reconciliation · 单代理
2026年5月30日 07:06 UTC
单代理73%24.1 s查看详情
Release readiness plan · 草稿 + 校验
2026年5月29日 08:06 UTC
草稿 + 校验78%14.7 s查看详情
Release readiness plan · 单代理
2026年5月29日 07:06 UTC
单代理72%18.8 s查看详情
Refund policy resolution · 草稿 + 校验
2026年5月28日 08:06 UTC
草稿 + 校验75%6.7 s查看详情
Refund policy resolution · 单代理
2026年5月28日 07:06 UTC
单代理70%9.3 s查看详情
Supplier risk triage · 草稿 + 校验
2026年5月27日 08:06 UTC
草稿 + 校验77%10.2 s查看详情
Supplier risk triage · 单代理
2026年5月27日 07:06 UTC
单代理70%13.7 s查看详情