首页

配置智能体、试跑任务，并集中查看结果。

先保存模型供应商与密钥，再在试运行里检查回答效果，在批量测试里比较不同模式，最后回到结果总览查看整体表现。

内置任务

覆盖 60 组真实多轮场景

运行模式

直接运行与草稿校验

参考响应时间

19.6s

基于示例数据

内置工具

搜索、计算、产品与日历

从哪里开始

第一次使用时，按这个顺序最容易上手。

当前支持的能力

不需要了解底层实现，也可以直接开始使用。

模型供应商配置单次试运行批量任务比较运行记录回看结果图表总览本地 API 凭证

如果你还没有配置数据库，运行结果仍然会先显示在当前页面；配置 DATABASE_URL 后，结果就会自动保存到历史记录中。

API 配置

可以在这里填写你自己的模型供应商凭证。密钥仅保存在当前浏览器里，只有开始试运行或批量测试时才会随请求发送。

尚未配置

供应商

API Key

Base URL

工作方式

使用 SiliconFlow 的 OpenAI 兼容接口。这组配置会存到当前浏览器的 Local Storage，因此不同浏览器可以各自使用自己的供应商，而不用修改服务器端密钥。

首页统一管理试运行可用批量测试可用

常见使用场景

如果你是第一次打开，建议先从这三个动作开始。

先试跑一个问题

在试运行里填写系统设定、用户问题和模型，先确认回答是否靠谱、工具是否用对。

批量比较两种模式

在 60 组客服、旅行、PRD、分析和推荐任务里挑几组，对比两种模式的耗时、成功率与错误情况。

回看每次运行细节

在结果总览或运行详情中查看输出、工具调用和失败原因，方便继续优化。