AndroidWorld
对于每一个任务都有自己的奖励机制, 状态控制
奖励机制使用 adb
来获取系统状态; 对于隐式系统状态采用检查 UI element 的方式判断是否完成
SPA-BENCH
related works
Agents
三种:
- 基于文本: 使用 UI 的 XML 文件, 或将图片转换成文本描述
- 基于图像: 使用截图
- 两者结合
Evaluations
分为人工和自动
自动的分为三类:
- 基于动作: 与人类的演示动作比较, 但一般成功的动作轨迹不止一条
- 基于状态: 检查最终的状态是否最优, 但是次优的动作可能被忽略
- 两者结合
对比 AndroidWorld
AndroidWorld 的问题:
不支持中文; 需要手工的 validation; 判断任务完成只依赖系统状态;
SPA-BENCH
Task construction
包含一个简明的任务描述, 一组人类操作轨迹的截图, 和最终状态的核心组件
Agent Framework
每一轮选一个任务和 Agent, 返回 Agent 的动作轨迹
同时, 模拟器将系统状态保存在快照中, 减少任务 setup 的时间
Automated Evaluation Framework
有 7 个评判准则
同时, 正确性检测分为 Single-App 和 Cross-App
- Single-App
先使用 PaddleOCR 粗略地根据 key component 检测, 筛选掉不相关的轨迹; 然后再用另一个 MLLM 根据任务描述和轨迹综合判断是否成功
- Cross-App
先用一个 MLLM 将任务分成多个子任务, 另一个 MLLM 将轨迹分为对应的阶段
然后每一阶段依次用上面的方法判断
参考