AndroidWorld

对于每一个任务都有自己的奖励机制, 状态控制

奖励机制使用 adb 来获取系统状态; 对于隐式系统状态采用检查 UI element 的方式判断是否完成

SPA-BENCH

三种:

分为人工和自动

自动的分为三类:

alt text

AndroidWorld 的问题:

不支持中文; 需要手工的 validation; 判断任务完成只依赖系统状态;

包含一个简明的任务描述, 一组人类操作轨迹的截图, 和最终状态的核心组件

alt text

每一轮选一个任务和 Agent, 返回 Agent 的动作轨迹

同时, 模拟器将系统状态保存在快照中, 减少任务 setup 的时间

有 7 个评判准则

同时, 正确性检测分为 Single-App 和 Cross-App

先使用 PaddleOCR 粗略地根据 key component 检测, 筛选掉不相关的轨迹; 然后再用另一个 MLLM 根据任务描述和轨迹综合判断是否成功

alt text

先用一个 MLLM 将任务分成多个子任务, 另一个 MLLM 将轨迹分为对应的阶段

然后每一阶段依次用上面的方法判断

alt text

参考