Skip to content

AndroidWorld

对于每一个任务都有自己的奖励机制, 状态控制

奖励机制使用 adb 来获取系统状态; 对于隐式系统状态采用检查 UI element 的方式判断是否完成

SPA-BENCH

Agents

三种:

  1. 基于文本: 使用 UI 的 XML 文件, 或将图片转换成文本描述
  2. 基于图像: 使用截图
  3. 两者结合

Evaluations

分为人工和自动

自动的分为三类:

  1. 基于动作: 与人类的演示动作比较, 但一般成功的动作轨迹不止一条
  2. 基于状态: 检查最终的状态是否最优, 但是次优的动作可能被忽略
  3. 两者结合

对比 AndroidWorld

alt text

AndroidWorld 的问题:

不支持中文; 需要手工的 validation; 判断任务完成只依赖系统状态;

SPA-BENCH

Task construction

包含一个简明的任务描述, 一组人类操作轨迹的截图, 和最终状态的核心组件

Agent Framework

alt text

每一轮选一个任务和 Agent, 返回 Agent 的动作轨迹

同时, 模拟器将系统状态保存在快照中, 减少任务 setup 的时间

Automated Evaluation Framework

有 7 个评判准则

同时, 正确性检测分为 Single-App 和 Cross-App

  1. Single-App

先使用 PaddleOCR 粗略地根据 key component 检测, 筛选掉不相关的轨迹; 然后再用另一个 MLLM 根据任务描述和轨迹综合判断是否成功

alt text

  1. Cross-App

先用一个 MLLM 将任务分成多个子任务, 另一个 MLLM 将轨迹分为对应的阶段

然后每一阶段依次用上面的方法判断

alt text


参考

  1. Android in the Wild: A Large-Scale Dataset for Android Device Control

  2. ANDROIDWORLD: A DYNAMIC BENCHMARKING ENVIRONMENT FOR AUTONOMOUS AGENTS

  3. SPA-BENCH: A COMPREHENSIVE BENCHMARK FOR SMARTPHONE AGENT EVALUATION