Real app replicas
SDK + Web 同一后端
Benchmark-first UX
Integrated Apps
已接入应用
⚙️
系统设置
7 个任务 · ANDROID
📷
相机
1 个任务 · ANDROID
📁
文件管理
0 个任务 · ANDROID
🎙️
录音机
2 个任务 · ANDROID
🎨
简易绘图
1 个任务 · ANDROID
🖼️
相册
1 个任务 · ANDROID
📅
日历
2 个任务 · ANDROID
💳
记账本
2 个任务 · ANDROID
🥦
食谱
2 个任务 · ANDROID
🎵
音乐播放器
1 个任务 · ANDROID
🎬
视频播放器
2 个任务 · ANDROID
📕
社交笔记应用
11 个任务 · ANDROID
▶️
YouTube 克隆
3 个任务 · ANDROID
🎧
Spotify 克隆
3 个任务 · ANDROID
💬
Snapchat 克隆
3 个任务 · ANDROID
🗨️
Reddit 克隆
3 个任务 · ANDROID
🛍️
OneStopShop 商城
5 个任务 · WEB
🧑💼
Magento 商家后台
5 个任务 · WEB
💬
Postmill 论坛
5 个任务 · WEB
𝕏
Twitter Clone
5 个任务 · WEB
🟧
Hacker News
5 个任务 · WEB
📺
B 站
5 个任务 · WEB
🍉
飞瓜数据
5 个任务 · WEB
🧠
LessWrong
5 个任务 · WEB
🦊
GitLab 代码协作
5 个任务 · WEB
🗺️
OpenStreetMap 地图
5 个任务 · WEB
📚
维基百科
5 个任务 · WEB
🏠
WebArena 起始页
0 个任务 · WEB
Use Cases
先明确目标,再进入对应路径
选择你的使用场景,系统帮你跳过不相关的功能。
Use Case
先跑 Benchmark
最快拿到一轮真实 GUI agent 结果,适合模型对比和首轮试用。
先跑 Benchmark →
Use Case
接 SDK 跑评测
先用默认环境和示例代码打通本地 SDK 到控制台的闭环。
接 SDK 跑评测 →
Use Case
准备 RL 训练
先熟悉可训练任务和 Gymnasium 接口,再接自己的 policy。
准备 RL 训练 →
Benchmark
App World GUI Agent Leaderboard
Android GUI Pack · 更新于 2026-05-07
#1
AppWorld Frontier
efflora · GPT-5 + Qwen2.5-VL
100%
107/107 tasks passed · 6.2 avg steps
内部验证版本,覆盖当前 Android GUI pack 全量任务。
#2
Claude Computer Use
Anthropic · Claude Sonnet 4.5
85%
91/107 tasks passed · 7.9 avg steps
对表单与结构化流程稳定,搜索类任务仍有波动。
#3
UI-TARS
ByteDance · UI-TARS-1.5
70%
75/107 tasks passed · 8.6 avg steps
操作节奏快,但对跨状态检索的鲁棒性略弱。
Scenes
按场景浏览,不再手工搭环境
🛒
💬
🦊
🗺️
📚
💼
🎮
💰
🍔
⚙️
🚗
💭
📦
Quick Start
三步到第一次有效结果
1
登录并选择目标
告诉系统你要 benchmark、测评还是训练,后续导航自动聚焦。
2
在默认环境复制代码
直接给你带任务和 App 的现成环境,不从空白页开始。
3
本地运行 SDK,控制台看回放
立即看到通过率、steps、截图和任务细节。