App World

把真实 App 变成
可测评、可训练、可比较的
Agent 环境

统一 API、预制环境、任务回放、Gymnasium 接口。
不是演示一个 Agent,而是让你稳定地比较很多 Agent。

28 已接入 App
107 官方任务
12 覆盖场景
100% 榜单最佳
Real app replicas SDK + Web 同一后端 Benchmark-first UX
Integrated Apps

已接入应用

⚙️
系统设置
7 个任务 · ANDROID
📷
相机
1 个任务 · ANDROID
📁
文件管理
0 个任务 · ANDROID
🎙️
录音机
2 个任务 · ANDROID
🎨
简易绘图
1 个任务 · ANDROID
🖼️
相册
1 个任务 · ANDROID
📅
日历
2 个任务 · ANDROID
💳
记账本
2 个任务 · ANDROID
🥦
食谱
2 个任务 · ANDROID
🎵
音乐播放器
1 个任务 · ANDROID
🎬
视频播放器
2 个任务 · ANDROID
📕
社交笔记应用
11 个任务 · ANDROID
▶️
YouTube 克隆
3 个任务 · ANDROID
🎧
Spotify 克隆
3 个任务 · ANDROID
💬
Snapchat 克隆
3 个任务 · ANDROID
🗨️
Reddit 克隆
3 个任务 · ANDROID
🛍️
OneStopShop 商城
5 个任务 · WEB
🧑‍💼
Magento 商家后台
5 个任务 · WEB
💬
Postmill 论坛
5 个任务 · WEB
𝕏
Twitter Clone
5 个任务 · WEB
🟧
Hacker News
5 个任务 · WEB
📺
B 站
5 个任务 · WEB
🍉
飞瓜数据
5 个任务 · WEB
🧠
LessWrong
5 个任务 · WEB
🦊
GitLab 代码协作
5 个任务 · WEB
🗺️
OpenStreetMap 地图
5 个任务 · WEB
📚
维基百科
5 个任务 · WEB
🏠
WebArena 起始页
0 个任务 · WEB
Use Cases

先明确目标,再进入对应路径

选择你的使用场景,系统帮你跳过不相关的功能。

Use Case

先跑 Benchmark

最快拿到一轮真实 GUI agent 结果,适合模型对比和首轮试用。

先跑 Benchmark →
Use Case

接 SDK 跑评测

先用默认环境和示例代码打通本地 SDK 到控制台的闭环。

接 SDK 跑评测 →
Use Case

准备 RL 训练

先熟悉可训练任务和 Gymnasium 接口,再接自己的 policy。

准备 RL 训练 →
Benchmark

App World GUI Agent Leaderboard

Android GUI Pack · 更新于 2026-05-07

#1

AppWorld Frontier

efflora · GPT-5 + Qwen2.5-VL

100%
107/107 tasks passed · 6.2 avg steps

内部验证版本,覆盖当前 Android GUI pack 全量任务。

#2

Claude Computer Use

Anthropic · Claude Sonnet 4.5

85%
91/107 tasks passed · 7.9 avg steps

对表单与结构化流程稳定,搜索类任务仍有波动。

#3

UI-TARS

ByteDance · UI-TARS-1.5

70%
75/107 tasks passed · 8.6 avg steps

操作节奏快,但对跨状态检索的鲁棒性略弱。

Scenes

按场景浏览,不再手工搭环境

🛒
电商
16 个任务 · 3 个 App
💬
论坛社区
18 个任务 · 4 个 App
🦊
代码协作
5 个任务 · 1 个 App
🗺️
地图导航
5 个任务 · 1 个 App
📚
知识库
5 个任务 · 1 个 App
💼
办公
8 个任务 · 3 个 App
🎮
娱乐
17 个任务 · 8 个 App
💰
金融
4 个任务 · 1 个 App
🍔
外卖
2 个任务 · 1 个 App
⚙️
系统
6 个任务 · 1 个 App
🚗
出行
0 个任务 · 0 个 App
💭
社交
18 个任务 · 3 个 App
📦
其他
3 个任务 · 1 个 App
Quick Start

三步到第一次有效结果

1

登录并选择目标

告诉系统你要 benchmark、测评还是训练,后续导航自动聚焦。

2

在默认环境复制代码

直接给你带任务和 App 的现成环境,不从空白页开始。

3

本地运行 SDK,控制台看回放

立即看到通过率、steps、截图和任务细节。