2024年AI自动化入门必看:Open-AutoGLM多模态代理部署教程
你有没有想过,让AI像真人一样操作你的手机?不是简单的语音助手,而是能“看懂”屏幕、理解界面、自动点击滑动,甚至帮你完成一整套复杂任务的智能体。比如你说一句:“打开小红书搜美食”,它就能自己启动App、输入关键词、浏览结果——整个过程完全无需你动手。
这听起来像科幻,但在2024年,它已经变成了现实。今天要介绍的Open-AutoGLM,就是这样一个由智谱开源的手机端AI Agent框架,它正在重新定义我们与移动设备的交互方式。
1. Open-AutoGLM 是什么?让AI真正“用”手机
1.1 多模态理解 + 自动执行 = 真正的智能助理
传统的语音助手只能做简单指令转发,而 Open-AutoGLM 不同。它是基于视觉语言模型(VLM)构建的多模态代理系统,不仅能“听懂”你的自然语言指令,还能通过截图“看见”手机当前的界面内容,结合语义理解与动作规划,自主决定下一步该点哪里、怎么操作。
这个项目的核心是AutoGLM-Phone框架,背后依托的是强大的视觉-语言大模型。你可以把它想象成一个会用手机的AI实习生:你只需要告诉他目标,剩下的从打开App到完成操作,全部由它来执行。
1.2 工作原理:三步实现全自动操作
整个流程分为三个关键环节:
- 感知层:通过 ADB 截图获取手机屏幕图像,送入视觉语言模型进行解析,识别出界面上的文字、按钮、布局结构。
- 决策层:将用户指令和当前画面信息一起输入模型,生成下一步操作动作(如点击某个坐标、滑动、输入文字等)。
- 执行层:通过 ADB 命令实际操控设备,完成点击、输入、返回等行为,并持续循环直到任务结束。
这套机制使得 AI 能够应对不同 App 的动态界面,具备真正的泛化能力,而不是依赖固定脚本。
1.3 安全设计:敏感操作有人工接管
考虑到自动操作可能带来的风险,系统内置了安全机制:
- 在涉及登录、支付、权限申请等敏感场景时,会暂停并提示用户确认;
- 支持人工临时接管,随时中断或干预流程;
- 所有操作日志可追溯,确保透明可控。
同时,还支持远程 ADB 调试,可以通过 WiFi 或局域网连接设备,方便开发者在无物理接触的情况下进行测试和调试。
2. 环境准备:搭建本地控制端
要让 Open-AutoGLM 正常运行,你需要在本地电脑上配置控制端,用来连接手机并通过网络调用云端的 AI 模型服务。以下是详细准备步骤。
2.1 硬件与软件要求
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows 或 macOS |
| Python 版本 | 推荐 Python 3.10+ |
| 安卓设备 | Android 7.0 及以上版本(真机或模拟器均可) |
| ADB 工具 | 必须安装并配置环境变量 |
提示:建议使用性能较好的中高端安卓手机,避免因系统卡顿影响 AI 判断准确性。
2.2 安装与配置 ADB
ADB(Android Debug Bridge)是连接电脑与安卓设备的核心工具。我们需要先下载平台工具包并将其加入系统路径。
Windows 用户配置方法:
- 下载 Android Platform Tools 并解压。
- 按
Win + R输入sysdm.cpl,打开“系统属性”。 - 进入“高级” → “环境变量”。
- 在“系统变量”中的
Path添加解压后的文件夹路径(例如:C:\platform-tools)。 - 打开命令行,输入:
如果显示版本号,则说明配置成功。adb version
macOS 用户配置方法:
在终端中执行以下命令(假设你把 platform-tools 解压到了 Downloads 文件夹):
export PATH=${PATH}:~/Downloads/platform-tools为了永久生效,可以将这条命令添加到 shell 配置文件中(如.zshrc或.bash_profile)。
3. 手机端设置:开启调试与输入法
为了让电脑能够控制手机,必须开启开发者选项和 USB 调试功能。此外,还需要安装专用输入法以便 AI 输入文本。
3.1 开启开发者模式
进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。
3.2 启用 USB 调试
返回设置主菜单 → “开发者选项” → 找到并勾选“USB 调试”。
⚠️ 注意:部分品牌手机(如小米、华为)还需额外开启“USB 调试(安全设置)”或授权弹窗确认。
3.3 安装 ADB Keyboard 输入法
由于 AI 需要输入文字(如搜索关键词),但不能使用常规输入法触发软键盘(会遮挡界面),因此需要安装一个无界面的输入法工具。
- 下载 ADB Keyboard APK 并安装到手机。
- 进入“设置” → “语言与输入法” → “默认键盘” → 切换为ADB Keyboard。
这样,AI 就可以通过 ADB 命令直接发送文本,无需手动打字。
4. 部署 Open-AutoGLM 控制端代码
现在我们开始部署本地控制程序,它是连接手机与云端模型的桥梁。
4.1 克隆项目仓库
打开终端或命令行工具,执行以下命令:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM4.2 安装依赖库
推荐使用虚拟环境以避免依赖冲突:
python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate.bat (Windows)然后安装所需依赖:
pip install -r requirements.txt pip install -e .
-e .表示以可编辑模式安装,便于后续修改代码。
5. 连接设备:USB 与 WiFi 两种方式
设备连接是关键一步。Open-AutoGLM 支持 USB 和无线两种连接方式,推荐初次使用时优先选择 USB,稳定性更高。
5.1 使用 USB 连接
用数据线将手机连接电脑。
手机弹出“允许USB调试?”对话框时,点击“允许”。
在终端运行:
adb devices输出应类似:
List of devices attached 1234567890abcde device出现
device状态即表示连接成功。
5.2 使用 WiFi 远程连接(适合远程调试)
如果你希望摆脱数据线束缚,可以启用 ADB over TCP/IP。
第一步:通过 USB 启动 TCP 模式
adb tcpip 5555这会开启设备的 5555 端口用于网络连接。
第二步:断开 USB,使用 IP 连接
确保手机和电脑在同一局域网下,获取手机 IP 地址(可在“设置-关于手机-状态信息”中查看),然后执行:
adb connect 192.168.x.x:5555再次运行adb devices,如果看到设备出现在列表中,说明无线连接成功。
✅ 成功后即可拔掉数据线,实现远程控制。
6. 启动 AI 代理:下达第一条指令
一切就绪!现在我们可以启动 AI,让它接管手机操作。
6.1 命令行方式运行任务
在项目根目录下执行:
python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:来自adb devices显示的设备标识,如1234567890abcde或192.168.1.100:5555--base-url:指向你部署的 vLLM 服务地址,格式为http://公网IP:端口/v1--model:指定使用的模型名称,目前支持autoglm-phone-9b- 最后的字符串:你要下达的自然语言指令
执行后,你会看到 AI 开始自动截图、分析界面、生成操作序列,并逐步完成任务。整个过程就像有人在替你操作手机。
6.2 使用 Python API 实现更灵活控制
除了命令行,你也可以在自己的脚本中调用 Open-AutoGLM 提供的 API,实现程序化控制。
from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 若使用 USB,可启用 TCP/IP 方便后续无线调试 success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备已开启无线调试,IP地址: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")这种方式非常适合集成到自动化测试、批量设备管理、远程运维等场景中。
7. 常见问题与排查建议
尽管 Open-AutoGLM 设计得尽可能易用,但在实际部署过程中仍可能出现一些问题。以下是常见故障及解决方案。
7.1 ADB 连接失败
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices显示 unauthorized | 未授权调试 | 在手机上确认“允许USB调试”弹窗 |
| 显示 offline 或无法识别 | 驱动问题(Windows) | 安装手机厂商官方驱动,或尝试更换数据线 |
| WiFi 连接超时 | 网络不在同一局域网 | 检查手机和电脑是否连同一个路由器 |
7.2 模型无响应或乱码
- 检查 vLLM 服务是否正常运行:访问
http://<server-ip>:<port>/health查看健康状态。 - 核对启动参数:特别是
--max-model-len和显存分配,建议至少 24GB GPU 显存运行 9B 模型。 - 确认 base-url 格式正确:必须包含
/v1路径,否则无法匹配 OpenAI 兼容接口。
7.3 AI 操作错误或卡住
- 屏幕分辨率过高:可能导致截图模糊,影响模型识别。建议使用 1080p 左右分辨率。
- App 界面变化频繁:某些 App 动态加载元素较多,AI 可能误判。可尝试增加等待时间或优化提示词。
- 输入法未切换:若未使用 ADB Keyboard,AI 无法输入文字,请务必完成第3节设置。
8. 总结:迈向真正的手机自动化时代
Open-AutoGLM 的出现,标志着我们在 AI 自动化道路上迈出了重要一步。它不再局限于文本生成或语音交互,而是真正实现了“看得见、听得懂、做得准”的多模态智能代理。
通过本文的完整部署指南,你应该已经掌握了如何:
- 配置本地开发环境;
- 设置安卓设备调试权限;
- 部署 Open-AutoGLM 控制端;
- 使用 ADB 连接手机;
- 调用云端模型执行自然语言指令;
- 排查常见连接与运行问题。
无论是用于个人效率提升、App 自动化测试,还是构建下一代智能助手,Open-AutoGLM 都提供了强大而灵活的基础能力。
未来,随着模型能力的进一步增强,这类 AI Agent 将不仅能操作手机,还能跨平台协同、理解上下文意图、甚至主动提供建议——真正的“数字分身”正在到来。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。