Open-AutoGLM安装全流程:Windows/Mac双系统指南
1. 引言
随着AI智能体技术的快速发展,手机端自动化操作正逐步从概念走向现实。Open-AutoGLM 是由智谱AI开源的一款基于视觉语言模型(VLM)的手机AI Agent框架,名为AutoGLM-Phone。它能够通过多模态理解手机屏幕内容,并结合自然语言指令自动执行复杂任务,如“打开小红书搜索美食”或“关注某抖音账号”,全程无需手动点击。
该系统依托 ADB(Android Debug Bridge)实现设备控制,利用强大的视觉语言模型解析界面元素与用户意图,再通过智能规划生成可执行的操作序列。无论是日常高频操作还是跨应用流程处理,Open-AutoGLM 都展现出极强的实用性与扩展性。
本文将提供一份完整、详尽且可落地的安装部署指南,覆盖 Windows 与 macOS 双平台环境,帮助开发者快速完成本地控制端配置,顺利连接真机并启动 AI 代理服务。
2. 系统架构与核心机制
2.1 整体工作流程
Open-AutoGLM 的运行依赖于三个关键组件协同工作:
- 云端/本地模型服务:负责接收截图和指令,输出结构化动作。
- 本地控制端(Open-AutoGLM 代码库):执行 Python 脚本,调用 ADB 控制设备,采集屏幕图像并发送请求。
- 安卓设备(真机或模拟器):被控目标,需开启调试权限并安装 ADB Keyboard。
其典型交互流程如下:
- 用户输入自然语言指令
- 控制端截取当前手机屏幕
- 将截图 + 指令打包发送至模型服务
- 模型返回下一步操作(如点击坐标、输入文本等)
- 控制端通过 ADB 执行动作
- 循环直至任务完成
2.2 核心优势
- ✅多模态感知能力:融合图像与文本信息理解界面状态
- ✅零编码自动化:仅凭自然语言即可驱动复杂操作链
- ✅安全机制完善:敏感操作支持人工确认与接管
- ✅远程调试支持:可通过 WiFi 实现无线 ADB 连接
- ✅中文场景深度优化:专为国内主流 App 设计提示词与操作逻辑
3. 环境准备与前置条件
3.1 支持的操作系统
| 平台 | 版本要求 |
|---|---|
| Windows | Windows 10 / 11(64位) |
| macOS | macOS 10.15+(Intel 或 Apple Silicon) |
建议使用 Python 3.10 或更高版本,避免兼容性问题。
3.2 必备软件与工具
- Python 3.10+
- Git
- ADB 工具包(Platform Tools)
- Android 设备:Android 7.0 及以上版本
- USB 数据线(用于初始连接)
3.3 安卓设备设置
在开始前,请确保你的手机已完成以下设置:
开启开发者选项
- 进入「设置」→「关于手机」
- 连续点击「版本号」7次,直到提示“您已进入开发者模式”
启用 USB 调试
- 返回「设置」→「系统」→「开发者选项」
- 打开「USB 调试」开关
- (部分机型)还需启用「USB 调试(安全设置)」
安装 ADB Keyboard
- 下载 ADB Keyboard APK 并安装
- 进入「设置」→「语言与输入法」→「当前输入法」
- 切换为 “ADB Keyboard”
此输入法允许通过 ADB 发送中文字符,是实现自动化输入的关键。
4. ADB 环境配置(Windows & Mac)
ADB 是 Android 调试桥接工具,用于与设备通信。以下是双系统的配置方法。
4.1 Windows 配置步骤
- 访问 Android SDK Platform Tools 下载页
- 下载
platform-tools-latest-windows.zip - 解压到任意目录,例如:
C:\platform-tools - 添加环境变量:
- 按下
Win + R输入sysdm.cpl - 点击「高级」→「环境变量」
- 在「系统变量」中找到
Path,点击编辑 → 新建 - 添加路径:
C:\platform-tools
- 按下
- 验证安装:
adb version应输出类似:
Android Debug Bridge version 1.0.414.2 macOS 配置步骤
- 下载
platform-tools-latest-darwin.zip - 解压后放置于
~/Downloads/platform-tools(或其他自定义路径) - 打开终端,执行以下命令添加临时 PATH(推荐写入 shell 配置文件永久生效):
export PATH=${PATH}:~/Downloads/platform-tools若希望永久生效,可将其写入.zshrc(默认 shell):
echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc- 验证安装:
adb version5. 部署 Open-AutoGLM 控制端
5.1 克隆项目仓库
打开终端或命令行工具,执行:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM5.2 创建虚拟环境(推荐)
python -m venv venv source venv/bin/activate # macOS/Linux # 或在 Windows 上: # venv\Scripts\activate5.3 安装依赖
pip install --upgrade pip pip install -r requirements.txt pip install -e .注意:
-e .表示以开发模式安装,便于后续修改源码调试。
6. 设备连接方式详解
6.1 USB 连接(推荐初学者使用)
- 使用 USB 数据线连接手机与电脑
- 手机弹出“允许USB调试?”对话框时,点击「允许」
- 在终端运行:
adb devices预期输出:
List of devices attached ABCDEF1234567890 device若显示
unauthorized,请重新插拔并确认授权;若无设备,请检查 USB 模式是否设为“文件传输”。
6.2 WiFi 远程连接(适用于无线调试)
首次必须通过 USB 启用 TCP/IP 模式:
# 第一步:启用 ADB over TCP/IP adb tcpip 5555 # 第二步:断开 USB,获取手机 IP 地址 adb shell ip addr show wlan0 | grep inet # 第三步:连接设备(替换为实际IP) adb connect 192.168.1.100:5555验证连接:
adb devices应看到设备以 IP 形式列出。
成功后可拔掉数据线,实现完全无线控制。
7. 启动 AI 代理服务
Open-AutoGLM 支持两种模型接入方式:第三方 API 服务和自建本地推理服务。我们分别介绍。
7.1 方式一:使用第三方模型服务(推荐新手)
目前支持:
- 智谱 BigModel
- ModelScope
示例:使用 BigModel 接口
python main.py \ --device-id ABCDEF1234567890 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your-bigmodel-api-key" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"示例:使用 ModelScope 接口
python main.py \ --device-id ABCDEF1234567890 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-modelscope-api-key" \ "打开美团搜索附近的火锅店"替换
--device-id为你通过adb devices获取的实际设备ID。
7.2 方式二:自行部署本地模型服务
适合有 GPU 资源的用户,延迟更低、隐私更强。
安装推理引擎(vLLM)
pip install vllm启动模型服务
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model zai-org/AutoGLM-Phone-9B \ --port 8000首次运行会自动下载模型(约 20GB),建议使用高速网络。
调用本地服务
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信给文件传输助手发消息:测试成功"8. Python API 编程调用
除了命令行,你也可以在脚本中集成 Open-AutoGLM 功能。
8.1 基础调用示例
from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型地址(本地或远程) model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 初始化代理 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开淘宝搜索无线耳机") print(result)8.2 远程设备管理 API
from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")9. 常见问题排查
9.1 连接类问题
| 问题现象 | 可能原因 | 解决方案 |
|---|---|---|
adb devices无设备 | 未开启USB调试 | 检查开发者选项 |
显示unauthorized | 未授权调试 | 重新插拔并点击“允许” |
connect failed: Connection refused | 端口未开放 | 确保adb tcpip 5555已执行 |
| WiFi连接不稳定 | 路由器限制 | 改用USB或固定IP |
9.2 模型服务问题
| 问题现象 | 原因分析 | 解决建议 |
|---|---|---|
| 模型响应乱码 | 输入非UTF-8编码 | 检查指令字符串编码 |
| 请求超时 | 显存不足或 max-model-len 设置过小 | 调整参数,增加 VRAM |
| 无法加载模型 | 网络中断或磁盘空间不足 | 检查下载完整性 |
| 返回空操作 | 提示词不匹配 | 使用标准中文指令格式 |
9.3 输入法失效问题
- 现象:无法输入中文
- 原因:未切换至 ADB Keyboard
- 解决:进入手机设置 → 输入法 → 默认输入法 → 选择 ADB Keyboard
10. 总结
Open-AutoGLM 作为首个面向手机端的开源多模态 AI Agent 框架,标志着个人设备智能化迈出了关键一步。本文详细介绍了其在Windows 与 macOS系统下的完整安装与配置流程,涵盖:
- ADB 环境搭建
- 手机端调试设置
- 控制端代码部署
- 本地与云端模型接入
- 命令行与 Python API 使用
- 常见问题解决方案
无论你是想构建自动化测试工具、打造私人数字助理,还是探索 AI Agent 在移动端的应用边界,Open-AutoGLM 都是一个极具潜力的技术起点。
下一步你可以尝试:
- 自定义系统提示词以适配特定 App
- 构建批量任务执行流水线
- 结合 LangChain 实现更复杂的决策逻辑
掌握这套工具链,意味着你已经站在了移动智能自动化的前沿。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。