驻马店市网站建设_网站建设公司_数据统计_seo优化
2026/1/18 4:47:58 网站建设 项目流程

Open-AutoGLM安装全流程:Windows/Mac双系统指南

1. 引言

随着AI智能体技术的快速发展,手机端自动化操作正逐步从概念走向现实。Open-AutoGLM 是由智谱AI开源的一款基于视觉语言模型(VLM)的手机AI Agent框架,名为AutoGLM-Phone。它能够通过多模态理解手机屏幕内容,并结合自然语言指令自动执行复杂任务,如“打开小红书搜索美食”或“关注某抖音账号”,全程无需手动点击。

该系统依托 ADB(Android Debug Bridge)实现设备控制,利用强大的视觉语言模型解析界面元素与用户意图,再通过智能规划生成可执行的操作序列。无论是日常高频操作还是跨应用流程处理,Open-AutoGLM 都展现出极强的实用性与扩展性。

本文将提供一份完整、详尽且可落地的安装部署指南,覆盖 Windows 与 macOS 双平台环境,帮助开发者快速完成本地控制端配置,顺利连接真机并启动 AI 代理服务。


2. 系统架构与核心机制

2.1 整体工作流程

Open-AutoGLM 的运行依赖于三个关键组件协同工作:

  1. 云端/本地模型服务:负责接收截图和指令,输出结构化动作。
  2. 本地控制端(Open-AutoGLM 代码库):执行 Python 脚本,调用 ADB 控制设备,采集屏幕图像并发送请求。
  3. 安卓设备(真机或模拟器):被控目标,需开启调试权限并安装 ADB Keyboard。

其典型交互流程如下:

  • 用户输入自然语言指令
  • 控制端截取当前手机屏幕
  • 将截图 + 指令打包发送至模型服务
  • 模型返回下一步操作(如点击坐标、输入文本等)
  • 控制端通过 ADB 执行动作
  • 循环直至任务完成

2.2 核心优势

  • 多模态感知能力:融合图像与文本信息理解界面状态
  • 零编码自动化:仅凭自然语言即可驱动复杂操作链
  • 安全机制完善:敏感操作支持人工确认与接管
  • 远程调试支持:可通过 WiFi 实现无线 ADB 连接
  • 中文场景深度优化:专为国内主流 App 设计提示词与操作逻辑

3. 环境准备与前置条件

3.1 支持的操作系统

平台版本要求
WindowsWindows 10 / 11(64位)
macOSmacOS 10.15+(Intel 或 Apple Silicon)

建议使用 Python 3.10 或更高版本,避免兼容性问题。

3.2 必备软件与工具

  • Python 3.10+
  • Git
  • ADB 工具包(Platform Tools)
  • Android 设备:Android 7.0 及以上版本
  • USB 数据线(用于初始连接)

3.3 安卓设备设置

在开始前,请确保你的手机已完成以下设置:

开启开发者选项
  1. 进入「设置」→「关于手机」
  2. 连续点击「版本号」7次,直到提示“您已进入开发者模式”
启用 USB 调试
  1. 返回「设置」→「系统」→「开发者选项」
  2. 打开「USB 调试」开关
  3. (部分机型)还需启用「USB 调试(安全设置)」
安装 ADB Keyboard
  1. 下载 ADB Keyboard APK 并安装
  2. 进入「设置」→「语言与输入法」→「当前输入法」
  3. 切换为 “ADB Keyboard”

此输入法允许通过 ADB 发送中文字符,是实现自动化输入的关键。


4. ADB 环境配置(Windows & Mac)

ADB 是 Android 调试桥接工具,用于与设备通信。以下是双系统的配置方法。

4.1 Windows 配置步骤

  1. 访问 Android SDK Platform Tools 下载页
  2. 下载platform-tools-latest-windows.zip
  3. 解压到任意目录,例如:C:\platform-tools
  4. 添加环境变量:
    • 按下Win + R输入sysdm.cpl
    • 点击「高级」→「环境变量」
    • 在「系统变量」中找到Path,点击编辑 → 新建
    • 添加路径:C:\platform-tools
  5. 验证安装:
adb version

应输出类似:

Android Debug Bridge version 1.0.41

4.2 macOS 配置步骤

  1. 下载platform-tools-latest-darwin.zip
  2. 解压后放置于~/Downloads/platform-tools(或其他自定义路径)
  3. 打开终端,执行以下命令添加临时 PATH(推荐写入 shell 配置文件永久生效):
export PATH=${PATH}:~/Downloads/platform-tools

若希望永久生效,可将其写入.zshrc(默认 shell):

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc
  1. 验证安装:
adb version

5. 部署 Open-AutoGLM 控制端

5.1 克隆项目仓库

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

5.2 创建虚拟环境(推荐)

python -m venv venv source venv/bin/activate # macOS/Linux # 或在 Windows 上: # venv\Scripts\activate

5.3 安装依赖

pip install --upgrade pip pip install -r requirements.txt pip install -e .

注意:-e .表示以开发模式安装,便于后续修改源码调试。


6. 设备连接方式详解

6.1 USB 连接(推荐初学者使用)

  1. 使用 USB 数据线连接手机与电脑
  2. 手机弹出“允许USB调试?”对话框时,点击「允许」
  3. 在终端运行:
adb devices

预期输出:

List of devices attached ABCDEF1234567890 device

若显示unauthorized,请重新插拔并确认授权;若无设备,请检查 USB 模式是否设为“文件传输”。

6.2 WiFi 远程连接(适用于无线调试)

首次必须通过 USB 启用 TCP/IP 模式:

# 第一步:启用 ADB over TCP/IP adb tcpip 5555 # 第二步:断开 USB,获取手机 IP 地址 adb shell ip addr show wlan0 | grep inet # 第三步:连接设备(替换为实际IP) adb connect 192.168.1.100:5555

验证连接:

adb devices

应看到设备以 IP 形式列出。

成功后可拔掉数据线,实现完全无线控制。


7. 启动 AI 代理服务

Open-AutoGLM 支持两种模型接入方式:第三方 API 服务自建本地推理服务。我们分别介绍。

7.1 方式一:使用第三方模型服务(推荐新手)

目前支持:

  • 智谱 BigModel
  • ModelScope
示例:使用 BigModel 接口
python main.py \ --device-id ABCDEF1234567890 \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your-bigmodel-api-key" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
示例:使用 ModelScope 接口
python main.py \ --device-id ABCDEF1234567890 \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-modelscope-api-key" \ "打开美团搜索附近的火锅店"

替换--device-id为你通过adb devices获取的实际设备ID。

7.2 方式二:自行部署本地模型服务

适合有 GPU 资源的用户,延迟更低、隐私更强。

安装推理引擎(vLLM)
pip install vllm
启动模型服务
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

首次运行会自动下载模型(约 20GB),建议使用高速网络。

调用本地服务
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开微信给文件传输助手发消息:测试成功"

8. Python API 编程调用

除了命令行,你也可以在脚本中集成 Open-AutoGLM 功能。

8.1 基础调用示例

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型地址(本地或远程) model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b", ) # 初始化代理 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开淘宝搜索无线耳机") print(result)

8.2 远程设备管理 API

from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于WiFi连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

9. 常见问题排查

9.1 连接类问题

问题现象可能原因解决方案
adb devices无设备未开启USB调试检查开发者选项
显示unauthorized未授权调试重新插拔并点击“允许”
connect failed: Connection refused端口未开放确保adb tcpip 5555已执行
WiFi连接不稳定路由器限制改用USB或固定IP

9.2 模型服务问题

问题现象原因分析解决建议
模型响应乱码输入非UTF-8编码检查指令字符串编码
请求超时显存不足或 max-model-len 设置过小调整参数,增加 VRAM
无法加载模型网络中断或磁盘空间不足检查下载完整性
返回空操作提示词不匹配使用标准中文指令格式

9.3 输入法失效问题

  • 现象:无法输入中文
  • 原因:未切换至 ADB Keyboard
  • 解决:进入手机设置 → 输入法 → 默认输入法 → 选择 ADB Keyboard

10. 总结

Open-AutoGLM 作为首个面向手机端的开源多模态 AI Agent 框架,标志着个人设备智能化迈出了关键一步。本文详细介绍了其在Windows 与 macOS系统下的完整安装与配置流程,涵盖:

  • ADB 环境搭建
  • 手机端调试设置
  • 控制端代码部署
  • 本地与云端模型接入
  • 命令行与 Python API 使用
  • 常见问题解决方案

无论你是想构建自动化测试工具、打造私人数字助理,还是探索 AI Agent 在移动端的应用边界,Open-AutoGLM 都是一个极具潜力的技术起点。

下一步你可以尝试:

  • 自定义系统提示词以适配特定 App
  • 构建批量任务执行流水线
  • 结合 LangChain 实现更复杂的决策逻辑

掌握这套工具链,意味着你已经站在了移动智能自动化的前沿。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询