凉山彝族自治州网站建设_网站建设公司_过渡效果_seo优化
2026/1/22 10:43:08 网站建设 项目流程

手机AI助手来了!Open-AutoGLM本地部署完整流程

你有没有想过,有一天只要说一句话,手机就能自动帮你完成一系列操作?比如:“打开小红书搜美食”,然后它自己点开App、输入关键词、滑动浏览结果——全程不需要你动手。这听起来像科幻片的场景,现在通过Open-AutoGLM已经可以实现了。

这是一个由智谱开源的手机端AI Agent框架,名字叫AutoGLM-Phone,它结合视觉语言模型和自动化控制技术,真正实现了“动口不动手”的智能体验。本文将带你从零开始,一步步完成 Open-AutoGLM 的本地部署全过程,让你亲手打造属于自己的手机AI助手。

无论你是AI爱好者、自动化工具玩家,还是想提升效率的普通用户,这篇文章都能让你快速上手并看到真实效果。


1. 项目简介:什么是 Open-AutoGLM?

Open-AutoGLM是一个基于 AutoGLM 构建的手机端智能助理框架,核心组件是Phone Agent。它的目标很明确:让大模型“看懂”手机屏幕,并能像人一样去操作设备。

整个系统的工作流程如下:

  1. 视觉感知:通过ADB截取手机当前屏幕画面。
  2. 多模态理解:把图像 + 用户指令一起输入给视觉语言模型(VLM),让它理解“现在屏幕上有什么”以及“你想做什么”。
  3. 动作规划:模型输出下一步该执行的操作,比如点击某个坐标、滑动页面或输入文字。
  4. 自动执行:通过 ADB 指令在真机上模拟这些操作,实现全自动任务执行。

举个例子:

你说:“打开抖音,搜索ID为 dycwo11nt61d 的博主并关注他。”

AI会自动:

  • 启动抖音App
  • 找到搜索入口并点击
  • 输入指定ID
  • 进入主页
  • 点击“关注”按钮

整个过程完全无需人工干预,甚至连键盘都不用碰。

核心特性一览

特性说明
多模态理解结合屏幕截图与自然语言指令进行决策
自动化操作支持点击、滑动、输入、返回等常见交互
安全机制敏感操作(如登录、支付)支持人工确认接管
远程调试可通过WiFi连接设备,实现无线远程控制
中文优化预训练模型针对中文App界面做了专门优化

这个项目最大的亮点在于——你可以完全掌控数据和模型。所有处理都可以在本地完成,不依赖云端服务,隐私更有保障。


2. 准备工作:软硬件环境搭建

要让 Open-AutoGLM 正常运行,我们需要准备三部分:本地电脑环境、安卓设备设置、ADB工具配置

2.1 本地电脑环境要求

  • 操作系统:Windows 或 macOS(Linux也可但需自行适配)
  • Python版本:建议使用 Python 3.10 或更高版本
  • Git工具:用于克隆代码仓库
  • 网络环境:确保能正常访问Hugging Face或ModelScope下载模型

验证Python版本:

python --version

推荐使用虚拟环境隔离依赖:

python -m venv autoglm-env source autoglm-env/bin/activate # Linux/macOS # 或 autoglm-env\Scripts\activate # Windows

2.2 安卓设备准备

  • 设备类型:真实安卓手机或Android模拟器
  • 系统版本:Android 7.0 及以上
  • 存储空间:至少预留500MB用于调试和缓存
开启开发者模式与USB调试
  1. 进入手机「设置」→「关于手机」
  2. 连续点击“版本号”7次,直到提示“您已进入开发者模式”
  3. 返回设置主菜单 →「开发者选项」
  4. 开启「USB调试」功能

注意:不同品牌手机路径略有差异,请根据机型调整。

2.3 安装 ADB Keyboard(关键步骤)

为了让AI能够输入文字,我们需要安装一个特殊的输入法:ADB Keyboard

作用:允许通过ADB命令直接向手机发送文本输入,避免手动打字。

安装步骤:

  1. 下载 ADB Keyboard APK(GitHub开源项目)
  2. 将APK文件传到手机并安装
  3. 进入「设置」→「语言与输入法」→「默认键盘」
  4. 切换为 “ADB Keyboard”

测试是否生效:

adb shell input text "HelloWorld"

如果手机当前输入框中出现HelloWorld,说明配置成功。


3. 部署控制端:Open-AutoGLM 本地安装

接下来我们正式部署 Open-AutoGLM 的控制端代码。

3.1 克隆项目仓库

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目结构清晰,主要模块包括:

Open-AutoGLM/ ├── main.py # 主程序入口 ├── phone_agent/ # 核心逻辑包 │ ├── agent.py # AI代理主类 │ ├── adb/ # ADB连接与设备控制 │ ├── actions/ # 动作执行处理器 │ └── model/ # 模型调用接口 └── requirements.txt # 依赖列表

3.2 安装 Python 依赖

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装,方便后续修改源码。

常见依赖库说明:

  • torch,transformers:深度学习基础框架
  • fastapi,uvicorn:API服务支持(若启用本地模型服务)
  • opencv-python:图像预处理
  • adbutils:轻量级ADB操作库

安装完成后,可通过以下命令检查是否正常导入:

from phone_agent import PhoneAgent print("Open-AutoGLM 导入成功!")

4. 模型部署:启动本地推理服务

Open-AutoGLM 本身只是一个“指挥官”,真正的“大脑”是背后的视觉语言模型。我们需要先启动一个兼容 OpenAI 接口的模型服务。

这里推荐使用vLLM来部署模型,性能高且支持多模态输入。

4.1 下载模型权重

官方提供两个版本:

模型名称适用场景下载地址
AutoGLM-Phone-9B中文应用为主Hugging Face
AutoGLM-Phone-9B-Multilingual支持英文及多语言Hugging Face

建议选择中文版,更适合国内App环境。

使用git lfs下载(需提前安装 Git LFS):

git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

4.2 使用 vLLM 启动模型服务

确保已安装 vLLM:

pip install vllm

启动服务命令:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000

参数说明:

  • --model:模型本地路径
  • --port:服务端口,默认8000
  • --max-model-len:上下文长度,影响记忆能力
  • --mm_processor_kwargs:控制图像分辨率处理上限

启动成功后,你会看到类似输出:

INFO: Started server process [PID] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000

此时模型服务已在http://localhost:8000/v1提供 API 接口。


5. 连接手机设备:ADB 实现远程操控

现在我们已经准备好“大脑”(模型服务)和“指挥系统”(Open-AutoGLM代码),接下来就是让它们“看到”并“控制”你的手机。

5.1 USB 连接方式(推荐新手)

  1. 用数据线将手机连接电脑
  2. 手机弹出“允许USB调试?”对话框时,点击“允许”
  3. 在终端运行:
    adb devices
    输出应类似:
    List of devices attached 1234567890ABCDEF device

如果显示unauthorized,请重新插拔并确认授权。

5.2 WiFi 无线连接(适合远程使用)

优点:摆脱数据线束缚,可在同一局域网内远程控制。

步骤:

  1. 先用USB连接设备
  2. 开启ADB over TCP/IP:
    adb tcpip 5555
  3. 断开USB,获取手机IP地址(可在Wi-Fi设置中查看)
  4. 连接设备:
    adb connect 192.168.1.100:5555
  5. 再次运行adb devices验证连接状态

成功后即可拔掉数据线,实现无线操控。


6. 启动AI代理:让手机自己动起来

一切就绪,现在让我们下达第一条指令!

6.1 命令行方式运行任务

在项目根目录执行:

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索最近热门的咖啡店"

参数解释:

  • --device-id:来自adb devices的设备ID
  • --base-url:模型服务地址
  • 最后的字符串:你的自然语言指令

运行过程中,你会看到:

  • 实时截图上传日志
  • 模型分析结果(如识别出“搜索框”、“返回按钮”)
  • 执行的动作序列(点击、输入、滑动)

几秒钟后,你会发现手机自动打开了小红书,并完成了搜索操作。

6.2 Python API 调用(适合集成开发)

如果你希望将此功能嵌入其他程序,可以直接使用 Python API:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b" ) # 创建代理实例 agent = PhoneAgent(model_config=model_config, device_id="1234567890ABCDEF") # 执行任务 result = agent.run("打开美团,订今晚六点的火锅套餐") print("任务完成:", result)

这种方式便于批量处理任务或构建GUI界面。


7. 实际效果展示与使用建议

我亲自测试了多个场景,效果令人惊喜:

指令实际表现
“打开微信,给张三发消息说‘晚上聚餐吗?’”成功找到联系人并发送消息
“打开淘宝,搜索无线蓝牙耳机,按销量排序”自动进入搜索页并切换排序方式
“打开抖音,刷10秒视频,点赞第一个”完成滑动+识别点赞图标+点击

观察总结

优势明显

  • 对主流App识别准确率高
  • 操作流畅,平均响应时间 < 3秒
  • 支持复杂链式任务(多步操作)

注意事项

  • 屏幕分辨率过高可能导致截图传输慢(建议1080p以内)
  • 某些动态加载界面(如直播页)可能识别延迟
  • 首次运行建议开启日志详细模式(--verbose)便于调试

提升成功率的小技巧

  1. 保持屏幕亮度充足:避免因暗屏导致截图模糊
  2. 关闭手势导航:建议使用经典三键导航,元素更易定位
  3. 避免锁屏:任务执行期间不要让手机休眠
  4. 使用固定布局主题:某些定制ROM的图标位置会变动

8. 常见问题与排查指南

8.1 ADB 连接失败

现象:adb devices无设备或显示unauthorized

解决方法:

  • 重新开启USB调试
  • 清除授权记录:adb kill-server && adb start-server
  • 更换数据线或USB端口

8.2 模型无响应或乱码

现象:AI一直思考但不出结果,或输出乱码字符

原因排查:

  • 检查模型路径是否正确
  • 确认--max-model-len设置足够大(建议≥25480)
  • 查看GPU显存是否充足(9B模型至少需要16GB)

8.3 输入中文失败

现象:搜索词无法正确输入

解决方案:

  • 确保 ADB Keyboard 已设为默认输入法
  • 测试命令:adb shell am broadcast -a ADB_INPUT_TEXT --es msg "你好"
  • 若无效,尝试重启ADB服务

8.4 防火墙阻止连接(远程部署时)

当模型服务部署在云服务器上时,需开放对应端口:

# Ubuntu 示例 sudo ufw allow 8000

同时确保云平台安全组规则放行该端口。


9. 总结:迈向真正的手机AI助理时代

通过本文的完整流程,你应该已经成功部署了 Open-AutoGLM,并见证了AI如何接管你的手机完成实际任务。

回顾整个过程的关键节点:

  1. 环境准备:Python + ADB + 开发者权限
  2. 代码部署:克隆项目并安装依赖
  3. 模型启动:使用 vLLM 提供 OpenAI 兼容接口
  4. 设备连接:通过USB或WiFi建立ADB通道
  5. 任务执行:一句自然语言触发全自动操作

这不仅是一个技术玩具,更是未来人机交互方式的一次预演。想象一下,在驾驶、做饭或双手不便时,只需一句话就能让手机替你完成操作——这才是AI应有的样子。

更重要的是,这一切都在本地完成,没有数据上传,没有隐私泄露风险。你拥有对设备的绝对控制权。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询