凉山彝族自治州网站建设_网站建设公司_过渡效果

手机AI助手来了！Open-AutoGLM本地部署完整流程

你有没有想过，有一天只要说一句话，手机就能自动帮你完成一系列操作？比如：“打开小红书搜美食”，然后它自己点开App、输入关键词、滑动浏览结果——全程不需要你动手。这听起来像科幻片的场景，现在通过Open-AutoGLM已经可以实现了。

这是一个由智谱开源的手机端AI Agent框架，名字叫AutoGLM-Phone，它结合视觉语言模型和自动化控制技术，真正实现了“动口不动手”的智能体验。本文将带你从零开始，一步步完成 Open-AutoGLM 的本地部署全过程，让你亲手打造属于自己的手机AI助手。

无论你是AI爱好者、自动化工具玩家，还是想提升效率的普通用户，这篇文章都能让你快速上手并看到真实效果。

1. 项目简介：什么是 Open-AutoGLM？

Open-AutoGLM是一个基于 AutoGLM 构建的手机端智能助理框架，核心组件是Phone Agent。它的目标很明确：让大模型“看懂”手机屏幕，并能像人一样去操作设备。

整个系统的工作流程如下：

视觉感知：通过ADB截取手机当前屏幕画面。
多模态理解：把图像 + 用户指令一起输入给视觉语言模型（VLM），让它理解“现在屏幕上有什么”以及“你想做什么”。
动作规划：模型输出下一步该执行的操作，比如点击某个坐标、滑动页面或输入文字。
自动执行：通过 ADB 指令在真机上模拟这些操作，实现全自动任务执行。

举个例子：

你说：“打开抖音，搜索ID为 dycwo11nt61d 的博主并关注他。”
AI会自动：
启动抖音App
找到搜索入口并点击
输入指定ID
进入主页
点击“关注”按钮

整个过程完全无需人工干预，甚至连键盘都不用碰。

核心特性一览

特性	说明
多模态理解	结合屏幕截图与自然语言指令进行决策
自动化操作	支持点击、滑动、输入、返回等常见交互
安全机制	敏感操作（如登录、支付）支持人工确认接管
远程调试	可通过WiFi连接设备，实现无线远程控制
中文优化	预训练模型针对中文App界面做了专门优化

这个项目最大的亮点在于——你可以完全掌控数据和模型。所有处理都可以在本地完成，不依赖云端服务，隐私更有保障。

2. 准备工作：软硬件环境搭建

要让 Open-AutoGLM 正常运行，我们需要准备三部分：本地电脑环境、安卓设备设置、ADB工具配置。

2.1 本地电脑环境要求

操作系统：Windows 或 macOS（Linux也可但需自行适配）
Python版本：建议使用 Python 3.10 或更高版本
Git工具：用于克隆代码仓库
网络环境：确保能正常访问Hugging Face或ModelScope下载模型

验证Python版本：

python --version

推荐使用虚拟环境隔离依赖：

python -m venv autoglm-env source autoglm-env/bin/activate # Linux/macOS # 或 autoglm-env\Scripts\activate # Windows

2.2 安卓设备准备

设备类型：真实安卓手机或Android模拟器
系统版本：Android 7.0 及以上
存储空间：至少预留500MB用于调试和缓存

开启开发者模式与USB调试

进入手机「设置」→「关于手机」
连续点击“版本号”7次，直到提示“您已进入开发者模式”
返回设置主菜单 →「开发者选项」
开启「USB调试」功能

注意：不同品牌手机路径略有差异，请根据机型调整。

2.3 安装 ADB Keyboard（关键步骤）

为了让AI能够输入文字，我们需要安装一个特殊的输入法：ADB Keyboard。

作用：允许通过ADB命令直接向手机发送文本输入，避免手动打字。

安装步骤：

下载 ADB Keyboard APK（GitHub开源项目）
将APK文件传到手机并安装
进入「设置」→「语言与输入法」→「默认键盘」
切换为 “ADB Keyboard”

测试是否生效：

adb shell input text "HelloWorld"

如果手机当前输入框中出现HelloWorld，说明配置成功。

3. 部署控制端：Open-AutoGLM 本地安装

接下来我们正式部署 Open-AutoGLM 的控制端代码。

3.1 克隆项目仓库

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目结构清晰，主要模块包括：

Open-AutoGLM/ ├── main.py # 主程序入口 ├── phone_agent/ # 核心逻辑包 │ ├── agent.py # AI代理主类 │ ├── adb/ # ADB连接与设备控制 │ ├── actions/ # 动作执行处理器 │ └── model/ # 模型调用接口 └── requirements.txt # 依赖列表

3.2 安装 Python 依赖

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装，方便后续修改源码。

常见依赖库说明：

torch,transformers：深度学习基础框架
fastapi,uvicorn：API服务支持（若启用本地模型服务）
opencv-python：图像预处理
adbutils：轻量级ADB操作库

安装完成后，可通过以下命令检查是否正常导入：

from phone_agent import PhoneAgent print("Open-AutoGLM 导入成功！")

4. 模型部署：启动本地推理服务

Open-AutoGLM 本身只是一个“指挥官”，真正的“大脑”是背后的视觉语言模型。我们需要先启动一个兼容 OpenAI 接口的模型服务。

这里推荐使用vLLM来部署模型，性能高且支持多模态输入。

4.1 下载模型权重

官方提供两个版本：

模型名称	适用场景	下载地址
AutoGLM-Phone-9B	中文应用为主	Hugging Face
AutoGLM-Phone-9B-Multilingual	支持英文及多语言	Hugging Face

建议选择中文版，更适合国内App环境。

使用git lfs下载（需提前安装 Git LFS）：

git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

4.2 使用 vLLM 启动模型服务

确保已安装 vLLM：

pip install vllm

启动服务命令：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000

参数说明：

--model：模型本地路径
--port：服务端口，默认8000
--max-model-len：上下文长度，影响记忆能力
--mm_processor_kwargs：控制图像分辨率处理上限

启动成功后，你会看到类似输出：

INFO: Started server process [PID] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000

此时模型服务已在http://localhost:8000/v1提供 API 接口。

5. 连接手机设备：ADB 实现远程操控

现在我们已经准备好“大脑”（模型服务）和“指挥系统”（Open-AutoGLM代码），接下来就是让它们“看到”并“控制”你的手机。

5.1 USB 连接方式（推荐新手）

用数据线将手机连接电脑
手机弹出“允许USB调试？”对话框时，点击“允许”

在终端运行：

adb devices

输出应类似：

List of devices attached 1234567890ABCDEF device

如果显示unauthorized，请重新插拔并确认授权。

5.2 WiFi 无线连接（适合远程使用）

优点：摆脱数据线束缚，可在同一局域网内远程控制。

步骤：

先用USB连接设备
开启ADB over TCP/IP：
```
adb tcpip 5555
```
断开USB，获取手机IP地址（可在Wi-Fi设置中查看）
连接设备：
```
adb connect 192.168.1.100:5555
```
再次运行adb devices验证连接状态

成功后即可拔掉数据线，实现无线操控。

6. 启动AI代理：让手机自己动起来

一切就绪，现在让我们下达第一条指令！

6.1 命令行方式运行任务

在项目根目录执行：

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索最近热门的咖啡店"

参数解释：

--device-id：来自adb devices的设备ID
--base-url：模型服务地址
最后的字符串：你的自然语言指令

运行过程中，你会看到：

实时截图上传日志
模型分析结果（如识别出“搜索框”、“返回按钮”）
执行的动作序列（点击、输入、滑动）

几秒钟后，你会发现手机自动打开了小红书，并完成了搜索操作。

6.2 Python API 调用（适合集成开发）

如果你希望将此功能嵌入其他程序，可以直接使用 Python API：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b" ) # 创建代理实例 agent = PhoneAgent(model_config=model_config, device_id="1234567890ABCDEF") # 执行任务 result = agent.run("打开美团，订今晚六点的火锅套餐") print("任务完成:", result)

这种方式便于批量处理任务或构建GUI界面。

7. 实际效果展示与使用建议

我亲自测试了多个场景，效果令人惊喜：

指令	实际表现
“打开微信，给张三发消息说‘晚上聚餐吗？’”	成功找到联系人并发送消息
“打开淘宝，搜索无线蓝牙耳机，按销量排序”	自动进入搜索页并切换排序方式
“打开抖音，刷10秒视频，点赞第一个”	完成滑动+识别点赞图标+点击

观察总结

优势明显：

对主流App识别准确率高
操作流畅，平均响应时间 < 3秒
支持复杂链式任务（多步操作）

注意事项：

屏幕分辨率过高可能导致截图传输慢（建议1080p以内）
某些动态加载界面（如直播页）可能识别延迟
首次运行建议开启日志详细模式（--verbose）便于调试

提升成功率的小技巧

保持屏幕亮度充足：避免因暗屏导致截图模糊
关闭手势导航：建议使用经典三键导航，元素更易定位
避免锁屏：任务执行期间不要让手机休眠
使用固定布局主题：某些定制ROM的图标位置会变动

8. 常见问题与排查指南

8.1 ADB 连接失败

现象：adb devices无设备或显示unauthorized

解决方法：

重新开启USB调试
清除授权记录：adb kill-server && adb start-server
更换数据线或USB端口

8.2 模型无响应或乱码

现象：AI一直思考但不出结果，或输出乱码字符

原因排查：

检查模型路径是否正确
确认--max-model-len设置足够大（建议≥25480）
查看GPU显存是否充足（9B模型至少需要16GB）

8.3 输入中文失败

现象：搜索词无法正确输入

解决方案：

确保 ADB Keyboard 已设为默认输入法
测试命令：adb shell am broadcast -a ADB_INPUT_TEXT --es msg "你好"
若无效，尝试重启ADB服务

8.4 防火墙阻止连接（远程部署时）

当模型服务部署在云服务器上时，需开放对应端口：

# Ubuntu 示例 sudo ufw allow 8000

同时确保云平台安全组规则放行该端口。

9. 总结：迈向真正的手机AI助理时代

通过本文的完整流程，你应该已经成功部署了 Open-AutoGLM，并见证了AI如何接管你的手机完成实际任务。

回顾整个过程的关键节点：

环境准备：Python + ADB + 开发者权限
代码部署：克隆项目并安装依赖
模型启动：使用 vLLM 提供 OpenAI 兼容接口
设备连接：通过USB或WiFi建立ADB通道
任务执行：一句自然语言触发全自动操作

这不仅是一个技术玩具，更是未来人机交互方式的一次预演。想象一下，在驾驶、做饭或双手不便时，只需一句话就能让手机替你完成操作——这才是AI应有的样子。

更重要的是，这一切都在本地完成，没有数据上传，没有隐私泄露风险。你拥有对设备的绝对控制权。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

凉山彝族自治州网站建设_网站建设公司_过渡效果_seo优化

手机AI助手来了！Open-AutoGLM本地部署完整流程

1. 项目简介：什么是 Open-AutoGLM？

核心特性一览

2. 准备工作：软硬件环境搭建

2.1 本地电脑环境要求

2.2 安卓设备准备

开启开发者模式与USB调试

2.3 安装 ADB Keyboard（关键步骤）

3. 部署控制端：Open-AutoGLM 本地安装

3.1 克隆项目仓库

3.2 安装 Python 依赖

4. 模型部署：启动本地推理服务

4.1 下载模型权重

4.2 使用 vLLM 启动模型服务

5. 连接手机设备：ADB 实现远程操控

5.1 USB 连接方式（推荐新手）

5.2 WiFi 无线连接（适合远程使用）

6. 启动AI代理：让手机自己动起来

6.1 命令行方式运行任务

6.2 Python API 调用（适合集成开发）

7. 实际效果展示与使用建议

观察总结

提升成功率的小技巧

8. 常见问题与排查指南

8.1 ADB 连接失败

8.2 模型无响应或乱码

8.3 输入中文失败

8.4 防火墙阻止连接（远程部署时）

9. 总结：迈向真正的手机AI助理时代

热门文章

文章分类

标签云

需要专业的网站建设服务？

凉山彝族自治州网站建设_网站建设公司_过渡效果_seo优化

手机AI助手来了！Open-AutoGLM本地部署完整流程

1. 项目简介：什么是 Open-AutoGLM？

核心特性一览

2. 准备工作：软硬件环境搭建

2.1 本地电脑环境要求

2.2 安卓设备准备

开启开发者模式与USB调试

2.3 安装 ADB Keyboard（关键步骤）

3. 部署控制端：Open-AutoGLM 本地安装

3.1 克隆项目仓库

3.2 安装 Python 依赖

4. 模型部署：启动本地推理服务

4.1 下载模型权重

4.2 使用 vLLM 启动模型服务

5. 连接手机设备：ADB 实现远程操控

5.1 USB 连接方式（推荐新手）

5.2 WiFi 无线连接（适合远程使用）

6. 启动AI代理：让手机自己动起来

6.1 命令行方式运行任务

6.2 Python API 调用（适合集成开发）

7. 实际效果展示与使用建议

观察总结

提升成功率的小技巧

8. 常见问题与排查指南

8.1 ADB 连接失败

8.2 模型无响应或乱码

8.3 输入中文失败

8.4 防火墙阻止连接（远程部署时）

9. 总结：迈向真正的手机AI助理时代

热门文章

文章分类

标签云

相关文章

1小时搞定图夹2.0解图网页原型开发

零基础入门：10分钟学会Postman在线测试API

AI如何帮你快速设计RC滤波电路？

需要专业的网站建设服务？