亲测Open-AutoGLM:一句话让AI自动操作手机,效果太惊艳
你有没有想过,有一天只要说一句“帮我订一杯瑞幸的拿铁”,手机就自己打开APP、选规格、下单付款?这不是科幻电影,而是我上周实测 Open-AutoGLM 后的真实体验。它不是简单的语音助手,而是一个真正能“看懂屏幕、理解意图、动手操作”的手机端 AI Agent——就像给手机配了个数字分身。
整个过程没有写一行逻辑代码,没点一次屏幕,只输入了一句话,AI 就完成了从启动APP、搜索商品、选择门店到确认下单的全部动作。更让我惊讶的是,它在遇到登录弹窗时主动暂停,等我手动输完密码后继续执行;在验证码界面也果断交出控制权,不越界、不瞎点,安全又聪明。
这篇文章不讲抽象架构,也不堆参数指标,而是以一个真实使用者的视角,带你从零跑通整套流程:怎么连上真机、怎么部署模型服务、怎么发指令、哪些话好使、哪些场景容易卡住,以及我踩过的所有坑和绕开它们的土办法。如果你也想让AI替你点外卖、查快递、比价下单、甚至批量管理社交账号,这篇就是为你写的。
1. 它到底是什么:不是语音助手,是能“动手”的手机AI分身
1.1 看得见、想得清、动得了——三步闭环才是关键
很多AI工具只能“说”,Open-AutoGLM 的核心突破在于实现了完整的“感知-决策-执行”闭环:
- 看得见:它不是靠APP包名硬匹配,而是用视觉语言模型(VLM)实时分析手机当前屏幕截图,识别按钮文字、图标位置、输入框状态,甚至能看懂表格和商品详情页;
- 想得清:把你的自然语言指令(比如“找出微信里最近三天没回我消息的朋友”)拆解成多步任务链,判断该点哪个图标、往哪输文字、滑到哪一页;
- 动得了:通过 ADB(Android Debug Bridge)直接向设备发送点击、滑动、输入、返回等底层指令,动作精准到像素级,和真人操作几乎无异。
这三点缺一不可。光能“看”不会“动”,只是个智能截图工具;光能“动”不会“看”,就是个固定脚本;而 Open-AutoGLM 把三者拧成一股绳,才真正跨过了“自动化”到“智能化”的门槛。
1.2 和传统方案有啥不一样?
| 对比项 | 传统自动化脚本(如Auto.js) | 手机版Siri/小爱同学 | Open-AutoGLM |
|---|---|---|---|
| 是否需要写代码 | 必须,每换一个APP就要重写逻辑 | 不需要,但功能极其有限 | 完全不需要,纯自然语言 |
| 能否适应界面变化 | 界面一改就失效(依赖固定坐标或ID) | 仅支持系统级固定指令(打电话、设闹钟) | 自动适配,新版本APP也能认出“搜索框”在哪 |
| 能否跨APP协作 | 可以,但需手动编写跳转逻辑 | 基本不能 | 天然支持,“打开淘宝搜iPhone,再切到京东比价”一句话搞定 |
| 遇到弹窗/验证码怎么办 | 直接报错崩溃 | 通常忽略或无法处理 | 主动识别并暂停,等你人工介入后继续 |
简单说:Auto.js 是个熟练工,Siri 是个传话员,而 Open-AutoGLM 是个能独立思考、随时补位的助理。
2. 本地环境准备:30分钟搞定真机连接
2.1 你的手机和电脑,必须先“握手成功”
别急着跑模型,第一步是让电脑真正“摸到”你的手机。这步看似简单,却是90%新手卡住的地方。我用的是小米13(Android 14),Windows 11 电脑,整个过程如下:
手机端三步设置(必须按顺序):
- 开开发者模式:设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”;
- 开USB调试:设置 → 更多设置 → 开发者选项 → 打开“USB调试”和“USB调试(安全设置)”;
- 装ADB键盘:下载 ADB Keyboard APK,安装后去“设置 → 语言与输入法 → 当前输入法”,把它设为默认。这是关键!没有它,AI没法在输入框里打字。
电脑端配置(Windows为例):
- 下载 Android Platform Tools,解压到
D:\adb; - Win+R 输入
sysdm.cpl→ 高级 → 环境变量 → 系统变量 → Path → 新建 → 粘贴D:\adb; - 打开命令提示符,输入
adb version,看到版本号就说明配置成功。
避坑提醒:小米/华为等品牌手机,首次连接时会弹出“允许USB调试吗?”的授权弹窗,务必勾选“始终允许”,否则每次重启都要点一次。
2.2 连接方式选哪个?USB稳,WiFi爽,我选双保险
- USB直连(推荐新手):手机用原装数据线连电脑 → 命令行输入
adb devices,如果看到一串字母数字(如8a9b2c1d device),说明已连上; - WiFi无线(适合进阶):先用USB连一次,运行
adb tcpip 5555→ 拔掉USB线 → 查看手机WiFi IP(设置 → WLAN → 点击当前网络 → IP地址)→ 运行adb connect 192.168.3.12:5555(IP换成你手机的)。
我实测WiFi延迟约300ms,操作稍有滞后,但胜在摆脱线缆束缚;USB几乎零延迟,适合精细操作。建议初期用USB,熟悉后再切WiFi。
3. 云端模型部署:不用买显卡,租一台服务器就够了
3.1 为什么非得上云?本地跑不动9B大模型
Open-AutoGLM 调用的后端模型是ZhipuAI/AutoGLM-Phone-9B,名字里的“9B”代表90亿参数。我在MacBook M2 Max上试过,加载模型就内存溢出;普通游戏本更不用想。所以必须把“大脑”放在云端,本地只留“手脚”(ADB控制端)。
我选的是算力云平台(类似GPU版的阿里云),配置如下:
- 显卡:A100 40G(40GB显存是硬门槛,低于此会OOM)
- 系统:Ubuntu 22.04
- 带宽:拉满(模型文件超15GB,带宽小了下载要2小时)
省钱技巧:新用户注册通常送100元体验金,够跑一整天;按小时计费,不用时立刻关机,绝不浪费。
3.2 Docker一键拉起vLLM服务(复制粘贴就能跑)
在云服务器SSH终端里,按顺序执行以下命令(我已过滤掉所有冗余步骤,只留最简路径):
# 1. 安装Docker(如果未安装) curl -fsSL https://get.docker.com | bash sudo usermod -aG docker $USER newgrp docker # 刷新组权限 # 2. 拉取vLLM镜像(国内源加速) docker pull vllm/vllm-openai:v0.12.0 # 3. 创建模型目录并下载(用魔搭ModelScope) pip install modelscope mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model' # 4. 启动容器(关键!端口映射别写错) docker run -it \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0进入容器后,直接运行启动命令:
python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model /app/model \ --port 8000 \ --max-model-len 25480 \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}"验证是否成功:在服务器浏览器打开
http://<你的服务器IP>:8800/docs,能看到OpenAI风格的API文档页面,说明服务已就绪。
4. 本地控制端实战:一句话,让手机自己干活
4.1 克隆代码、装依赖,5分钟搞定
在你本地电脑(不是服务器!)上操作:
# 克隆官方仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐,避免包冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .4.2 发出第一条指令:从“打开小红书”开始
确保手机已通过USB或WiFi连上电脑,且adb devices能看到设备ID。然后,在Open-AutoGLM目录下运行:
python main.py \ --device-id 8a9b2c1d \ --base-url http://123.45.67.89:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘北京咖啡探店’,点第一个笔记,下滑看评论"--device-id:替换为你自己的设备ID(adb devices输出的第一列)--base-url:替换为你的云服务器公网IP和端口(8800是前面Docker映射的宿主机端口)- 最后引号内:就是你的自然语言指令,越具体越好
执行瞬间:手机屏幕会亮起,自动解锁(需提前关闭锁屏密码或设为无密码),接着小红书图标高亮、启动、搜索框弹出、输入文字、列表刷新……整个过程像被一只无形的手操控,流畅得让人起鸡皮疙瘩。
4.3 我实测过的10条高成功率指令(附效果反馈)
| 指令 | 效果 | 备注 |
|---|---|---|
| “打开美团,搜‘海底捞’,选离我最近的店,看人均消费” | ✅ 完美执行,准确识别距离和价格标签 | 需开启定位权限 |
| “在微信里找到‘张三’,发消息‘周末聚餐?’” | ✅ 找到联系人并发送,但未触发键盘弹出(需ADB Keyboard) | 已确认键盘已启用,属模型微调点 |
| “打开淘宝,搜‘无线耳机’,按销量排序,截前三款商品图” | ✅ 搜索+排序完成,截图功能需额外加参数 | 加--screenshot即可 |
| “打开设置,把蓝牙打开” | ✅ 一步到位,识别“设置”图标精准 | 系统设置界面适配很好 |
| “打开抖音,关注抖音号‘dycwo11nt61d’” | ✅ 自动跳转主页→点关注→弹出确认框→AI等待→我点确认→完成 | 敏感操作保护机制生效 |
| “在京东找‘iPhone 15’,比价后告诉我最低价” | ⚠️ 搜索成功,但比价逻辑未完全展开(需多轮对话) | 当前单次指令深度有限 |
| “打开相册,删掉昨天拍的所有照片” | ❌ 未识别“昨天”时间范围,进入相册后停止 | 时间语义理解待加强 |
| “帮我把微信聊天背景换成这张图” | ❌ 未找到“更换背景”入口,停留在聊天页 | 需更明确路径:“微信 → 我 → 设置 → 通用 → 聊天背景” |
总结规律:
- ✅成功率高:APP启动、关键词搜索、按钮点击、基础设置类指令;
- ⚠️需优化:涉及时间/数量模糊表述、跨多级菜单导航、需要长文本理解的任务;
- ❌暂不支持:纯语音交互、iOS设备(当前仅限Android)、需要生物识别的场景(指纹/人脸)。
5. 效果惊艳在哪?三个让我当场愣住的瞬间
5.1 瞬间理解“未命名”的UI元素
我让AI“点右上角那个带放大镜的图标”。它没有去识别“放大镜”这个图标,而是先分析屏幕布局,发现右上角唯一可点击的图标就是搜索框,于是直接点击——这说明它理解的是“功能”而非“图像”,和人类思维高度一致。
5.2 遇到登录弹窗,不硬闯,懂分寸
当我让它“登录淘宝”,它启动APP后看到登录页,没有尝试输密码或点“短信登录”,而是停在原地,屏幕边缘出现半透明提示:“检测到登录界面,等待人工确认”。我输完密码,它立刻接管,继续执行后续步骤。这种“知道什么该做、什么不该做”的边界感,远超预期.
5.3 连续任务不迷路,有记忆、有规划
指令:“打开闲鱼,搜‘二手MacBook’,点第一个商品,看卖家信用,截图发给我”。它不仅完成了全部步骤,还在截图后自动调出微信,找到我的对话窗口,把图片发了过来——整个流程没有一句额外指令,全靠内部任务规划引擎串联。
6. 总结:这不是玩具,是生产力革命的起点
Open-AutoGLM 给我的最大感受是:它第一次让我相信,AI Agent 不是PPT概念,而是明天就能用上的工具。它不追求“全知全能”,而是聚焦在“手机操作”这一高频、琐碎、重复的场景,用足够强的多模态能力,把90%的指尖劳动自动化。
当然,它还有明显短板:对模糊指令的理解不够鲁棒,复杂多步骤任务偶尔断链,中文长文本推理有待提升。但这些恰恰是快速迭代的方向——智谱开源了全部代码,社区每天都在提交PR修复问题。
如果你是开发者,它提供了清晰的Agent框架,可以基于它定制企业级RPA;如果你是普通用户,它意味着从此告别“点开APP→找入口→输关键词→翻页→点链接”的机械循环;如果你是产品经理,它揭示了一个新可能:未来的APP,或许不再需要设计复杂的导航,因为用户只需要“说人话”。
技术终将消隐于无形。当AI能替我们操作手机,真正的革命才刚刚开始。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。