动手试了Open-AutoGLM,语音指令自动刷抖音太神奇
1. 引言:当AI开始替你操作手机
你有没有想过,有一天只要说一句“帮我刷会儿抖音”,手机就会自己动起来,滑动、点赞、关注博主一气呵成?这不是科幻电影,而是我最近亲测实现的真实场景——通过Open-AutoGLM,一个由智谱开源的手机端AI Agent框架,让大模型真正“上手”操控你的安卓设备。
这个项目叫AutoGLM-Phone,它不是一个简单的自动化脚本工具,而是一个具备“看懂屏幕+理解语言+自主决策”能力的多模态智能体。你只需要用自然语言下指令,比如:“打开小红书搜美食”、“在抖音关注某个账号”,它就能自动解析意图、识别当前界面元素,并一步步完成点击、滑动、输入等操作。
最让我震惊的是,整个过程完全像人在操作:它会等页面加载、判断按钮位置、甚至在遇到验证码时主动停下来让你接管。今天我就带你从零开始,亲手部署并体验这个“会动手的AI”。
2. 核心原理:AI是如何“看”和“动”的?
2.1 多模态感知:不只是“读文字”
传统自动化工具(如Appium)依赖固定的UI控件ID或坐标来执行动作,一旦APP更新界面就容易失效。而Open-AutoGLM完全不同,它的核心是视觉语言模型(VLM),能同时处理两种信息:
- 屏幕截图:实时获取手机当前画面
- UI结构树(XML):通过ADB获取每个按钮、文本框的位置与属性
这就像一个人既看到了屏幕长什么样,又能“透视”到背后的代码结构。模型结合这两者,就能准确理解“哪个区域是搜索框”、“哪里该点进去”。
2.2 自主规划:从一句话到一连串动作
当你下达“打开抖音搜索某博主并关注他”这样的指令时,AI并不会盲目执行。它会在内部先进行一轮“思考”,生成类似下面的推理过程:
1. 当前可能在桌面 → 需要找到抖音图标 2. 打开抖音后 → 主页有推荐流,顶部应该有搜索入口 3. 点击搜索框 → 输入用户名 4. 在结果页找到目标账号 → 点击进入主页 5. 查看是否已关注 → 若未关注则点击“关注”按钮这套逻辑不是写死的规则,而是由大模型动态生成的任务分解计划。每走一步,它都会重新截图、分析新界面,再决定下一步怎么走,形成一个闭环。
2.3 安全机制:敏感操作不越界
为了防止误操作,系统内置了人工接管机制。例如在支付、登录、验证码等场景,AI不会强行操作,而是输出{"action": "Take_over"}指令,提示用户手动处理。这也意味着你可以放心让它运行,不用担心它偷偷帮你付款。
3. 实战部署:本地电脑控制真机全流程
3.1 准备工作清单
要让Open-AutoGLM跑起来,你需要准备以下几样东西:
| 类别 | 要求 |
|---|---|
| 电脑 | Windows / macOS,建议Python 3.10+ |
| 手机 | Android 7.0以上的真实设备或模拟器 |
| 工具 | ADB调试工具、USB数据线(或WiFi连接) |
| 输入法 | 必须安装ADB Keyboard作为默认输入法 |
特别提醒:ADB Keyboard是用来让AI能“打字”的关键组件,否则Type指令无法生效。
3.2 手机端设置步骤
开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示“您已开启开发者选项”。启用USB调试
返回设置主菜单 →「开发者选项」→ 开启“USB调试”。安装ADB Keyboard
- 下载 ADB Keyboard APK 并安装
- 进入「语言与输入法」→ 将默认键盘切换为 ADB Keyboard
完成后,你可以尝试在任意输入框中用命令行输入文字:
adb shell input text "Hello%20World"如果屏幕上出现“Hello World”,说明输入通道已打通。
3.3 部署控制端代码
接下来在本地电脑上部署Open-AutoGLM的客户端代码:
# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .这些命令会安装必要的库,包括用于图像处理的Pillow、通信用的requests,以及ADB接口封装模块。
3.4 连接设备的两种方式
USB直连(推荐新手)
确保手机通过USB线连接电脑,然后运行:
adb devices你应该能看到类似这样的输出:
List of devices attached AERFUT4B08000806 device只要有device状态,说明连接成功。
WiFi无线连接(适合远程控制)
如果你希望摆脱数据线,可以用WiFi连接:
# 第一次需用USB连接,开启TCP/IP模式 adb tcpip 5555 # 断开USB后,用IP地址连接(假设手机IP为192.168.1.100) adb connect 192.168.1.100:5555之后就可以拔掉线缆,在同一局域网内继续控制手机。
4. 让AI真正动起来:执行第一条指令
一切就绪后,终于可以下达第一条语音级指令了!
4.1 命令行启动示例
假设你已经有一台云服务器部署好了AutoGLM模型服务(基于vLLM),可以通过HTTP API调用,那么在本地运行如下命令:
python main.py \ --device-id AERFUT4B08000806 \ --base-url http://your-server-ip:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:来自adb devices列出的设备ID--base-url:指向运行模型的远程API地址--model:指定使用的模型名称- 最后的字符串:就是你要下达的自然语言指令
4.2 实际执行效果记录
当我发出这条指令后,AI开始行动:
- 识别桌面图标,找到并点击“抖音”App
- 等待首页加载完成,定位顶部搜索栏并点击
- 输入指定的抖音号
dycwo11nt61d - 在搜索结果中查找对应用户,点击进入其主页
- 判断“关注”按钮状态,点击完成关注
全程约90秒,期间自动等待网络加载、处理弹窗广告,最终成功完成任务。更神奇的是,当我回放录屏时,发现它的滑动节奏和人类几乎一致——不是机械地快速翻页,而是有停顿、有观察。
4.3 Python API方式调用(适合集成开发)
除了命令行,你也可以在自己的程序中调用Open-AutoGLM的功能:
from phone_agent.adb import ADBConnection, list_devices # 创建ADB连接管理器 conn = ADBConnection() # 连接设备(支持IP:port格式) success, msg = conn.connect("192.168.1.100:5555") print(f"连接状态: {msg}") # 获取所有连接设备 devices = list_devices() for d in devices: print(f"设备: {d.device_id}") # 可选:启用TCP/IP模式 conn.enable_tcpip(5555) # 断开连接 conn.disconnect("192.168.1.100:5555")这种方式便于将AI操作嵌入到更大的自动化系统中,比如批量测试多个账号、定时执行任务等。
5. 效果实测:不止是刷抖音,还能做更多
5.1 更复杂的任务也能搞定
我又尝试了几条更复杂的指令,结果令人惊喜:
| 指令内容 | 执行结果 |
|---|---|
| “打开小红书搜‘北京周末好去处’,点赞前三篇笔记” | 成功搜索并逐一点赞 |
| “在淘宝搜索蓝牙耳机,按价格从低到高排序” | 正确点击筛选菜单完成排序 |
| “给微信里的‘张三’发消息:今晚聚餐记得来” | 找到联系人并发送消息成功 |
尤其是最后一条,AI不仅找到了聊天列表中的“张三”,还识别出输入框和发送按钮,整个流程无需任何预设脚本。
5.2 多语言支持表现良好
我还测试了英文指令:
"Open WeChat and send a message to Lily saying 'See you tomorrow!'"
AI同样准确理解并执行,说明模型具备一定的多语言能力,这对国际化应用测试非常有价值。
5.3 局限性也明显存在
当然,目前还不是完美无缺:
- 响应速度较慢:每步决策平均耗时5~15秒,不适合高频操作
- 复杂交互易失败:涉及手势解锁、滑块验证等非标准UI时会卡住
- 依赖稳定网络:若使用远程模型服务,网络抖动会导致中断
但这些问题更多是现阶段技术限制,而非设计缺陷。
6. 总结:我们正在见证自动化的新范式
6.1 为什么Open-AutoGLM值得你亲自试试?
因为它代表了一种全新的交互方式:从“我操作手机”变成“我说话,手机自己动”。
无论是想解放双手刷短视频,还是为企业做自动化测试,Open-AutoGLM都提供了一个可落地的技术路径。更重要的是,它是开源的,你可以自由修改、部署、扩展。
6.2 两种部署方案对比建议
| 场景 | 推荐方案 | 说明 |
|---|---|---|
| 个人尝鲜、隐私优先 | Mac M2本地部署 + 4-bit量化 | 数据不出本地,适合学习 |
| 团队协作、效率优先 | H800服务器 + vLLM引擎 | 响应快7~8倍,支持并发 |
如果你只是想体验一下“语音控制手机”的感觉,Mac或普通PC配合量化模型完全够用;但如果要做批量测试或产品集成,强烈建议上GPU服务器。
6.3 未来展望:AI助理的下一站在哪?
Open-AutoGLM只是一个起点。想象一下,未来的手机里内置一个这样的Agent:
- 早上起床自动查看天气、推送通勤路线
- 收到重要消息时主动提醒你回复
- 每周自动生成消费报告,帮你记账
- 甚至在你开会时帮你监听来电并代为回复
这一切都不再需要一个个App单独授权,而是由一个统一的AI代理,基于你的指令和偏好,安全、可控地完成操作。
现在,你只需要一条命令,就能让AI替你刷抖音。
不久的将来,也许你只需说一句“帮我过好这一天”,它就会为你安排好一切。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。