台州市网站建设_网站建设公司_SSG_seo优化-彰化县网站建设公司

动手试了Open-AutoGLM，语音指令自动刷抖音太神奇

1. 引言：当AI开始替你操作手机

你有没有想过，有一天只要说一句“帮我刷会儿抖音”，手机就会自己动起来，滑动、点赞、关注博主一气呵成？这不是科幻电影，而是我最近亲测实现的真实场景——通过Open-AutoGLM，一个由智谱开源的手机端AI Agent框架，让大模型真正“上手”操控你的安卓设备。

这个项目叫AutoGLM-Phone，它不是一个简单的自动化脚本工具，而是一个具备“看懂屏幕+理解语言+自主决策”能力的多模态智能体。你只需要用自然语言下指令，比如：“打开小红书搜美食”、“在抖音关注某个账号”，它就能自动解析意图、识别当前界面元素，并一步步完成点击、滑动、输入等操作。

最让我震惊的是，整个过程完全像人在操作：它会等页面加载、判断按钮位置、甚至在遇到验证码时主动停下来让你接管。今天我就带你从零开始，亲手部署并体验这个“会动手的AI”。

2. 核心原理：AI是如何“看”和“动”的？

2.1 多模态感知：不只是“读文字”

传统自动化工具（如Appium）依赖固定的UI控件ID或坐标来执行动作，一旦APP更新界面就容易失效。而Open-AutoGLM完全不同，它的核心是视觉语言模型（VLM），能同时处理两种信息：

屏幕截图：实时获取手机当前画面
UI结构树（XML）：通过ADB获取每个按钮、文本框的位置与属性

这就像一个人既看到了屏幕长什么样，又能“透视”到背后的代码结构。模型结合这两者，就能准确理解“哪个区域是搜索框”、“哪里该点进去”。

2.2 自主规划：从一句话到一连串动作

当你下达“打开抖音搜索某博主并关注他”这样的指令时，AI并不会盲目执行。它会在内部先进行一轮“思考”，生成类似下面的推理过程：

1. 当前可能在桌面 → 需要找到抖音图标 2. 打开抖音后 → 主页有推荐流，顶部应该有搜索入口 3. 点击搜索框 → 输入用户名 4. 在结果页找到目标账号 → 点击进入主页 5. 查看是否已关注 → 若未关注则点击“关注”按钮

这套逻辑不是写死的规则，而是由大模型动态生成的任务分解计划。每走一步，它都会重新截图、分析新界面，再决定下一步怎么走，形成一个闭环。

2.3 安全机制：敏感操作不越界

为了防止误操作，系统内置了人工接管机制。例如在支付、登录、验证码等场景，AI不会强行操作，而是输出{"action": "Take_over"}指令，提示用户手动处理。这也意味着你可以放心让它运行，不用担心它偷偷帮你付款。

3. 实战部署：本地电脑控制真机全流程

3.1 准备工作清单

要让Open-AutoGLM跑起来，你需要准备以下几样东西：

类别	要求
电脑	Windows / macOS，建议Python 3.10+
手机	Android 7.0以上的真实设备或模拟器
工具	ADB调试工具、USB数据线（或WiFi连接）
输入法	必须安装ADB Keyboard作为默认输入法

特别提醒：ADB Keyboard是用来让AI能“打字”的关键组件，否则Type指令无法生效。

3.2 手机端设置步骤

开启开发者模式
进入「设置」→「关于手机」→ 连续点击“版本号”7次，直到提示“您已开启开发者选项”。
启用USB调试
返回设置主菜单 →「开发者选项」→ 开启“USB调试”。
安装ADB Keyboard
- 下载 ADB Keyboard APK 并安装
- 进入「语言与输入法」→ 将默认键盘切换为 ADB Keyboard

完成后，你可以尝试在任意输入框中用命令行输入文字：

adb shell input text "Hello%20World"

如果屏幕上出现“Hello World”，说明输入通道已打通。

3.3 部署控制端代码

接下来在本地电脑上部署Open-AutoGLM的客户端代码：

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

这些命令会安装必要的库，包括用于图像处理的Pillow、通信用的requests，以及ADB接口封装模块。

3.4 连接设备的两种方式

USB直连（推荐新手）

确保手机通过USB线连接电脑，然后运行：

adb devices

你应该能看到类似这样的输出：

List of devices attached AERFUT4B08000806 device

只要有device状态，说明连接成功。

WiFi无线连接（适合远程控制）

如果你希望摆脱数据线，可以用WiFi连接：

# 第一次需用USB连接，开启TCP/IP模式 adb tcpip 5555 # 断开USB后，用IP地址连接（假设手机IP为192.168.1.100） adb connect 192.168.1.100:5555

之后就可以拔掉线缆，在同一局域网内继续控制手机。

4. 让AI真正动起来：执行第一条指令

一切就绪后，终于可以下达第一条语音级指令了！

4.1 命令行启动示例

假设你已经有一台云服务器部署好了AutoGLM模型服务（基于vLLM），可以通过HTTP API调用，那么在本地运行如下命令：

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://your-server-ip:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：来自adb devices列出的设备ID
--base-url：指向运行模型的远程API地址
--model：指定使用的模型名称
最后的字符串：就是你要下达的自然语言指令

4.2 实际执行效果记录

当我发出这条指令后，AI开始行动：

识别桌面图标，找到并点击“抖音”App
等待首页加载完成，定位顶部搜索栏并点击
输入指定的抖音号dycwo11nt61d
在搜索结果中查找对应用户，点击进入其主页
判断“关注”按钮状态，点击完成关注

全程约90秒，期间自动等待网络加载、处理弹窗广告，最终成功完成任务。更神奇的是，当我回放录屏时，发现它的滑动节奏和人类几乎一致——不是机械地快速翻页，而是有停顿、有观察。

4.3 Python API方式调用（适合集成开发）

除了命令行，你也可以在自己的程序中调用Open-AutoGLM的功能：

from phone_agent.adb import ADBConnection, list_devices # 创建ADB连接管理器 conn = ADBConnection() # 连接设备（支持IP:port格式） success, msg = conn.connect("192.168.1.100:5555") print(f"连接状态: {msg}") # 获取所有连接设备 devices = list_devices() for d in devices: print(f"设备: {d.device_id}") # 可选：启用TCP/IP模式 conn.enable_tcpip(5555) # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式便于将AI操作嵌入到更大的自动化系统中，比如批量测试多个账号、定时执行任务等。

5. 效果实测：不止是刷抖音，还能做更多

5.1 更复杂的任务也能搞定

我又尝试了几条更复杂的指令，结果令人惊喜：

指令内容	执行结果
“打开小红书搜‘北京周末好去处’，点赞前三篇笔记”	成功搜索并逐一点赞
“在淘宝搜索蓝牙耳机，按价格从低到高排序”	正确点击筛选菜单完成排序
“给微信里的‘张三’发消息：今晚聚餐记得来”	找到联系人并发送消息成功

尤其是最后一条，AI不仅找到了聊天列表中的“张三”，还识别出输入框和发送按钮，整个流程无需任何预设脚本。

5.2 多语言支持表现良好

我还测试了英文指令：

"Open WeChat and send a message to Lily saying 'See you tomorrow!'"

AI同样准确理解并执行，说明模型具备一定的多语言能力，这对国际化应用测试非常有价值。

5.3 局限性也明显存在

当然，目前还不是完美无缺：

响应速度较慢：每步决策平均耗时5~15秒，不适合高频操作
复杂交互易失败：涉及手势解锁、滑块验证等非标准UI时会卡住
依赖稳定网络：若使用远程模型服务，网络抖动会导致中断

但这些问题更多是现阶段技术限制，而非设计缺陷。

6. 总结：我们正在见证自动化的新范式

6.1 为什么Open-AutoGLM值得你亲自试试？

因为它代表了一种全新的交互方式：从“我操作手机”变成“我说话，手机自己动”。

无论是想解放双手刷短视频，还是为企业做自动化测试，Open-AutoGLM都提供了一个可落地的技术路径。更重要的是，它是开源的，你可以自由修改、部署、扩展。

6.2 两种部署方案对比建议

场景	推荐方案	说明
个人尝鲜、隐私优先	Mac M2本地部署 + 4-bit量化	数据不出本地，适合学习
团队协作、效率优先	H800服务器 + vLLM引擎	响应快7~8倍，支持并发

如果你只是想体验一下“语音控制手机”的感觉，Mac或普通PC配合量化模型完全够用；但如果要做批量测试或产品集成，强烈建议上GPU服务器。

6.3 未来展望：AI助理的下一站在哪？

Open-AutoGLM只是一个起点。想象一下，未来的手机里内置一个这样的Agent：

早上起床自动查看天气、推送通勤路线
收到重要消息时主动提醒你回复
每周自动生成消费报告，帮你记账
甚至在你开会时帮你监听来电并代为回复

这一切都不再需要一个个App单独授权，而是由一个统一的AI代理，基于你的指令和偏好，安全、可控地完成操作。

现在，你只需要一条命令，就能让AI替你刷抖音。
不久的将来，也许你只需说一句“帮我过好这一天”，它就会为你安排好一切。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

台州市网站建设_网站建设公司_SSG_seo优化

动手试了Open-AutoGLM，语音指令自动刷抖音太神奇

1. 引言：当AI开始替你操作手机

2. 核心原理：AI是如何“看”和“动”的？

2.1 多模态感知：不只是“读文字”

2.2 自主规划：从一句话到一连串动作

2.3 安全机制：敏感操作不越界

3. 实战部署：本地电脑控制真机全流程

3.1 准备工作清单

3.2 手机端设置步骤

3.3 部署控制端代码

3.4 连接设备的两种方式

USB直连（推荐新手）

WiFi无线连接（适合远程控制）

4. 让AI真正动起来：执行第一条指令

4.1 命令行启动示例

4.2 实际执行效果记录

4.3 Python API方式调用（适合集成开发）

5. 效果实测：不止是刷抖音，还能做更多

5.1 更复杂的任务也能搞定

5.2 多语言支持表现良好

5.3 局限性也明显存在

6. 总结：我们正在见证自动化的新范式

6.1 为什么Open-AutoGLM值得你亲自试试？

6.2 两种部署方案对比建议

6.3 未来展望：AI助理的下一站在哪？

热门文章

文章分类

标签云

需要专业的网站建设服务？

台州市网站建设_网站建设公司_SSG_seo优化

动手试了Open-AutoGLM，语音指令自动刷抖音太神奇

1. 引言：当AI开始替你操作手机

2. 核心原理：AI是如何“看”和“动”的？

2.1 多模态感知：不只是“读文字”

2.2 自主规划：从一句话到一连串动作

2.3 安全机制：敏感操作不越界

3. 实战部署：本地电脑控制真机全流程

3.1 准备工作清单

3.2 手机端设置步骤

3.3 部署控制端代码

3.4 连接设备的两种方式

USB直连（推荐新手）

WiFi无线连接（适合远程控制）

4. 让AI真正动起来：执行第一条指令

4.1 命令行启动示例

4.2 实际执行效果记录

4.3 Python API方式调用（适合集成开发）

5. 效果实测：不止是刷抖音，还能做更多

5.1 更复杂的任务也能搞定

5.2 多语言支持表现良好

5.3 局限性也明显存在

6. 总结：我们正在见证自动化的新范式

6.1 为什么Open-AutoGLM值得你亲自试试？

6.2 两种部署方案对比建议

6.3 未来展望：AI助理的下一站在哪？

热门文章

文章分类

标签云

相关文章

FSMN-VAD调试经验：解决音频格式兼容问题

从SAM到SAM3升级实践｜基于大模型镜像实现英文Prompt图像分割

开发者实测推荐：Qwen儿童图像AI镜像一键部署体验指南

需要专业的网站建设服务？