台州市网站建设_网站建设公司_SSG_seo优化
2026/1/22 6:48:44 网站建设 项目流程

动手试了Open-AutoGLM,语音指令自动刷抖音太神奇

1. 引言:当AI开始替你操作手机

你有没有想过,有一天只要说一句“帮我刷会儿抖音”,手机就会自己动起来,滑动、点赞、关注博主一气呵成?这不是科幻电影,而是我最近亲测实现的真实场景——通过Open-AutoGLM,一个由智谱开源的手机端AI Agent框架,让大模型真正“上手”操控你的安卓设备。

这个项目叫AutoGLM-Phone,它不是一个简单的自动化脚本工具,而是一个具备“看懂屏幕+理解语言+自主决策”能力的多模态智能体。你只需要用自然语言下指令,比如:“打开小红书搜美食”、“在抖音关注某个账号”,它就能自动解析意图、识别当前界面元素,并一步步完成点击、滑动、输入等操作。

最让我震惊的是,整个过程完全像人在操作:它会等页面加载、判断按钮位置、甚至在遇到验证码时主动停下来让你接管。今天我就带你从零开始,亲手部署并体验这个“会动手的AI”。


2. 核心原理:AI是如何“看”和“动”的?

2.1 多模态感知:不只是“读文字”

传统自动化工具(如Appium)依赖固定的UI控件ID或坐标来执行动作,一旦APP更新界面就容易失效。而Open-AutoGLM完全不同,它的核心是视觉语言模型(VLM),能同时处理两种信息:

  • 屏幕截图:实时获取手机当前画面
  • UI结构树(XML):通过ADB获取每个按钮、文本框的位置与属性

这就像一个人既看到了屏幕长什么样,又能“透视”到背后的代码结构。模型结合这两者,就能准确理解“哪个区域是搜索框”、“哪里该点进去”。

2.2 自主规划:从一句话到一连串动作

当你下达“打开抖音搜索某博主并关注他”这样的指令时,AI并不会盲目执行。它会在内部先进行一轮“思考”,生成类似下面的推理过程:

1. 当前可能在桌面 → 需要找到抖音图标 2. 打开抖音后 → 主页有推荐流,顶部应该有搜索入口 3. 点击搜索框 → 输入用户名 4. 在结果页找到目标账号 → 点击进入主页 5. 查看是否已关注 → 若未关注则点击“关注”按钮

这套逻辑不是写死的规则,而是由大模型动态生成的任务分解计划。每走一步,它都会重新截图、分析新界面,再决定下一步怎么走,形成一个闭环。

2.3 安全机制:敏感操作不越界

为了防止误操作,系统内置了人工接管机制。例如在支付、登录、验证码等场景,AI不会强行操作,而是输出{"action": "Take_over"}指令,提示用户手动处理。这也意味着你可以放心让它运行,不用担心它偷偷帮你付款。


3. 实战部署:本地电脑控制真机全流程

3.1 准备工作清单

要让Open-AutoGLM跑起来,你需要准备以下几样东西:

类别要求
电脑Windows / macOS,建议Python 3.10+
手机Android 7.0以上的真实设备或模拟器
工具ADB调试工具、USB数据线(或WiFi连接)
输入法必须安装ADB Keyboard作为默认输入法

特别提醒:ADB Keyboard是用来让AI能“打字”的关键组件,否则Type指令无法生效。


3.2 手机端设置步骤

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示“您已开启开发者选项”。

  2. 启用USB调试
    返回设置主菜单 →「开发者选项」→ 开启“USB调试”。

  3. 安装ADB Keyboard

    • 下载 ADB Keyboard APK 并安装
    • 进入「语言与输入法」→ 将默认键盘切换为 ADB Keyboard

完成后,你可以尝试在任意输入框中用命令行输入文字:

adb shell input text "Hello%20World"

如果屏幕上出现“Hello World”,说明输入通道已打通。


3.3 部署控制端代码

接下来在本地电脑上部署Open-AutoGLM的客户端代码:

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

这些命令会安装必要的库,包括用于图像处理的Pillow、通信用的requests,以及ADB接口封装模块。


3.4 连接设备的两种方式

USB直连(推荐新手)

确保手机通过USB线连接电脑,然后运行:

adb devices

你应该能看到类似这样的输出:

List of devices attached AERFUT4B08000806 device

只要有device状态,说明连接成功。

WiFi无线连接(适合远程控制)

如果你希望摆脱数据线,可以用WiFi连接:

# 第一次需用USB连接,开启TCP/IP模式 adb tcpip 5555 # 断开USB后,用IP地址连接(假设手机IP为192.168.1.100) adb connect 192.168.1.100:5555

之后就可以拔掉线缆,在同一局域网内继续控制手机。


4. 让AI真正动起来:执行第一条指令

一切就绪后,终于可以下达第一条语音级指令了!

4.1 命令行启动示例

假设你已经有一台云服务器部署好了AutoGLM模型服务(基于vLLM),可以通过HTTP API调用,那么在本地运行如下命令:

python main.py \ --device-id AERFUT4B08000806 \ --base-url http://your-server-ip:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices列出的设备ID
  • --base-url:指向运行模型的远程API地址
  • --model:指定使用的模型名称
  • 最后的字符串:就是你要下达的自然语言指令

4.2 实际执行效果记录

当我发出这条指令后,AI开始行动:

  1. 识别桌面图标,找到并点击“抖音”App
  2. 等待首页加载完成,定位顶部搜索栏并点击
  3. 输入指定的抖音号dycwo11nt61d
  4. 在搜索结果中查找对应用户,点击进入其主页
  5. 判断“关注”按钮状态,点击完成关注

全程约90秒,期间自动等待网络加载、处理弹窗广告,最终成功完成任务。更神奇的是,当我回放录屏时,发现它的滑动节奏和人类几乎一致——不是机械地快速翻页,而是有停顿、有观察。


4.3 Python API方式调用(适合集成开发)

除了命令行,你也可以在自己的程序中调用Open-AutoGLM的功能:

from phone_agent.adb import ADBConnection, list_devices # 创建ADB连接管理器 conn = ADBConnection() # 连接设备(支持IP:port格式) success, msg = conn.connect("192.168.1.100:5555") print(f"连接状态: {msg}") # 获取所有连接设备 devices = list_devices() for d in devices: print(f"设备: {d.device_id}") # 可选:启用TCP/IP模式 conn.enable_tcpip(5555) # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式便于将AI操作嵌入到更大的自动化系统中,比如批量测试多个账号、定时执行任务等。


5. 效果实测:不止是刷抖音,还能做更多

5.1 更复杂的任务也能搞定

我又尝试了几条更复杂的指令,结果令人惊喜:

指令内容执行结果
“打开小红书搜‘北京周末好去处’,点赞前三篇笔记”成功搜索并逐一点赞
“在淘宝搜索蓝牙耳机,按价格从低到高排序”正确点击筛选菜单完成排序
“给微信里的‘张三’发消息:今晚聚餐记得来”找到联系人并发送消息成功

尤其是最后一条,AI不仅找到了聊天列表中的“张三”,还识别出输入框和发送按钮,整个流程无需任何预设脚本。


5.2 多语言支持表现良好

我还测试了英文指令:

"Open WeChat and send a message to Lily saying 'See you tomorrow!'"

AI同样准确理解并执行,说明模型具备一定的多语言能力,这对国际化应用测试非常有价值。


5.3 局限性也明显存在

当然,目前还不是完美无缺:

  • 响应速度较慢:每步决策平均耗时5~15秒,不适合高频操作
  • 复杂交互易失败:涉及手势解锁、滑块验证等非标准UI时会卡住
  • 依赖稳定网络:若使用远程模型服务,网络抖动会导致中断

但这些问题更多是现阶段技术限制,而非设计缺陷。


6. 总结:我们正在见证自动化的新范式

6.1 为什么Open-AutoGLM值得你亲自试试?

因为它代表了一种全新的交互方式:从“我操作手机”变成“我说话,手机自己动”

无论是想解放双手刷短视频,还是为企业做自动化测试,Open-AutoGLM都提供了一个可落地的技术路径。更重要的是,它是开源的,你可以自由修改、部署、扩展。


6.2 两种部署方案对比建议

场景推荐方案说明
个人尝鲜、隐私优先Mac M2本地部署 + 4-bit量化数据不出本地,适合学习
团队协作、效率优先H800服务器 + vLLM引擎响应快7~8倍,支持并发

如果你只是想体验一下“语音控制手机”的感觉,Mac或普通PC配合量化模型完全够用;但如果要做批量测试或产品集成,强烈建议上GPU服务器。


6.3 未来展望:AI助理的下一站在哪?

Open-AutoGLM只是一个起点。想象一下,未来的手机里内置一个这样的Agent:

  • 早上起床自动查看天气、推送通勤路线
  • 收到重要消息时主动提醒你回复
  • 每周自动生成消费报告,帮你记账
  • 甚至在你开会时帮你监听来电并代为回复

这一切都不再需要一个个App单独授权,而是由一个统一的AI代理,基于你的指令和偏好,安全、可控地完成操作。

现在,你只需要一条命令,就能让AI替你刷抖音。
不久的将来,也许你只需说一句“帮我过好这一天”,它就会为你安排好一切。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询